《_中国档案主题词表_语义网络化应用研究.docx》由会员分享,可在线阅读,更多相关《_中国档案主题词表_语义网络化应用研究.docx(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、_中国档案主题词表_语义网络化应用研究(档案学研究)2020年第6期1(中国档案主题词表)语义网络化的意义国家档案局杨冬权局长于2020年5月12日在继“两个体系之后又专门提出了在全国建立档案安全保障体系。“三个体系的建设是档案领域实现可持续科学发展的重要保证,同时,也使档案领域迎来了史无前例的发展机遇和挑战。“三个体系的建设涉及到档案事业的各个方面。在网络化的信息时代乃至人类正在迈向知识社会之际,一个极其重要的方面就是要求对档案信息、知识资源进行科学整合与开发,进而建立起与当今社会相适应的“三个体系。只要这样才能进一步改良服务形式,提高档案信息服务十分是档案部门远程服务等能力。1而简约知识组
2、织系统SimpleKnowledgeOrganizationSystem,简称SKOS标准恰恰能够推动主题词表这一类知识组织系统的语义网络化的应用,对于我国档案领域而言,就是能够推动(中国档案主题词表)语义网络化的应用。(中国档案主题词表)语义网络化的应用能够建立起高效率的档案检索语义网,提升对我国档案资源的知识检索与分享利用服务,因而,对建立“覆盖人民群众的档案资源体系和“方便人民群众的档案利用体系,以及对(中国档案主题词表)语义网络化应用研究*段荣婷南京政治学院上海分院信息管理系上海200433摘要简约知识组织系统简称SKOS标准的应用是实现档案信息、知识资源的科学整合、开发与服务等能力提
3、升目的的重要技术方法之一。本文以(中国档案主题词表)的语义置标为例,具体阐述了SKOS系统化与规范化控制的详细实现。关键词中国档案主题词表简约知识组织系统语义网StudyontheApplicationofChineseArchivalThesaurusintheSemanticWebBasedonSKOSDuanRongtingNanjingPoliticsCollegeShanghaiBranch,Shanghai,200433Abstract:TheSimpleKnowledgeOrganizationSystemabbr.SKOSisaW3Cstandardanditsapplicat
4、ionisoneoftheimportanttechnologicalmethodsofrealizingtheintegrationofarchivalinformationandknowledgeresourcesandimprovingtheabilityinarchivalexploitationandservices.TakingtheChineseArchivalThesaurusmarking-upforinstance,thispaperdemonstratestherealizationofSKOSssystematicandstandardizedcontrol.Keywo
5、rds:Chinesearchivalthesaurus;SKOS;Semanticweb66-档案信息化建立“档案安全保障体系,并最终推进档案信息化与社会化建设,创始档案事业全面、协调和可持续发展新局面都具有重要意义。2简约知识组织系统SKOS概念及其标准化进程所谓的简约知识组织系统SKOS就是指:实现知识组织系统简称KOS表示的一种简单的资源描绘框架简称RDF形式化语义置标语言。其中,知识组织系统在档案领域主要是指档案主题词表、档案分类法;而简约知识组织系统,其“简约,主要是与语义描绘和转换机制更为复杂的诸如网络本体语言简称OWL等相比拟而言的。SKOS是RDF专门针对于知识组织系统在语义
6、网上的详细应用,因而其标准化进程自2003年的语义网高级开发欧洲项目简称SWAD-Europe开场后,紧接着于2004年开场就得到了国际万维网联盟简称W3C语义网最佳实践与部署工作组简称SWBPD-WG,目前称语义网部署工作组简称SWDWG的持续推进。纵观而言,其标准化进程主要经历了2005年等几个大的发展阶段后,时至2020年8月18日,W3C正式公布了SKOS的最新标准,该标准主要由SKOS规范正文SKOSReference、SKOS指南SKOSPrimer和SKOS实例与需求SKOSUsecases&requirements等构成。3简约知识组织系统SKOS构造-功能及其理论性与科学性研
7、究如前所述,SKOS的置标机理主要在于其定义了经过网络而分享与链接各种知识组织系统的共同数据模型。而SKOS数据模型提供了将现有知识组织系统迁移至语义网的标准、低成本的途径。23.1简约知识组织系统SKOS的构造-功能分析如图1所示,由于SKOS基于RDF,因而其包含了一套RDF词汇表,即一系列RDF属性及RDF形式RDFSchema,简称RDFS类,进而才得以实现对知识组织系统内容与构造特征的编码。由此,SKOS是由资源类型类与链接类型属性组成的标准集3,即其数据模型的基本组成要素是其类与属性,其中类代表SKOS所置标知识组织系统及其构成要素等的“对象资源类,及其描绘内容的详细“值资源类;而
8、属性则是描绘置标对象特征信息的不同分面。类规定属性的定义域Domain与取值范围Range。SKOS中共有4个内置类,分别为概念体系“skos:ConceptScheme、概念集合“skos:Collection与概念有序集合“skos:OrderedCollection,及概念“skos:Concept。类之间又具有如skos:OrderedCollection与skos:Collection的类与超类等关系。同时,SKOS又内置属性多达28种。综上所述,SKOS数据模型类似于实体类-关系属性模型,根据SKOS数据模型类及其属性构造特征,SKOS的主要功能可简单归纳如下:知识组织系统在语义网
9、上的表示与出版。SKOS的主要特征是提供了表达知识组织系统概念体系构造与内容的统一标准化RDF模型。主题标引、规范控制AuthorityControl与查询或阅读检索。SKOS提供了各种丰富的语义关系属性,因而它能够作为信息系统内的标引资源。不同知识组织系统的语义互操作,易于施行不同信息系统的联合检索。3.2简约知识组织系统SKOS的理论性与科学性分析3.2.1简约知识组织系统SKOS的理论性分析。从语义所描绘对象角度能够将语义划分为个体语义与关系语义两大类,个体语义主要面向人读,如SKOS的注释属性均具有个体语义描绘功能,其能够为专业标引人员编制或用户利用知识组织系统提供指导。而关系语义主要
10、面向计算机处理,详细控制可划分为概念、术语,及词汇等三大层次。4其中,概念层次的语义控制是整个主题词表描绘的核心,它侧重内容,标识概念间既包括不同概念体系间,亦包括同一概念体系内的语义关系;术语层次的语义控制侧重手段,标识概念与语词间的语义关系;词汇层次的语义控制侧重形式,标识语词间的语义关系。通过以上三层次,SKOS得以支持语义三角形式的概念Concept、术语语词Label描绘,实现知识组织体系语义的基本描绘功能,如图2所示。3.2.2简约知识组织系统SKOS的优越性与科学性分析。以叙词表为例,目前知识组织系统的表示还能够通过XML词表如ZTHES,MESH、概念图ConceptualMa
11、ps与主题图TopicMaps,简称67-(档案学研究)2020年第6期XTM、其他RDF词表如LIMBER,CERES,ILRT,及OWL本体等置标语言技术途径来实现,但SKOS有其综合性优势,即其科学性体现于:与XML词汇相比拟而言,SKOS基于RDF而更规范,能够在著录/描绘级别上实现语义网资源集成;与概念图或主题图相比拟而言,由于SKOS具有部分OWL特性而能够在逻辑级别上实现语义网资源集成;与其他RDF词表相比拟而言,由于SKOS基于概念模型paradigm而能够实现灵敏、标准化的开发,对概念的描绘具有更高的精细度与专指度;与OWL本体相比拟而言,SKOS更利于词表表示/语义描绘与网
12、络化维护需求的简单化实现。SKOS具有最大的成本效益。4(中国档案主题词表)应用简约知识组织系统SKOS的分析如前所述,SKOS是使传统知识组织系统KOS应用于新的语义网络环境的重要手段之一,其中最为典型的便是档案主题词表与SKOS技术的结合。使用SKOS的数据格式,能够单独表达叙词表词汇概念及词间关系5,计算机可“理解其中的知识构造和知识体系,并进而标准化地实现其语义网络化。在国际档案领域,英国67、荷兰8等国家均已应用SKOS将其档案主题词表发布于语义网上9,极大地提高了包括档案在内的文化遗产的标引与检索利用效益。对于我国来讲,与图书领域相比,档案的各种检索工具尚均未实现电子化,更无法谈及
13、其语义网络环境中的高级应用,而SKOS技术的出现无疑将是促进我国档案检索工具电子网络化跨越式发展的一条捷径。因而本文以(中国档案主题词表)为例,分析其SKOS化的详细方法。(中国档案主题词表)亦是一种叙词表,因而借鉴国际已有相关研究成果,其SKOS化可以采取步进式方法,步骤包括:分析主题词表;将主题词表数据条目向SKOS映射;创立转换程序。通过以上步骤构成RDF/XML编码,并进行语法验证,进而在网上发布。104.1(中国档案主题词表)基本构造分析我国目前所使用的还是于1995年正式出版的(中国档案主题词表)第二版,该标准亦与(ISO2788-1986文献单种语种叙词表编辑和修订指南)11相兼
14、容。(中国档案主题词表)的组成部分主要由主表、附表和辅助索引三个部分组成,详细包括主题词字顺表、范畴索引主题词分类索引、词族索引主题词等级索引,及专有主题词索引包括人名表、机构名表等。其中,主题词叙词字顺表是主体,即主表,因而其著录内容最详,由多条词款目组成有序集合。每条词款目大体可分为款目词、标注项和参照项三部分主题词款目构造概念模型如图3所示。主题词表中的词分为“正式主题词和“非正式主题词两类。相应地,词款目也分为两种:著录主题词的词款目称为主题词款目,著录非主题词的词款目称为非正式主题词款目。主题词款目实例及其与构造概念模型12之间的对应关系如图3与图4所示:68-档案信息化中国档案主题
15、词表rdf:typeskos:ConceptScheme;dct:title“中国档案主题词表;dct:creator中国档案主题词表编委会。4.2(中国档案主题词表)与简约知识组织系统SKOS的构造映射及其功能结合前文对SKOS构造-功能的分析,SKOS具有规范化描绘叙词表的功能,恰恰在于它具有众多核心属性与主题词参照系统的各参照项逐一对应,如表1所示:此外,(中国档案主题词表)的语义控制中对单个语词还应用了注释,详细包括限定注释与含义注释两大类。主题词注释与SKOS注释类属性的映射关系如表2所示:由此,(中国档案主题词表)的SKOS化具有下面基本功能:4.2.1SKOS的词汇语义关系标识属
16、性及其功能。SKOS的skos:prefLabel与skos:altLabel等可规范化地表达概念语词,并施行标准化的词汇控制如通过规定“一个资源的每个语种有且仅有一个skos:prefLabel值,使其到达“事物概念词汇逐一对应的要求,以保证文献在标引阶段和检索狭义阶段所使用的检索语言的一致性,使主题词法能够到达较高检索效率;此外,SKOS还定义了skos:hiddenLabel属性,使检索输入具有自动纠错功能,以便快检与检全。4.2.2SKOS的概念语义关系属性及其功能。显示概念之间的关系,是使情报和知识系统化的重要手段,同时可以创定一种语义环境,有助于在标引和检索中准确、全面地选词。SK
17、OS的skos:narrower下位登录,专指标引与skos:broader上位登录,上位标引,及skos:related相关登录,靠词标引等能够揭示主题概念之间的互相关系,把主题词之间的内在联络充分揭示出来,使主题词字顺表在语义逻辑上构成一个有机整体,进而到达知足族性检索和灵敏扩大/缩小检索途径的要求。4.2.3SKOS的注释属性及其功能。SKOS除其内置的以上两类核心属性外,还具有一类重要的附加属性注释属性,其中不仅skos:scopeNote与skos:definition映射于(中国档案主题词表)中的限定注释与含义注释两种类型,对某些含义不够明确的主题词的概念作进一步讲明,以保证其得到
18、正确使用,更增加了多种附加类型,如:skos:example、skos:historyNote、skos:editorialNote及skos:changeNote等,这些在下一步(中国档案主题词表)修订经过中对于注释类型的进一步丰富、语义控制的规范化与严格化,及主题词标引的规范化控制都将起到极大的推动作用。4.2.4SKOS的概念集合类及其功能。通过SKOS的概念集合skos:Collection与有序概念集合skos:OrderedCollection类,能够实现对(中国档案主题词表)范畴索引及词族索引如图5所示的描绘。4.2.5SKOS的概念体系类及其功能。通过SKOS的概念体系skos
19、:ConceptScheme类,能够直接实现对(中国档案主题词表)本身特征内容体系架构与形式信息的描绘,例如:如上对词表的概念体系进行描绘后,就一方面能够应用skos:inScheme属性,以标注主题词来源于(中国档案主题词表),这在整合应用多表标引档案文献及利用者检索需求时具有重要意义;另一方面,还可通过skos:hasTopConcept属性,标识出该词表的各族首词,进而易于构成等级关系全显示式参照系统,在需要显现词族体系时,即可使用计算机程序把关联具有属分关系的所有主题概念抽取出来,就得到一个完好的词族树状构造,构成主题69-(档案学研究)2020年第6期词等级索引词族索引。4.3(中国
20、档案主题词表)应用简约知识组织系统SKOS的特点总结综上所述,(中国档案主题词表)应用SKOS,使(中国档案主题词表)产生了质变,主要体如今语义组织网络化、语义关系规范化、语义构造灵敏性,及语义网络实用性等特点上。4.3.1语义组织网络化的特点。(中国档案主题词表)应用SKOS后,有利于档按语义网络的构成,能够从各个层面与各个角度对(中国档案主题词表)施行系统化的控制。如前所述,SKOS不仅对主题词汇的词形进行系统控制,更对其语义从概念、术语,及词汇等三大层次加以系统化控制;此外,对其构造也有下面三个层面的系统控制:通过概念语义映射,实现(中国档案主题词表)与(中国档案分类法)语义关联的网络化
21、,进而实现对其宏观语义构造的控制;通过实现(中国档案主题词表)本身辅表的自动智能化生成及其与主表SKOS语义关联的网络化,进而实现对其中观语义构造的控制;通过对主表款目词构造的语义与语法置标,实现微观语义的网络化,进而实现对其微观语义构造的控制。4.3.2语义关系规范化的特点。SKOS本身即是国际万维网联盟W3C公布的标准,它遵循于RDF模型,及基于ISO11179的数据元素基本模型。(中国档案主题词表)应用SKOS后,实现了对档案主题词对象类及其词间的概念语义关系特性/属性的规范化控制数据元素概念的SKOS表示。4.3.3语义构造灵敏性的特点。SKOS的高级扩展功能使其能够更灵敏地知足利用者
22、需求。(中国档案主题词表)应用SKOS后,得到了进一步的优化。4.3.4语义网络实用性的特点。(中国档案主题词表)应用SKOS后,在实用性方面详细表现为:利用SKOS的多表映射功能,实现词表重用与互操作,即整合利用;利用SKOS的多语种表示机制,推动(中国档案主题词表)向多语种此同时叙词表发展,进而能够促进国内乃至国际档案等文献信息资源的利用与分享。由此,(中国档案主题词表)应用SKOS后,能够实现从宏观、中观至微观,从主题词词形至词义、乃至词间关系的系统化与标准化的控制。因而我国应尽快加强此方面的研究与应用,唯有此,才能够从根本上实现(中国档案主题词表)动态修订维护管理的电子可视化、网络化,
23、乃至语义网络化扩展应用,如包括中国档案元数据注册、术语服务、数据的开放链接关联数据与分享,及其本体转化,提高档案尤其是电子文件标引与跨语种检索利用效率,推进档案信息化建设。本文系2020年国家社科基金青年项目“网络环境下的档案规范记录系统研究的研究成果之一。参考文献1杨冬权.在全国档案局长馆长会议上的讲话2020年12月18日J.中国档案,20201:14-22.2W3C.SKOSSimpleKnowledgeOrganizationSystemReferenceW3CRecommendation18August2020EB/OL.2020-07-06.httpdocsj/doc/514035
24、1d6bd97f192279e955./TR/skos-reference/.3MarciaLeiZeng,WeiFan.SKOSandItsApplicationinTransferringTraditionalThesauriintoNetworkedKnowledgeOrganizationSystemsR.OCLC/ISKO-NAConference,Aug.2020:14.4Pastor-Sanchez,J.A.,F.MendezandJ.V.Rodriguez-Munoz,AdvantagesofthesaurusrepresentationusingtheSimpleKnowle
25、dgeOrganizationSystemSKOScomparedwithproposedhttpdocsj/doc/5140351d6bd97f192279e955.RMATIONRESEARCH-ANINTERNATIONALELECTRONICJOURNAL,2020.144224EB/OL.2020-07-06.http:/httpdocsj/doc/5140351d6bd97f192279e955./ir/14-4/paper422.5宿瑞芳,李晓雯,侯汉清.叙词表词间关系处理规则的比拟研究以国际、中国、美国标准为例J.情报科学,20201.6Philhttpdocsj/doc/51
26、40351d6bd97f192279e955.ArchivalThesaurusUKAT:ConstructionandEditingMethodologyVersion6.0R.2003.8.19.7TheUKArchivalThesaurusEB/OL.2020-07-06.httpdocsj/doc/5140351d6bd97f192279e955./.8Assemetal.AMethodtoConvertThesauritoSKOS,2006R/OL.2020-07-06httpdocsj/doc/5140351d6bd97f192279e955.9GemaBuenodelaFuent
27、e.TheSimpleKnowledgeOrganizationSystemSKOSAsituationreportfortheHIVEProject,November2020R.2020-07-06.httpshttpdocsj/doc/5140351d6bd97f192279e955./wg/hive/images/2/2e/SKOS_report_for_HIVE-version1-0.pdf.10LuisPoloParedes,JoseMarlaAlvarezRodrguez,andEmilioRubieraAzcona.PromotingGovernmentControlledVoc
28、abulariesfortheSemanticWeb:theEUROVOCThesaurusandtheCPVProductClassificationSystem,httpdocsj/doc/5140351d6bd97f192279e955.11ISOTC46/SC9.ISO2788:1986Documentation-GuidelinesfortheestablishmentanddevelopmentofmonolingualthesauriS.2nded.,1986.12张正强.(中国档案主题词表)研究与使用精要M.上海:上海科学技术文献出版社,1995年12月第1版:1-256.70-