国内主题词表研究的热点与趋势_基于词频统计与知识图谱方法_余丰民.docx

上传人:安*** 文档编号:19013595 上传时间:2022-06-03 格式:DOCX 页数:11 大小:18.79KB
返回 下载 相关 举报
国内主题词表研究的热点与趋势_基于词频统计与知识图谱方法_余丰民.docx_第1页
第1页 / 共11页
国内主题词表研究的热点与趋势_基于词频统计与知识图谱方法_余丰民.docx_第2页
第2页 / 共11页
点击查看更多>>
资源描述

《国内主题词表研究的热点与趋势_基于词频统计与知识图谱方法_余丰民.docx》由会员分享,可在线阅读,更多相关《国内主题词表研究的热点与趋势_基于词频统计与知识图谱方法_余丰民.docx(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、国内主题词表研究的热点与趋势_基于词频统计与知识图谱方法_余丰民您的好帮手(档案界)网站理论探讨21档案管理6/2021总第199期国内主题词表研究的热门与趋势:基于词频统计与知识图谱方法摘要:通过1980年2003年和2004年2020年两个时间段的词频统计与可视化知识图谱等方法的比拟分析与研究,展现了国内主题词表研究领域的热门和趋势,以为:国内对主题词表的研究内容在时间上有明显的分界限、研究趋势展现了知识组织的演化经过、主题词表基于语义描绘语言的本体转换是目前学界研究的热门和将来研究的趋势。关键词:主题词表;词频统计;知识图谱;研究热门;研究趋势Abstract:Basedonwordfr

2、equencystatisticsandvisualizationofknowledgemappingandothermethodsofcomparativeanalysisandresearchintwoperiodsof1980-2003and2004-2020,thearticleshowstheareasofresearchfocusandtrendsofThesaurusinChina.Thatis:thereisacleardividinglineintwoperiods,andtrendsshowthattheevolutionprocessofknowledgeorganiza

3、tionsystem,Thesaurusbasedonsemanticdescriptionlanguageontologyconversioniscurrentlyafocusofacademicresearchandfutureresearchtrends.Keywords:Thesaurus;WordFrequencyStatistics;KnowledgeMapping;ResearchFocus;ResearchTrends1引言主题词表叙词表是一种情报检索语言,它在早期情报检索和知识组织中发挥着非常重要的作用。早在1876年,美国图书馆学家卡特发表了他的(字典式目录条例)1。而随着

4、计算机技术的发展,主题词表的功能也发生了相应的变化。另外,不断更新的网络技术,以及语义网等概念的技术实现,也为主题词表的发展注入了活力。国内主题词表研究固然起步较晚,但从(汉语主题词表)的问世,到(中国分类主题词表)的出版,均获得了卓越的成就。国内的研究主要集中在主题词表的介绍、评价、编制、修订、标引方法、应用及分类主题一体化等领域234,另外,随着计算机网络技术的发展,各类词表被大量应用到了信息检索技术、知识组织与管理等领域之中56。那么,这些年来国内对主题词表的研究都触及了哪些主题?其研究的趋势和热门又在哪里?本文试图通过对发表在期刊上的学术论文进行研究,旨在为该领域同行了解和把握研究方向

5、提供些许帮助。2样本获取与研究方法2.1样本获取方法。本文获取数据样本的方法是:在“中国学术期刊网络出版总库中,用关键词“主题词表OR叙词表,检索出1980年2020年间发表在“核心期刊上的论文,由于(中文核心期刊要目总览)第一版在1992年才出版,上述检索结果仅命中了1992年2020年数据;因而,作者又补充了1980年1991年的相关主题数据。经过人工挑选,最后,获得样本数为480篇检索日期:2021年2月12日。2.2研究方法。本文主要应用文献计量学领域的词频统计方法和基于共词的可视化知识图谱方法。通过关键词词频的动态统计与分析,能够反映出某时间段内研究主题的动态变化经过,如高频关键词的

6、发展期、高峰期及衰退期等。词共现共词分析方法最早是在1986年由法国文献计量学家M.Callon等学者提出的7。在词共现分析方法的基础之上,我们能够运用社会网络分析方法及软件如Pajek,绘制出各主题之间的互相联络的学科知识图谱。3研究结果3.1历年论文发表情况图1历年论文发表数量统计对480篇论文进行按年度统计,见图1。由图1能够发现,论文数量基本上呈上升趋势:1980年2003年为缓慢上升阶段,但1994年和1999年均有突出表现;2003年以后,呈现出了快速发展的态势。究其原因,一方面,随着计算机技术的发展,出现了诸如本体等语义网概念的应用研究,使得主题词表研究重新得到了重视;另一方面,

7、有关主题词表的研究得到了更多的基金赞助,2004年以前,余丰民DOI:10.15950/httpdocsj/doc/6ea49f9277a20029bd64783e0912a21614797f34.ki.1005-9458.2021.06.024理论探讨22档案管理6/2021总第199期仅有8篇赞助论文,而2004年及以后,赞助论文达113篇,尤其是近两年,基金赞助论文比例均达50%以上。3.2基于关键词词频统计。根据上述480篇论文的研究主题关键词,我们能够通过关键词词频统计及共现计算来分析国内主题词表研究的热门与趋势。由于有些论文发表年代尚早,作者没有给出关键词,因而笔者对这一部分关键词

8、进行了人工补充;同时,为了集中主题,对一些一义多词的主要关键词进行了修正,如将“(中国图书馆图书分类法)统一简称为“(中图法),将“语义WEB统一改为“语义网,将“叙词表统称为“主题词表,等。这样,我们一共能够获得893个1827个次关键词,篇均关键词约3.8个。表1关键词词频统计总频次10,共22个表22004年2020年间新出现的关键词频次4表3消失最快的关键词1980年2003年频次4为了便于比拟,本文拟把1980年2020年划分为两个时段:1980年2003年和2004年2020年。之所以这么划分,一方面,是由于从图1中能够发现,2003年以后,研究“主题词表的论文数量增速较快;另一方

9、面,“本体、“语义网、“知识组织系统等新词汇在样本数据中均在2004年才出现;另外,两时段的论文数量也大致相当分别是220篇和260篇,更具有可比性。表1列出了1980年2020年高频关键词;表2列出了2004年2020年新出现的关键词;表3列出了2004年2020年消失最快的关键词。在表1中,能够发现,除“主题词表本身外,“本体、“(中国分类主题词表)、“(汉语主题词表)、“主题标引等关键词是总频次最多的,表明了国内对“主题词表研究的热门所在。从关键词数量上统计,1980年2003年频次在3次及以上的关键词有41个,2004年2020年有64个,增幅达56.1%,而两时段论文数量增长仅为18

10、%,这从某种意义上讲明了后一时段比前一时段研究范围的扩大和研究内容的深化。表2中的新词基本上属于“语义网的范畴:本体是语义网的核心概念8;SKOS简约知识组织系统、OWL、主题图等都是语义描绘语言;Protg是用于构建本体的软件工具;与“本体直接相关的关键词有4个领域本体、本体构建、分布式本体、中文叙词表本体。您的好帮手(档案界)网站理论探讨23档案管理6/2021总第199期在表3中,还能够发现,某些主题的研究正在逐步缩减,有的甚至已经消失了。如,“自动标引、“主题法、“文献标引、“检索语言、“情报检索系统、“情报检索、“信息检索系统等关键词词频均出现了不同程度的下降。而像“分类主题一体化研

11、究,在后一时段内已经完全消失了。3.3基于关键词共现的可视化知识图谱分析。为了与关键词词频统计相一致,我们在这里也对两个时间段进行比照分析,利用Pajek软件分别绘制出了两个时段的知识图谱,见图2、图3。在图中,顶点大小表示关键词词频的高低,连线粗细表示两个关键词同时出如今一篇论文中共现次数的多少。图21998年2003年高频关键词共现图(共现次数2)图32004年2020年高频关键词共现图(共现次数2)从图2中能够看出,围绕主题词表的“词表编制是1998年2003年研究的焦点连线最粗;“分类主题一体化研究及其成果(中国分类主题词表)的修订与主题标引,也是该段时间研究的热门所在。在图3中主题词

12、表转换成本体的研究无疑是2004年2020年研究的焦点连线最粗;以本体为核心的语义网环境下的知识组织系统研究,十分是用语义描绘语言SKOS简约知识组织系统的应用研究,在图中非常抢眼;尽管,在这个时段,“分类主题一体化这个关键词消失了,但有关分类法与主题法及(中国分类主题词表)的研究还是吸引了不少学者。除了有更多的热门显现外,图3与图2相比,各关键词之间的关系愈加严密了,知识图谱的网络显得愈加复杂了。另外,从图谱的构造上看,图2仅有一个中心,而图3已经构成了“双轮驱动形式9。4结论从上世纪七八十年代开场,国内图书情报界及相关研究领域学者就进行了主题词表的研制工作,从研究主题的知识图谱来看,其研究

13、热门主要涉及“汉语主题词表、“分类主题一体化研究、“中国分类主题词表、“分类叙词表、“语义描绘语言、“语义网、“本体等重要事物和概念。这些事物和概念把国内有关主题词表研究的经过串联在了一起。经过以上分析与研究,我们能够大致得出下面结论:在整个时间段上,其研究热门有着明显的分界限2003年2004年;其研究趋势基本展现了知识组织由手工阶段向自动化、网络化阶段的演化经过;主题词表基于语义描绘语言的本体转换是将来研究的发展趋势。参考文献:1戴淑娟.艺术科学领域的新型标识系统(艺术科学叙词表)J.图书馆论坛,1993(6):5668.2黎盛荣.(汉语主题词表)评介J.图书馆工作与研究,1981(1):

14、1721.3王源,陈长旭.(汉语主题词表)简评J.情报学刊,1983(1):8691.4王金夫.(汉语主题词表)概讲J.图书馆杂志,1986(2):3234.5刘春艳,曾锦丹,李佳军.语义WEB环境下知识组织体系SKOS应用研究J.图书情报工作,2006,50(6):2327.6段荣婷.基于简约知识组织系统的主题词表语义网络化研究以(中国档案主题词表)为例J.中国图书馆学报,2020,37(3):5465.7CallonM,LawJ,RipA.MappingtheDynamicsofScienceandTechnology:SociologyofScienceintheRealWorldM.London:Macmillan,1986:225226.8唐静.叙词表转换为ontology的研究J信息系统,2004(6):642645.9汤建民.学术研究团队的可视化识别及评估方法研究:以科学学研究领域为例J.情报学报,2020(2):323-330.(作者单位:浙江树人大学科学计量学研究中心来稿日期:2021-08-20)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 培训材料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁