《gmap一种基于ap聚类的共词分析方法-郭崇慧.pdf》由会员分享,可在线阅读,更多相关《gmap一种基于ap聚类的共词分析方法-郭崇慧.pdf(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、情报学报 2017年11月 第36卷 第11期 Journal of the China Society for Scientific and Technical Information, Nov. 2017, 36(11): 1192-1200 收稿日期:2016-09-09;修回日期:2017-04-16 基金项目:国家自然科学基金( 71171030,71421001) ,文化产业发展专项资金资助项目(教财司预函 2013228 号) ,软件架构国家重点实验室开放课题基金( SKLSAOP1703) 。 作者简介:郭崇慧,男, 1973 年生,教授,博士生导师,主要研究方向为系统优化方法
2、、数据挖掘与机器学习, E-mail: ;曹梦月,女, 1991 年生,硕士研究生,主要研究方向为文本挖掘。 GMAP:一种基于AP聚类的共词分析方法 郭崇慧1,2,曹梦月1( 1. 大连理工大学系统工程研究所,大连 116024; 2. 软件架构国家重点实验室(东软集团) ,沈阳 110179) 摘 要 文献计量学领域中的共词分析方法主要分为三个阶段:术语收集阶段、共现频率统计阶段以及聚类分析阶段,传统共词分析方法在以上三个阶段存在主观性过强、信息量不足,聚类不稳定、成员划分不合理、类团解释缺少语义分析等问题,导致了领域主题发现容易存在偏差。本文针对传统共词分析方法存在的缺陷提出了一种新的共
3、词分析方法 GMAP 共词分析方法,即将 g 指数、互信息概念以及 AP 聚类算法融入共词分析方法中。首先,使用 g 指数确定高频关键词的个数;其次,使用互信息概念对共现矩阵进行包容化处理;最后,使用 AP算法进行聚类得出领域主题。为了验证 GMAP 的可行性和有效性,对中国古村落(传统村落)领域文献进行数值实验,结果显示 GMAP 共词分析法优于传统共词分析方法,为改进共词分析方法提供了一个新的研究思路。 关键词 共词分析; g 指数;互信息; AP 聚类 GMAP: A Co-word Analysis Method Based on AP Clustering Guo Chonghui1
4、,2and Cao Mengyue1(1. Institute of Systems Engineering, Dalian University of Technology, Dalian 116024; 2. State Key Laboratory of Software Architecture (Neusoft Corporation) Shenyang 110179) Abstract: Co-word analysis, which is a bibliometric method, includes three processes: a term collection proc
5、ess, co-occurrence frequency statistics, and a clustering analysis process. A traditional co-word analysis has certain prob-lems including strong subjectivity, insufficient information, unstable clustering, unreasonable cluster members, and the lack of a semantic cluster analysis. As a result, devia
6、tions easily occur when detecting the domain topics. In this paper, a new co-word analysis, called GMAP (g-index, mutual information affinity propagation), is proposed, which integrates a g-index, mutual information theory, affinity propagation clustering, and co-word analysis. First, we use a g-ind
7、ex to choose the number of high-frequency keywords. Second, we use mutual information theory to trans-form a co-occurrence matrix into a similarity matrix. Finally, we use an affinity propagation clustering algorithm to find the domain topics. This study examined articles of the ancient Chinese vill
8、age domain. The experimental results show that a GMAP co-word analysis is superior to a traditional co-word analysis, which provides a new research idea for co-word analysis improvements. Key words: co-word analysis; g-index; mutual information; affinity propagation clustering 1 引 言 1986 年法国文献计量学家 C
9、allon 等1首先提出共词分析方法。共词分析方法作为文献计量领域的经典分析方法,至今已有 30 年的历史。共词分析方法能够快速揭示领域主题,学者们在不同领域进行万方数据第 11 期 郭崇慧等: GMAP:一种基于 AP 聚类的共词分析方法 1193 了深入的研究,如聚合体化学2、物联网3、图书情报学4、医疗健康5、推荐系统6、机构库领域的知识构建7等。共词分析方法有两个假设条件8:文章作者对关键词的选取是经过深思熟虑的,与文章内容密切相关;两个关键词同时出现在一篇文章中的概率越高表示关系越紧密。在此基础上,共词分析方法一共分为三个阶段:术语收集阶段、共现频率统计阶段以及聚类分析阶段。前两个阶
10、段的处理对最后阶段的结果有很大影响。共词分析方法前 两阶段是数据预处理,为聚类分析提供合理的数据来源。 随着研究的深入,学者们对共词分析方法进行了不同方面的优化, 如高频关键词的选定9和包容化指数的选择10。此外, Ding 等11在动态主题探测和追踪时,将传统的共词分析方法与 HDP(层次狄利克雷过程)进行对比,指出了传统的共词分析方法在同义词处理方面存在缺陷。聚类分析是共词分析方法最后一个阶段,也是展示成果的重要阶段。共词分析方法中常用的聚类方法是层次聚类算法3,12-13。层次聚类的相似系数、类团间距离的度量方式以及类团的划分都是由用户设置,具有很强的主观性。文献 14表明层次聚类属于网
11、状聚类,没有明确的聚类中心,聚类结果受所有成员共现关系的影响,是共词聚类分析法中存在的主要问题。冒纯丽等15尝试使用 CRUE 聚类算法解决传统聚类算法由于类团非球状且类团大小相异较大导致聚类效果不理想等问题,但该算法不是选取数据集中某个数据点代表一类,而是选取最具代表性数据点乘以一个合适的收缩因子 使该数据点更靠近类的中心。徐硕等16为了解决共词聚类结果与真实结果差异,将共词分析方法三个阶段合并成一个阶段,使用最大频繁项集方法进行挖掘,得到的类团术语集合可重叠,同时避免了共词分析前两个阶段对结果的影响,但该方法仍需人工设定合适的最小支持度阈值,得到的类没有明确的聚类中心。此外,类团的命名和解
12、读需要具备扎实的相关领域知识以及很强的逻辑推理分析能力。崔雷等17针对共词聚类分析结果中类团的命名和语义分析问题提出使用代表性论文来表示某领域高频主题词共词聚类分析类团内容的设想,为共词聚类的最终结果的语义分析提供了新的研究方向,规范了共词聚类分析流程。 以往的研究从不同层面为共词聚类提供了不同的规范化思路,但没有解决自动化生成聚类中心以及合理对类团进行语义分析的问题。为了解决这两个问题,本文首先从共词分析方法的数据预处理阶段进行改善,利用 g 指数确定高频关键词数量消除人工主观性,然后利用互信息概念对共现矩阵进行包容化处理以便更好地反映出关键词之间的依赖信息,最后,使用 AP 算法进行聚类得
13、出领域主题。因此, 本文提出了基于 AP 聚类的 GMAP( g-index, mutual information affinity propagation)共词分析方法,数据预处理阶段使用 g 指数和互信息概念,在聚类分析阶段使用 AP 聚类方法, 可以克服传统层次聚类方法没有明确聚类中心、类团成员划分不合理、类团语义分析不充分问题,进而得出领域主题。为了验证本文提出的 GMAP 方法的可行性和有效性,选择了中国古村落领域文献进行分析。中国古村落又名传统村落,是中华民族的宝贵的物质和非物质文化遗产,有关中国古村落文献近年来呈指数增加,本文选择对古村落领域文献的研究热点探测能帮助相关学者了解
14、该领域研究现状及发展趋势,同时也有助于古村落文化遗产的传播。 2 相关工作 传统的共词分析方法主要分为三个阶段:术语收集阶段、共现频率统计阶段以及聚类分析阶段。每一阶段又包括不同的步骤。术语收集阶段包括领域的选择和高频词的确定;共现频率统计阶段包括共现矩阵的构建和相似矩阵的构建;聚类分析阶段主要是层次聚类分析。共词分析方法流程如图 1 所示。 图 1 共词分析方法 2.1 术语收集 共词分析方法的术语搜集阶段主要选择能够代表领域研究内容的高频词,常用确定高频词的方法万方数据1194 情 报 学 报 第 36 卷 有两种。一种是根据人工主观判断,选择合适数量的高频词;另一种是根据 Donohue
15、18于 1973 年提出的齐普夫第二定律,即 1(1 1 8 )/2TI=-+ + ( 1) 其中,1I 表示词频为 1 的词数量, T 为高频词的阈值。 杨爱青等9为了解决共词分析中高频词选取主观性强的缺陷,借鉴 g 指数思想提出一种基于 g 指数的主题词选取方法 词频 g 指数,并与齐普夫第二定律进行对比,利用 g 指数选择的高频词进行聚类分析结果更优。根据 g 指数的计算方法,可将词频 g 指数定义为:某一个研究主题关键词的数量为 g,关键词按照词频降序排列,当且仅当此研究主题的关键词中,有 g 个关键词其累计出现频次不少于2g 次, 而 g+1 个关键词其累计出现频次少于2(1)g +
16、 次。记iF 为对应序号为 i 的关键词的出现次数,则对于所有的 i ,有1iiFF- 以及 21giiFg= ( 2) ()1211giiFg+=+( 3) 当同时满足( 2)和( 3)两个条件时,选择前 g 个关键词作为高频关键词构建共现矩阵。 2.2 共现频率统计 共现频率统计阶段是以术语收集阶段为前提的。该阶段的核心是对高频词共现矩阵进行包容化处理得到相似矩阵,目的是从共现矩阵中挖掘出更有意义的知识。构建相似矩阵最常用的是等值系数矩阵 E ,即: 2()/( )ij ij i jEc cc= ( 4) 其中,ijc 表示关键词 i 和关键词 j 共同出现的次数,ic 表示关键词 i 出
17、现的次数,jc 表示关键词 j 出现的次数。ijE 越大表示关键词 i 和 j 之间的相似性越大,越容易聚成一类。 路青等10提出了使用互信息概念改善共词矩阵包容化的方法,提高了共词矩阵的信息含量。互信息共现词对 MI( , )ij的计算公式: ,2()log , ( , ) 0MI( , ) () ( )min(MI), ( , ) 0PijPi jij PiP jPi j=( 5) 其中, ()P i 表示关键词 i 独立出现的概率, ()P j 表示关键词 j 独立出现的概率,,()P ij 表示二者共同出现的概率。当,()P ij 大于 0 时, MI 值与关键词共同出现的概率成正比,
18、表示关键词共同出现的概率越大,二者之间关联程度越大;当,()P ij 为 0 时,不能对 0 取对数,于是将 MI 值置成矩阵中最小值,表示关键词之间关联程度最小。 MI 值大于 0 表示关联程度强, MI 值等于 0 表示关联程度弱, MI 值小于 0表示不存在关联关系。 2.3 聚类分析 聚类分析是共词分析方法最后一个阶段也是展示研究结果的重要部分,传统的共词分析方法使用层次聚类算法进行聚类分析。层次聚类阶段的输入是距离矩阵(由相似矩阵可计算得出) 。层次聚类方法分为凝聚型与分裂型,凝聚层次聚类法是聚类分析方法中使用最多的方法,原理是从点作为个体类团开始,每一步合并两个最接近的类,需要定义
19、类之间的邻近性概念。凝聚层次聚类中类与类之间邻近性有不同技术,主要有单链( single link) 、全链( complete link)和组平均( group average)19。 AP( Affinity Propagation)聚类算法是 2007 年Frey 等20提出来的, AP 聚类算法通过基于数据点的相似度信息进行传播来找到最优的类代表点集合,使得所有数据点到最近的类代表点的相似度之和最大。 与其他聚类算法不同的是 AP 聚类算法将所有数据点都作为候选的类代表点,从而避免了聚类结果受限于初始类代表点的选择。 AP 聚类算法的输入是点对之间的相似性(或相似特征) ,对相似度矩阵
20、的对称性没有特殊要求的特点使得 AP 聚类算法可以用于人脸图像的聚类,基因数据检测等多种领域21。AP 聚类不仅成功地解决了诸多静态数据的聚类问题, Sun 等22提出的增量式 AP 聚类可用于解决增量数据的聚类问题。 3 GMAP共词分析方法 为了解决传统共词分析方法不同阶段在领域主题揭示时存在的问题,本文提出一种名为 GMAP 的共词分析方法,方法流程如图 2 所示。 GMAP 的基本思想为:首先,使用 g 指数筛选特定领域文献中的高频关键词,并统计高频关键词共现次数构建共现矩阵;其次,使用互信息概念处理高频关键词共现矩阵,得到相应的相似矩阵;最后, 使用 AP 聚类算法进行聚类分析, 揭
21、示领域主题。 万方数据第 11 期 郭崇慧等: GMAP:一种基于 AP 聚类的共词分析方法 1195 图 2 GMAP 共词分析法 AP 聚类是在相似度矩阵基础上进行聚类,点ix 与点kx 之间的相似性记为 (, )s ik , 要为每个数据点 k 设置参考值 (,)pskk= , (,)s kk 值越大,相应点 k 被选中作为类代表点可能性越大。 AP 聚类算法中两个重要信息度矩阵为代表矩阵 ( ),mnRrik = 和适选矩阵( ),mnAaik=。 AP 算法的迭代过程就是这两个信息量交替更新的过程。 ( ),rik 表示kx 适合作为ix 的类代表点的代表程度 (responsibi
22、lity) , 即kx 对ix 的吸引度; (, )aik 表示点ix 选择kx 作为类代表点的合适程度 (avaliablity) ,即ix 对kx 的归属度。对任意ix 计算所有数据点的代表程度 (, )rik 和适选程度 (, )aik之和,则ix 的类代表点为 kx : arg max( ( , ) ( , )kaik rik+ ( 6) AP 算法的核心步骤是两个信息量的交替更新过程,公式如下: ,(, ) (, ) max (, ) (, )kk krik sik aik sik- + ( 7) ,(,) min0,(,)max0, ( , )ii ikif i k a i k r
23、 k kri k +( 8)if ,ik=,(,) max(0,(,)ii kakk ri k( 9) 迭代公式( 7)两边同时加上 (, )aik ,则 ,(, ) (, ) (, )(, ) max (, ) (, )kk krik aik sikaik aik sik+-+( 10)如果迭代次数超过设定值或聚类中心不改变时停止计算, AP 聚类算法的输出是各类团的代表点与各类团的成员。 与传统层次聚类方法不同, AP 聚类每一次输出的类团的代表点都是真实存在的数据点,而不是通过求均值得到的不真实的数据点, 因此 AP 聚类结果更能反映实际情况,解决传统共词分析方法聚类不稳定问题。另外,
24、AP 聚类最终的输出是具有代表点的类团,每个类团的代表点对解释类团能够起很大的参考价值,有利于聚类结果的语义分析。 GMAP 共词分析法步骤如下: Step1: 收集指定领域的 n 篇文档术语, 用集合 A表示,12, , , nA AA A= ,其 中iA 表示文档 i 中的关键词集合。统计出 n 篇文档中共有 N 个不同关键词集合12, , NKKK K= , 并计算出集合 K 中关键词的词频后降序排列得到关键词和对应词频的二维向量11 2 2( , ),( , ), ,( , )NNKF K F K F K F= , 其中iF 表示关键词iK 的词频。 Step2:根据 g 指数概念,若
25、关键词词频满足21giiFg= 并且 ()1211giiFg+=+,其中 g 对应关键词降序排列序号,则选取前 g 个关键词词作为高频关键词。 Step3:令 mg= ,根据集合 A 与二维向量 KF 构建出 mm 的共现矩阵 C , 其中iiC 表示关键词 i 出现的频次,ijC 表示关键词 i 和关键词 j 共同出现的频次。 Step4:根据互信息公式( 5)可以得出将共现矩阵转换 为相似矩阵的公式 2log , 0MC( , )min(MI), 0ijijijijijnCCCCKKC=( 11) 其中, n 表示文档数量,ijC 表示关键词 ,ijKK共同出现的频次,iC 表示关键词iK
26、 出现的频次,jC 表示关键词jK 出现的频次, 转换后得到相似矩阵 MC 。 Step5:将 MC 相似矩阵作为 AP 聚类的输入,输出为 x 类、类代表点以及类成员,每一类可代表该领域的一个潜在主题。 万方数据1196 情 报 学 报 第 36 卷 4 数值实验与结果分析 古村落又称传统村落,是指建村的时间可追溯到民国之前,村落形态及建筑风貌保存完整,蕴藏丰富的物质形态和非物质形态文化遗产,具有较高历史、文化、科学、艺术、社会、经济价值的古村落23。它承载着中华民族的传统文化,体现独特地域文化、民俗风情和农耕特色,是农耕文明的精髓和中华民族的根基。本文将新提出的共词分析方法应用于古村落领域
27、的知识发现之中。为了证明所提出的共词分析方法的有效性,本文使用中国知网中学术期刊文献以及优秀硕士博士论文作为实验数据集来源。检索条件是“古村落”或“传统村落” ,时间区间不限至 2016 年 12 月 31 日, 检索日期是 2017年 1 月 18 日,共返回 7952 条文献记录,其中学术期刊文献 6807 篇,优秀硕士博士论文 1145 篇。剔除不含关键词的期刊文献 2710 篇,最后剩余 5242篇文献作为本文的数值实验数据。 4.1 评估度量 数值实验的评估主要是对共词分析法最后的聚类结果进行评估,评价方法从定性和定量两个角度来评估分别是 Demirmen24的树状结构图分类准则以及
28、轮廓系数方法19。其中, Demirmen 四条准则分别是: 准则 1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。 准则 2:各类所包含的元素都不要过分多。 准则 3:分类的数目应该符合使用的目的。 准则 4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。 轮廓系数的计算过程如下: ( 1) 计算对象 i 到所在类团中其他对象的平均距离ia 。 ( 2) 计算对象 i 到不包含该对象的任意类团中的所有对象的平均距离,并找出最小值ib 。 ( 3)计算对象 i 的轮廓系数 ()/max(,)iii iis ba ab=- ( 12) 轮廓系数取值区间是( 1,
29、1) ,出现负值表示点到类团内点的平均距离大于点到其他类团的最小平均距离,出现正值较好,ia =0 时轮廓系数取 1,表明聚类效果最好。取类团中点轮廓系数的平均值得出类团的平均轮廓系数;计算所有点的平均轮廓系数,得出总聚类轮廓系数。 4.2 实验与结果分析 本文实验部分是将第一阶段的 3 种方法(人工选择、齐普夫第二定律、 g 指数) 、第二阶段的 2 种方法(等值系数、互信息概念)以及第三阶段的 2种方法(层次聚类方法、 AP 聚类方法)组合起来,并使用之前提到的评价标准评估所有情况下聚类结果,实验流程如图 3 所示。 第一阶段,若使用人工选择方法可选择词频大于等于 22 的 81 个高频词
30、;若使用齐普夫第二定律,符合条件的关键词只有前 7 个,故舍弃传统齐普夫第二定律判定高频词方法;若使用 g 指数方法可获 图 3 实验流程图 万方数据第 11 期 郭崇慧等: GMAP:一种基于 AP 聚类的共词分析方法 1197 取 79 个高频词。利用齐普夫第二定律与 g 指数选取高频词的数量相差较大,究其原因有以下几点: ( 1)齐普夫定律是基于英语、印欧语系的经验定律,未经过数理理论的深入研究,不适合汉语25。 ( 2)齐普夫第二定律是以词频为 1 作为高、低频词分界依据,而共词分析中主题选择范围不同容易产生含义很窄的关键词或研究主题之外的关键词9。 ( 3) g 指数确定出的关键词数
31、量取决于领域规模和数据本身,且其关注的是高频词对所有词的贡献度,未考虑低频词的作用恰好符合共词分析选取高频词的要求9。 按照词频降序排列的 81 个高频关键词如表 1 所示。 表1 高频关键词序号及词频 序号 关键词 词频 序号 关键词 词频 序号 关键词 词频 序号 关键词 词频1 古村落 1172 22 民居 65 43 新农村 43 64 古建筑 28 2 传统村落 635 23 非物质文化遗产 64 44 保护规划 42 65 古镇 27 3 保护 432 24 景观 62 45 传统文化 41 66 城市化 26 4 乡村旅游 205 25 公共空间 62 46 文化传承 41 67
32、 旅游业 26 5 旅游开发 182 26 城镇化 61 47 地域文化 40 68 研究 25 6 可持续发展 112 27 传承 60 48 西递 37 69 生态环境 25 7 发展 107 28 保护与发展 59 49 利用 37 70 策略 25 8 旅游 94 29 村落文化 58 50 空间 37 71 发展模式 24 9 新农村建设 93 30 人居环境 55 51 价值 37 72 风水 24 10 文化遗产 92 31 古村落旅游 53 52 现状 35 73 空间句法 24 11 村落 88 32 文化景观 52 53 生态旅游 34 74 旅游发展 24 12 空间形态
33、 87 33 历史文化名村 51 54 风景园林 34 75 客家 24 13 开发 84 34 美丽乡村 50 55 文化旅游 33 76 乡土建筑 24 14 徽州 82 35 问题 48 56 皖南古村落 33 77 保护与开发 24 15 徽州古村落 80 36 婺源 48 57 模式 33 78 生态 23 16 古村落保护 79 37 规划 48 58 更新 32 79 物质文化遗产 22 17 宏村 78 38 聚落 46 59 社区参与 31 80 张谷英村 22 18 传统民居 77 39 新型城镇化 45 60 文化保护 30 81 旅游产品 22 19 旅游资源 76 4
34、0 古民居 44 61 楠溪江 29 20 文化 74 41 传统聚落 44 62 规划设计 29 21 对策 73 42 建筑 43 63 历史文化 28 第二阶段, 利用等值系数和互信息分别对以上 2种不同数量高频词构建的共现矩阵进行包容化处理得出相应的相似矩阵,最后得到 4 种不同的相似矩阵,如表 2 所示。 表2 相似矩阵类型 人工选择词频 22 g 指数判定 等值系数 8181 7979 互信息概念 8181 7979 第三阶段,对第二阶段的 4 种矩阵分别进行层次聚类和 AP 聚类。层次聚类时,需要将相似矩阵转换为相异矩阵,用 1 减去等值系数构建的相似矩阵可获得相异矩阵;用矩阵中
35、最大的互信息值减去互信息概念构建的相似矩阵得出对应的相异矩阵。最终有 8 种共词分析情况,如表 3 所示。 表3 共词分析情况汇总 共词分析情况人工选择词频 22g 指数 判定 等值 系数 互信息 概念 层次聚类AP聚类a b c d e f g GMAP 对表 3 中 8 种情况均进行共词分析, 其中方法 d与 GMAP 共词分析方法使用的是互信息概念与 AP聚类,聚类结果如表 4 所示,其中数字表示关键词序号,加粗数字表示每个类团的代表点。 万方数据1198 情 报 学 报 第 36 卷 表4 AP聚类的2种情况聚类结果 类团 1 类团 2 类团 3 类团 4 类团 5 类团 6 类团 7
36、 类团 8 类团 9 类团 10方法 d 8,14,20,26, 38,40,42, 51,75,76 4,10,21,35,52,53,57,81 2,27,28, 39,45,46, 49,63,77 3,7,12,18,25,41,58,65,66,706,15,24,34,43, 5,62 9,13,19,56,61,67,68,71 11,17,22,37,48,50,64,72,73,781,16,23, 29,32,36, 47,79 5,30,31,33,44,54,59,60,69,74,80 无 GMAP 6,17,31, 48,56, 72,73 8,14,20,40,4
37、2, 55,75 4,21, 35,52 2,27,28,39,45,46,49,63,7710,24, 30,37, 43,53,625,13,26,33,34,38,57,59,70,743,7,12,18,25,41,50,58,65,66,7822,51,54, 60,64, 67,68 9,11,15,44,47,61,69, 71,76 1,16,19,23,29,32,36,79方法 c 使用的是互信息与层次聚类,生成的聚类谱系图如图 4 所示, 方法 c 可参照方法 d 的 AP 聚类结果人工主观划分为 9 个类团。 方法 g 使用的是互信息与层次聚类,生成的聚类谱系图如图 5
38、 所示,方法 g 可参照 GMAP 共词分析方法的聚类结果人工主观划分为 10 个类团。 图 4 方法 c 谱系图 图 5 方法 g 谱系图 万方数据第 11 期 郭崇慧等: GMAP:一种基于 AP 聚类的共词分析方法 1199 此外,使用等值系数的方法 a、 b、 e、 f 聚类谱系图均不满足 Demirmen 准则, 无法合理地进行类团划分,故在此不一一列出。 本文利用 Demirmen 准则以及轮廓系数来评估表 3 中 8 种方法的聚类效果,具体结果如表 5 所示。 从表 5 中可以看出,方法 c、 d、 g, GMAP 的总轮廓系数均大于 0,差别不大。对比方法 c 与方法 g以及方
39、法 d 与 GMAP 的总轮廓系数可以验证使用 g指数选择高频词聚类效果优于人工主观选择高频词的聚类效果;比较方法 a、 b、 e、 f 与方法 c、 d、 g,GMAP 可知使用互信息概念对共现矩阵进行包容化处理能够优化聚类效果; 方法 c 与 g 参照相应 GMAP聚类结果后聚类效果较原始共词分析法 a 与 e 有明显提高, 因此使用 AP 聚类代替层次聚类能够自动化生成合理聚类数目。此外,与层次聚类结果最大不同在于 AP 聚类结果中类团具有代表点, 能够代表类团主题的核心,有利于对类团进行合理解释。 因此,根据本文提出的 GMAP 共词分析方法的聚类结果,对古村落领域文献进行主题分析可得
40、出10 个类团,如图 6 所示。 表5 评估结果 方法 a 方法 b 方法 c 方法 d 方法 e 方法 f 方法 g GMAP 评估结果 不满足准则 不满足准则 0.1194 0.0324 不满足准则 不满足准则 0.1246 0.039 图 6 GMAP 共词分析方法聚类结果 图 6 中箭头的粗细表示相似度的大小,箭头越粗表示关键词之间联系越紧密,类团中节点指向的中心为各自的代表点。对 GMAP 共词分析方法得到的 10 个类团即古村落领域的 10 个主题的解释如下: ( 1)皖南古村落西递宏村是学者们研究的热点,多研究其风水、空间句法以及其古村落旅游的可持续发展。 ( 2)古村落文化是旅
41、游市场的热点内容,文化旅游多以徽州建筑与客家文化为例。 ( 3)阐述乡村旅游的现状以及存在的问题,并给出相应的对策。 ( 4)在新型城镇化下,需要对传统村落合理利用,传统村落的开发需要保护与发展,传统文化需要传承。 ( 5)党的十六届五中全会提出建设社会主义新农村的重大战略部署,包括文化遗产、景观的保护以及人居环境、生态旅游的规划设计。 ( 6)历史文化明村的旅游开发模式、社区参与模式成为热点主题。 ( 7)随着古村落的发展,城市化的进程的推进,生态环境的变化,传统聚落、传统民居的空间形态、公共空间不断更新。 万方数据1200 情 报 学 报 第 36 卷 ( 8)古村落的研究主要是古村落价值
42、、民居、风景园林、文化保护、古建筑、旅游业。 ( 9)不同地域文化下有不同的生态环境,生态环境对乡土建筑有一定的影响,在新农村建设下需要利用合理的发展模式来对古村落进行保护规划,多以徽州古村落以及楠溪江的村落群为例。 ( 10)古村落文化景观是古村落的旅游资源,对于古村落文化遗产的保护包括物质文化遗产的保护与非物质文化遗产的保护,物质文化遗产中风景园林尤为突出,多以婺源为例。 通过分析可以发现对具有代表点的类团进行解释在某种程度上体现了一定的语义信息,如代表点的信息可以作为类团主题的主要核心信息,即使不是该领域的专业人士也能很好的对结果进行合理揭示。 5 结 论 本文首先对近年来共词聚类方法的
43、发展进行了梳理,针对共词分析法在聚类阶段存在目前存在的问题率先提出了 GMAP 方法即将 g 指数、互信息、AP 聚类三者结合起来进行共词分析,并对中国古村落领域进行研究分析。与传统共词分析方法对比,对比 8 种情况下的聚类结果,可得出本文提出的GMAP 方法优于传统共词分析方法体现在以下三个方面: ( 1)利用 g 指数代替传统共词分析方法中的人工选定高频词消除了高频词选择时的主观性因素对分析结果的影响,与齐普夫第二定律相比更适合中文文献高频词的选择。 ( 2)利用互信息概念代替传统的等值系数对共现矩阵进行处理,充分利用了关键词之间的信息,能够很好地解决相似矩阵中信息量缺失的缺陷。 ( 3)
44、利用 AP 聚类方法代替传统的层次聚类方法,可以消除层次聚类时的聚类不稳定,信息传播不全面,层次划分不合理,语义分析结果不规范等问题,有助于领域主题的揭示。 本文提出的新共词分析法在实验部分仅选取了中国古村落领域,未将该方法应用到不同的领域以验证其有效性, 另外改进 AP 聚类方法对共词分析的适用性也是未来的方向,希望本文提出的 GMAP 方法能够为共词分析方法的完善提供新的思路。 参 考 文 献 1 Callon M, Law J, Rip A. Mapping the dynamics of science and technology: sociology of science in t
45、he real worldM. Basing-stoke: Macmillan Press, 1986. 2 Callon M, Courtial J P, Laville F. Co-word analysis as a tool for describing the network of interactions between basic and techno-logical research: The case of polymer chemistryJ. Scientomet-rics, 1991, 22(1): 155-205. 3 Yan B N, Lee T S, Lee T
46、P. Mapping the intellectual structure of the Internet of Things (IoT) field (20002014): a co-word analy-sisJ. Scientometrics, 2015, 105(2): 1285-1300. 4 Hu C P, Hu J M, Deng S L, et al. A co-word analysis of library and information science in ChinaJ. Scientometrics, 2013, 97(2): 369-382. 5 Danell J
47、A B. Reception of integrative and complementary medi-cine (ICM) in scientific journals: a citation and co-word analy-sisJ. Scientometrics, 2014, 98(2): 807821. 6 Hu J, Zhang Y. Research patterns and trends of recommendation system in China using co-word analysisJ. Information Process-ing & Management, 2015, 51(4): 329-339. 7 Cho J. Intellectual structure of the institutional repository field: A co-word analysisJ. Journal of Information Science, 2014, 40(3): 386-397. 8 He Q. Knowledge discovery through co-word analysisJ. Librar