《网络拓扑构造的聚类方法比拟(精品).docx》由会员分享,可在线阅读,更多相关《网络拓扑构造的聚类方法比拟(精品).docx(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、网络拓扑构造的聚类方法比拟近几年,在探索复杂网络拓扑构造的经过中,研究者除发现小世界与无标度特性外,还发现复杂网络还存在一个基本属性:社团构造(communitystruc-ture)1。复杂网络是由若干个社团组成,社团内部节点的连接非常严密,社团之间节点的连接相比照较稀疏。构造决定功能,研究网络的社团构造有助于分析复杂网络的功能、探索复杂网络的隐藏规律以及预测复杂网络的发展趋势。为了能够准确界定网络中的社团构造,必须选择一种优秀的聚类方法。现有的复杂网络聚类方法主要分为两大类,一类是基于图论的算法,如Ker-nighanLin法、谱平分法、随机游走法(Walk-trapalgorithm)和
2、标签传播法(Labelpropagationalgorithm);另一类是层次聚类方法,层次聚类本身又分为凝聚与分裂算法,其中凝聚算法包括New-man快速算法和最大模块度算法(BGllalgo-rithm)等,分裂算法中最为经典的是Girvan和Newman提出的边介数算法(GirvanNewmanalgo-rithm)。此外,近几年又有很多从其他不同角度提出的划分网络社团构造的聚类算法,如基于电阻网络性质的算法、基于信息论的算法等。在文献领域,以语义类似性算法构造出的论文类似网络能够直接反映文献内容的类似程度。因此以此网络为基础,分析该网络的社团构造,能够明晰地描绘出学科构造的动态变化与专
3、业主题的研究热门,并为文献影响力的评价提供新的视角。为了找到最合适论文类似网络的聚类算法,本文以语义类似算法构造论文类似网络,并针对性地选择了4种代表性聚类方法(基于图论的随机游走算法和标签传播算法,层次聚类中的最大模块度法和边介数法)对构建出的网络进行聚类分析,并结合样本数据的金标准和网络社团划分评价指标D函数10比拟4种算法的准确性和稳定性。1材料与方法在OHSUMED试验数据集中选择6个查询提问(queries)作为研究主题,收集与其明确相关(defi-nitelyrelated)的109篇文献作为样本数据。其中6号主题19篇,27号主题36篇,32号主题14篇,42号主题13篇,84号
4、主题22篇,98号主题5篇。为了直接反映文献内容的相关性,采用语义类似性算法11构造论文类似网络,即用文献的主题词代表论文,通过计算主题词间的类似性得出文献间的类似程度。利用本地PubMed检索系统中基于语义类似性的PANS(PaperNetworkonSimilarity)算法直接生成论文类似矩阵(表1),矩阵中的元素代表相应两篇文献间内容上的类似性。为使聚类结果更准确,选择008作为类似度阈值,移除类似度小于等于008的边,得到简化后的类似矩阵(表2)。在语言的igraph程序包中,以上述两个类似矩阵为邻接矩阵构造论文网络,得到原始的论文网络(简称网络1,图1)和简化的论文网络(简称网络2
5、,图2),并进行可视化处理。网络1和网络2都是无向加权图,每个节点代表1篇文献,边的权重代表文献间的类似度值。其中网络1共109个节点,5886条边;网络2含109个节点,1621条连接(图中标签代表金标准的主题号)。利用igraph程序包的复杂网络处理算法功能,分别采用4种聚类算法对网络1和网络2进行聚类分析,探索论文类似网络的社团构造,最后结合金标准的主题分类和网络社团划分评价指标D函数比拟4种算法的准确性和稳定性。2结果根据金标准的主题分类,论文类似网络拥有6个社团(图3),其中社团1(第98号主题)5个节点,社团2(第27号主题)36个节点,社团3(第6号主题)19个节点,社团4(第8
6、4号主题)22个节点,社团5(第32号主题)14个节点,社团6(第42号主题)13个节点。采用4种算法对网络1和网络2聚类的结果如图4图11所示。图中节点标签数字代表金标准的主题号,标签颜色一样的节点属于同一个社团,社团内连线为黑色,社团间连线为红色。4种算法得出的聚类结果的详细数据如表3和表4所示。采用随机游走算法分析论文类似网络,并对网络进行聚类分析,如图4所示,准确率高达963%,社团数为6,但第6号主题的一个节点与98号主题的5个节点被错误归为一类。简化剪枝后,准确率为100%,聚类结果(图5)与实际社团划分情况完全一样。采用标签传播算法对网络1进行聚类分析,如图6所示,准确率高达81
7、3%。它将27号主题与98号主题归为一类,因而社团数目只要5。但对网络2的聚类结果跟随机游走算法一样(图7),也是与实际一致。采用最大模块度算法对论文类似网络聚类分析时,网络处理前后的结果是一致的(图8和图9),二者都是将42号主题与98号主题聚为一类,进而得到5个社团,但在处理两个网络时得到的Q值都是最大的。边介数算法对于原始网络的聚类效果较差,如图10所示,模块度Q仅为0045,57个社团中仅1个社团的节点数超过1,其余社团均只含1个节点。网络剪枝后,GN法得到6个社团(图11),准确率高于90%,仅98号主题有2个节点被错误归为42号主题。3讨论由于不同主题文献之间的类似性大都较低(全部
8、01),导致同一主题内的任意两篇文献与其他主题文献的类似性差异很小。这符合随机游走算法的前提,即若两个节点同属于一个社团,那么分别从两个顶点跳跃到整个网络的其他节点的概率相近:假如顶点i和顶点j属于同一社团,则对于任一顶点k有PtikPtjk。标签传播算法的两次聚类结果差距较大,讲明其稳定性较差。这是由于它的更新顺序是随机的、邻接节点标签数量一样时选择标签也是随机的,算法的鲁棒性遭到严重毁坏,社区构造的稳定性也就遭到严重损害。最大模块度算法则更为稳定,具有下面优点:计算速度快,可用于大型网络;整个经过自下而上,不会遗漏小规模的社团构造;适用于大规模的加权网络。边介数算法的前提是连接不同社团间的
9、边的介数值较大,而连接社团内部边的介数值则较小。但由于原始论文类似网络中任意两点之间都存在连接,无法知足此前提,因而聚类结果无意义。4结语在构建文献类似网络的基础上,通过比拟4种聚类算法的聚类精度和聚类稳定性,我们发现,随机游走算法是一种优秀的论文类似网络聚类算法,准确性高、稳定性好;标签传播算法的准确性次之,但稳定性不高;最大模块度算法稳定性好,但聚类精度有待提高;边介数算法对类似网络的预处理要求很高,聚类结果不稳定。另外,我们还发现,选择阈值处理类似网络后聚类效果显著提高,讲明选择不同的类似度阈值会对聚类结果产生影响,可见复杂网络的预处理也是一个影响其聚类效果的重要因素。本研究为今后选择更为准确和稳定的论文类似网络聚类算法提供了根据。在今后的研究中,应选择随机游走算法对文献类似性网络进行聚类分析,并且能够尝试通过阈值的选取来提高文献类似网络的聚类精度。文本聚类分析技术的进一步改良,一是有助于揭示学科构造及其动态变化,在准确计算论文类似性基础上,构成准确的网络并准确地聚类分析,随时反映不同学科专业主题当前研究的热门和构造;二是有助于成簇检索相关文献,能够将基于随机游走算法镶嵌在文献检索系统中,将用户检索到的文献集合中类似论文根据类别提供应检索用户,提高信息咨询服务的准确度和针对性。