《基于非负矩阵分解的大规模异构数据联合聚类-申国伟.pdf》由会员分享,可在线阅读,更多相关《基于非负矩阵分解的大规模异构数据联合聚类-申国伟.pdf(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、计算机研究与发展 DOI:107544issnl000一1239201620148284JournaJ ot乙omputer Kesearch and UeVelopment 53(2):459466,2016基于非负矩阵分解的大规模异构数据联合聚类申国伟 杨 武 王 巍 于 淼 董国忠(哈尔滨工程大学信息安全研究中心 哈尔滨 150001)(shenguoweihrbeueducn)Large-Scale Heterogeneous Data C0-Clustering Based on Nonnegative MatrixFactorizationShen Guowei,Yang Wu,W
2、ang Wei(RPsP口rc矗CP靠fPr D,I霄,b,竹nfi072 SPf甜riy,Yu Miao,and Dong GuozhongH口r6i竹五hgi以PPri竹g U行ivPr5iy,Hn,西i竹150001)Abstract Heterogeneous information network contains multityped entities and interactive relationsSome coclustering algorithms have been proposed to mine underlying structure of different e
3、ntitiesHoweVer,with the increase of data scale,the scale of different class entities are growing unbalanced,and heterogeneous relational data are becoming extremely sparse In order to solve this problem,wepropose a two steps coclustering algorithm FNMTFCM based on correlation matrix decompositionIn
4、the first step, the correlation matrix is built with the correlation relationship of smallertypedentities and decomposed into indicating matrix of smallertyped entity based on symmetric nonnegativematrix factorization Correlation matrix has higher dense degree and smaller size compared with theorigi
5、nal heterogeneous relationship matrix, so our algorithm can process largescale heterogeneousdata and maintain a high pr零eision After that,the indicating matrix of smallertyped can be used asthe input directly,so the heterogeneous relationaI matrix trifactorization is very fast Experiments onarti“cia
6、l and real一world heterogeneous data sets show that the accuracy and perforr_nance of FNMTFCM algorithm are superior to the traditional coclustering algorithms based on nonnegative matrixfactorizationKey words heterogeneous network;coclustering;nonnegative matrix factorization;largescale data;correla
7、tion matrix摘要异构信息网络中包含多类实体和关系随着数据规模增大时,不同类实体规模增长不平衡,异构关系数据也变得异常稀疏,导致聚类算法的时间复杂度高、准确率低针对上述问题,提出了一种基于关联矩阵分解的2阶段联合聚类算法FNMTFCM第1阶段,抽取规模较小的一类实体中的关联关系构建关联矩阵,通过对称非负矩阵分解得到划分指示矩阵与原始关系矩阵相比,关联矩阵的稠密度更高,规模更小第2阶段,将划分指示矩阵作为关系矩阵三分解的输入,进而快速求解另一类实体的划分指示矩阵在标准测试数据集和异构关系数据集上的实验表明,算法准确率和性能整体优于传统的基于非负矩阵分解的联合聚类算法收稿日期:201411
8、24;修回日期:201503 26基金项目:国家“八六三”高技术研究发展计划基金项目(2012AA012802);国家自然科学基金项目(61170242)Thts work was supported by the National High Technology Research and Development Program of China(863 Program)(2012AA012802)and the National Natural Science Foundation of China(61170242)通信作者:杨武(yangwuhrbeueducn)万方数据460 计算机研
9、究与发展 2016,53(2)关键词 异构网络;联合聚类;非负矩阵分解;大规模数据;关联矩阵中图法分类号TP391随着微博、社交网络等异构信息网络的兴起,异构信息挖掘已经成为当前数据挖掘领域中的一个研究热点异构网络中包含多类实体,实体之间存在着复杂的交互关系例如微博中包含用户、消息、标签、词等实体,用户发布消息,消息由词语组成,消息中还包含标签等通过抽取实体间的关系数据进行聚类分析,能够挖掘出异构网络中不同实体间的潜在结构关系联合聚类能够针对不同的实体同时进行聚类分析I2,因而应用广泛传统的联合聚类算法包括基于信息理论的算法ITcC3、基于矩阵谱信息4和矩阵分解的方法由于关系数据中一般都是非负
10、元素,非负矩阵分解方法51成为目前最常用的方法传统的非负矩阵分解仅仅处理同类节点之间的同质关系聚类问题,Long等人61首次在二元关系矩阵上运用块值分解法实现矩阵分解在此基础上,提出了一系列改进的非负矩阵分解方法实现联合聚类7呻采用半监督的非负矩阵分解方法实现联合聚类1 0。”,算法SS-NMF12中融合肯定链接或否定链接等约束信息提高联合聚类算法的准确度,但是真实数据中通常很难获取约束先验知识在处理关系数据时,Wang等人1 3提出了快速的非负矩阵三分解方法FNMTF实现快速的矩阵分解,进而实现联合聚类非负矩阵分解在联合聚类算法取得了很好的效果1“,但是数据本身的几何结构会影响聚类的准确性1
11、16当待分析的异构数据规模增大时,关系数据结构呈现明显变化主要存在以下问题:1)非平衡问题待分析的异构数据规模增大时,异构数据中不同类实体的规模并不呈现统一的增长模式例如微博消息数量呈线性增长时,用户、词和标签等实体并不呈现线性增长模式传统的非负矩阵分解方法的时间复杂度都与矩阵的行和列规模相关,因此处理大规模异构数据时计算时间复杂度较高2)稀疏性问题真实异构网络中的关系数据比较稀疏,随着待分析异构数据规模进一步增大,关系数据变得异常稀疏例如微博中的消息内容最多包含140个字,构建的消息和词之间的关系矩阵非常稀疏当消息规模进一步增大时,由于中文常用词的数量是一定的,因此消息和词之间的关系矩阵变得
12、异常稀疏,消息和用户、标签的关系矩阵同样如此传统的非负矩阵分解方法针对异常稀疏的关系矩阵进行分解时得到的聚类效果并不理想本文针对大规模异构数据分析时出现的非平衡和稀疏性2个问题进行解决针对非平衡增长问题,在非负矩阵分解时提出了2阶段分解方法首先,仅对关系矩阵中的规模较小的一类实体进行分析异构实体之间的关系矩阵非常稀疏,但是同一类实体之间的关联性比较强口7I,通过同类实体之间的关联关系构造的关联矩阵能够明显提高矩阵的稠密度其次,以较小规模的实体聚类结果直接作为第2阶段的输入,在确保大规模实体聚类结果的同时提高了整体处理效率综上所述,本文将针对大规模异构关系数据提出一种基于关联矩阵的2阶段快速联合
13、聚类算法,同时解决非平衡问题和稀疏性问题1 问题定义异构关系数据中包括多类实体,目前的联合聚类算法主要针对二阶异构关系进行联合聚类分析,因此,本文以2类实体之间的异构关系为例叙述二阶异质关系数据采用二部图G一(V,E,w)进行建模,其中VX。UX:,X,和X。为异构关系中的2类实体,实体X。和X:的数量分别为优和扎,E为异构关系对应的边集合,W为边的权重。进一步可将二部图G表示成m x竹的异构关系矩阵R,由于大规模数据中的非平衡问题,可假设m咒传统的联合聚类算法中将x。和X。分别划分到忌。和忌。类(通常是,一是:),本文将针对X。和X:的联合聚类问题转换成针对关系矩阵R的行和列同时进行划分的问
14、题2 2阶段非负矩阵分解框架针对大规模异构关系数据中的非平衡问题和稀疏性问题,本文提出了一个2阶段的非负矩阵分解框架,如图1所示对关系矩阵R的行和列同时聚类可将关系矩阵只分解为F,js,B三个矩阵,如图1(a)所示,其中万方数据申国伟等:基于非负矩阵分解的大规模异构数据联合聚类矩阵F,B分别为2类目标实体的聚类指示矩阵,S为联合类之间相关矩阵本文不直接针对关系矩阵R进行分解,而是分2阶段实现第l阶段针对实体数较少的一类实体X:进行处理,其数量为行从关系矩阵R中抽取同类实体间的关联关系,进而构建关联矩阵C,矩阵C的规模为摊靠对矩阵C进行对称非负矩阵分解,得到指示矩阵曰,如图1(b)所示由于采用同
15、类实体的关联关系,构建的同质关系矩阵C比原来的关系矩阵R要稠密,在某种程度上能够避免非负矩阵分解中的稀疏性问题,进而提高非负矩阵分解的准确性在第2阶段中,将关联矩阵c分解得到的指示矩阵B直接作为关系矩阵R三分解的指示矩阵,如图1(c)所示在矩阵B已知的情况下,可以很容易计算指示矩阵F和矩阵ls由问题定义可知,矩阵C的规模小于原始关系矩阵R的规模m以,因此该框架能够处理大规模异构关系数据口z日x曰圃(a)Relational m删x一-decomp0Sition口;曰回(b)C0丌elation删xsymme研c decomposition口z归囡(c)RelationaI rr蜘x仇一deco
16、mposition baSed on曰TFig 1 The framework of heterogeneous datacoclustering。图1 异构数据联合聚类框架3基于关联矩阵的稀疏联合聚类根据2阶段非负矩阵分解框架,在异构关系矩阵的基础上,联合聚类主要包括关联矩阵构造、关联矩阵分解、基于关联矩阵的异构关系矩阵三分解3部分31关联矩阵构造在异构关系数据中,选择规模较小的一类实体X:,通过异构关系矩阵R构造X:对应的关联矩阵C。文中利用关联强度W。度量实体X:中任意2个实体工。,z,的关联关系,其可通过2个实体z,z,基十义,中买体的l司现概军进仃计算,冥计算方法如式(1)所示:阢,
17、一(-g蠢嚣高,o) 其中概率P(z。,乃)和P(z)计算分别如式(2)(3)所示:产蚩篙; (3)式(2)和式(3)中,N(z:,z,)为X。中的实体z,z,基于X。中实体同时出现次数32关联矩阵分解通过关联关系构造的关联矩阵C,采用对称非负矩阵分解方法进行分解,其对应的目标函数为式(4)所示:-,一|J c一肋7 0 2 stB。,o, (4)其中1|2为矩阵F一范数针对目标函数-,。,可通过非负最小二乘法进行计算,其计算公式如式(5)所示基于关联矩阵c的分解结果为聚类指示矩阵BBHmax(邙,(B?B,),O) (5)由于聚类指示矩阵中每一个实体只属于一个聚类标签,因此,对矩阵B进行二元
18、化,即B中每一行的最大值对应的聚类结果为1,其余对应的都为o二元化后的矩阵B将作为关系矩阵R三分解的输入33 基于关联矩阵的异构关系矩阵三分解传统的非负矩阵分解通常采用的目标函数如式(6)所示,该目标函数中采用两因子分解法,。一忙一耶7 StFjto,B:|o,Fl F=l,Bl BI两因子分解法得到的近似低秩矩阵效果较差,因此Ding等人3提出了正交非负矩阵三分解,其对应的目标函数为式(7)所示,在目标函数中引入了矩阵ls,使得分解得到的矩阵F,B具有实际意义J。一11RFsBl 0 2,stF。o,S。0,B:,O, (7)F7Fj。B7BI由于正交约束条件在某些情况下过于严格,本文中将采
19、用无正交约束的目标函数,如式(8)所示:J。=忙一FsB7 h stF。0,B。,O,S,0)一)一,z一工,zT等。NN,上“一P万方数据计算机研究与发展 2016,53(2)对于目标函数J。,现有的方法中常采用乘法更新的迭代求解方法实现,但是其收敛速度较慢本文将采用快速的迭代求解方法实现,关联矩阵c对称分解得到的矩阵B经过二元化后,直接作为目标函数,。的输入,因此,只需迭代求解矩阵F和ls在优化求解矩阵S的过程中,固定矩阵F,矩阵ls的求解方法如式(9)所示:S=(F7F)1FA=B(口7B) (9)在优化求解矩阵F的过程中,固定矩阵s由于矩阵F为关系矩阵R的行划分指示矩阵,F中的每一行有
20、且只有个元素为1,其余为o,因此求解矩阵F的优化问题可按照行进行处理,其转换为式(10)的优化问题,5一min|rJ一六sBl I|2, (10)其中,为行聚类指示向量,在该向量中,有且只有一个元素为1,其余的元素都为o,因此,式(10)的优化问题可通过式(11)进行快速求解fl,i=arg minff,J一60;厂“一 (11)lO,otherwise其中6。为sBT对应的第是个行向量式(10)可通过向量范式枚举法快速求解,避免了使用矩阵乘法迭代更新求解,提高了算法处理速度面向大规模异构数据的联合聚类算法的整个过程总结如算法1所示在关联矩阵C对称分解的基础上对关系矩阵R进行非负矩阵三分解,能
21、够同时解决非平衡和稀疏性问题算法1中第步为异构关系矩阵迭代求解过程算法1异构数据联合聚类算法FNMTFCM输入:R为关系矩阵,聚类数目壶,N。,为最大迭代次数,占为收敛阈值;输出:F为实体X。聚类指示矩阵,B为实体X:聚类指示矩阵初始化Fo,ls,B。;根据式(1)计算关联矩阵c;根据式(5)得到分解矩阵毋,二元化后得到聚类指示矩阵B;while(ifPrN。,d) 根据式(9)计算s; 根据式(11)计算F;https:wwwhdsutcfrcoclustenngdokuphphttp:wwwsogoucom1absdltcehtml 砒ri把r+1; 计算,;*2次迭代的F一范数差值*en
22、d while4实验及分析本文所有实验都在Matlab下实现,硬件平台为曙光8 core服务器、8GB内存实验中将分别对比算法SSNMF,FNMTF和本文算法FNMTFCM每一组实验分别运行10次,采用随机初始化,最终实验结果中给出平均值41实验数据集本文首先将在联合聚类算法的标准测试数据集1 9上对算法进行全面的评估该数据集给出了2类实体的聚类标签,不仅能够针对算法的准确率等指标值进行对比分析,还能对算法在不同聚类难度等级的数据集下进行对比分析数据集中共计36组数据,通过贝叶斯错误率E,一or作为数据集的难度控制参数,包括5,12,20共3个难度等级,其中5是最容易聚类的数据集,20是最难聚
23、类的数据集每1个难度等级分别对应50,100,200,500共4种规模(行和列的规模相同),可针对节点规模进行聚类算法对比分析每一类节点规模的数据集分别对应3,5,10共3种聚类数目,可针对不同的聚类数进行对比分析为了验证FNMTFCM算法在真实数据集上的效果,将在4个真实的异构关系数据集上进行对比实验其中Title数据为Sogou提供的新闻标题数据集,构建新闻标题和词之间的异构关系数据集weibo数据集收集了2012年“闯红灯”、“丰田汽车回收”、“美国总统大选”、“莫言获得诺贝尔奖”、“我是特种兵”、“杭州烟花大会”、“中国好声音”7个话题对应的新浪微博消息,经过预处理后得到8 023条微
24、博和374个标签,构建消息和标签之间的异构关系数据集DBLPl为论文与词之间的关系数据集,DBLP2为论文与作者之间的关系数据集啪,这2个数据集中分别提取了论文题目和摘要字数超过100个、作者出现多于2次对应的关系数据4个数据集的详细信息如表l所示:万方数据申国伟等:基于非负矩阵分解的大规模异构数据联合聚类 463TabIe l Heteroge耻咖s Relational Dat嬲et NMJ值在。到1之间,越接近1,则说明聚类表1异构关系数据集Datasets #Entity 1 #Entity 2 #Clusters #Sparse Degree42评估指标联合聚类算法的度量指标较多,本
25、文中将采用常见的P“,如y,NM,22,ARJ3个指标作为度量标准对于给定的异构数据集,其中实体规模为行,算法得到的聚类结果为C=c。,c:,cK,给定的聚类标签为R=r。,r:,rL),则3个评估指标分别定义如式(12)、式(13)和式(14)三max k n oP“,iy(c,R)一芝:L;(12)l_1 HM=熹一2且掣iJ掣-g掣+g揣掣-g掣 ; (13)结果越好ARJ(C,R)一 f 、(c2f。叫_c叫c。1c:)、J J (专C2叫+Cz。|一c2r:ci。G);(14)该AR,值越大,则聚类结果越好43人工数据集实验在同一规模的数据集下评估算法受不同聚类数目K的影响情况,对比
26、结果如图2所示所有的算法随着K值的增加,准确率都有所下降,但其他2个指标影响较小因此,在实际使用的过程中,需要根据数据中的真实情况给定聚类数据K图3中为在不同数据规模下的对比结果随着规模的增加,算法的准确率等指标都随之下降由于该数据集中2类实体的数目一致,无法发挥FNMT卜CM算法的优势,其聚类结果接近于FNMTF算法针对标准测试数据集中不同聚类难度等级的数据集进行算法的鲁棒性对比实验,结果如图4所示3 5 lO 3 5 10K K_SSNMF 口FNMTF _FNMTFCMFig 2 The results of algorithnls on thc diffcrcnt clustcring
27、 nunlbcr K(、图2 算法在不同聚类数K下的对比结果(N一200F r,:1008a O6薹钆 O4O2O0 1。8萋誓。2OO 舢50 100 200 500 50 100 200 500 50 100 200 500N N N_SS-NMF 口FNMTF FNMTFCMFig3 The results of algorithms on thc differcnt data scalc N(K一5,Error一1 2)图3算法在不同节点规模N卜的对比结果(KjErrDr一12)一陆咀一一一L08642OO0000r羔z万方数据464 计算机研究与发展2016,53(2)Error鲰
28、Error汽一SSNMF 口FNMTF FNMTFCMFig4 The results of algo“thms on the different clustering difficulty(N=200,K一5)图4算法在不同聚类难度下的对比结果(N=200,K一5)本文算法在处理不同聚类难度等级的数据集时的鲁棒性都优于其他2种算法,这主要是在FNMTFCM算法中降低了数据集本身结构的影响44对比实验为了验证本文算法的效果,在真实的异构稀疏数据集上进行对比实验,在该实验中,设置的聚类数目如表1中所示在4个不同的数据集上对比的实验结果分别如表2至表5所示,表中对应的最好结果分别加粗表示由实验结果
29、可知,FNMTFCM算法在4个数据集上的结果整体优于其他2个算法在Title和Weibo两个数据集上,FNMTF_CM算法的纯度、NMJTabIe 2 The R姻ult on Title Dataset表2 Title数据集上的对比结果TabIe 3 The Result on Weibo Dataset表3 weibo数据集上的对比结果Table 4 The ResuIt on DBLPl Dataset表4 DBLPl数据集上的对比结果Table 5 The Result On DBLP2 Dataset表5 DBLP2数据集上的对比结果值和ARJ值比其他算法都高这主要得益于本文算法中基
30、于关联矩阵进行分解,提高了待分解矩阵的稠密度,进而提高了整体算法的准确率在数据集DBLPl和DBLP2上,SSNMF算法的NMJ值比本文算法要高,特别是在数据集DBIJ2上,SSNMF算法的ARJ值也高于本文算法通过分析可知,DBLP2数据集异常稀疏,该数据集中可能包含较多的奇异点因此,本文算法在处理奇异点问题上仍有待进一步改进进一步分析FNMTFCM算法在不同聚类数目K值下的效果在Title数据集中,真实的聚类数目K一9该实验中通过调整K值,得到的实验结果如图5所示由实验结果可知,FNMTF-CM算法在不同的K值下,纯度和NMf值较为稳定,但是在真实的聚类数目下并不是最佳的结果因此,在实际应
31、用中,需要根据数据选择恰当的聚类数目为了说明算法在处理大规模异构关系数据时的处理速度,在Weibo数据集上对3个算法的运行时间进行对比,结果如图6所示FNMTFCM算法的运行时间要小于其他2种算法,主要因为FNMTFCM算法中选择规模较小的一类实体对应的关联矩阵进行分解,并且求解异构关系矩阵时无需采用乘法更新迭代求解在微博关系数据中,标签数目比消息数目小很多,因此关联-川川。一川一n圳引驯驯引烈,lll_1田瞳圈圈量mInU5圈疆曩圉啊圈啊I万方数据申国伟等:基于非负矩阵分解的大规模异构数据联合聚类 65攥沪罐绂l O35薹030025肜020 LFlgj 7I、h【l。L、Hllt()f州g
32、()ri“1nls()11(“f图5在Title数据集 025 r。+kb、一 眦。卜、享i蔫鬟cM,纠3彦7夕 I驰惦 i盘阐引01。卜蕊剽 l一ssNm o10r一、孓J7FNMTF “、乏FNMTFCM |、遗20 40 60 80 100 7 20 40 60 80 100一 005 L。_一crent clustering number K when running on TitIe矩阵的规模比原始异构关系矩阵小、处理速度更快 2由于SS-NMF算法采用乘法更新迭代求解,收敛较慢,其运行时间最长Fig6图6345FNMTFCM FNMTF SSNMFAlgonthmsThe runn
33、ing time of algorithms on Weibo 6算法在weibo数据集上的时间对比5 结 论本文针对大规模异构数据中的非平衡问题和稀疏性问题提出了一种基于非负矩阵分解的联合聚类算法将传统的联合聚类算法转换成基于关联矩阵的对称分解和基于关系矩阵的三分解,进而实现快速的异构数据联合聚类实验结果表明本文提出的算法在标准测试数据集和真实异构数据上的效果整体优于其他的算法本文算法主要考虑了较小规模实体对聚类的促进作用,下一步将考虑2类实体的相互促进作用此外,本文只考虑了二阶异构关系,下一步将推广到高阶异构关系数据联合聚类参 考 文 献1 Tanay A,sharan R,shamir
34、R Bicluste“ng algo“thms:AsurveyJ IEEE Trans on Computational Biology andBioinformatics,2004,1(1):2445789101112KemaI E,Mehmet D,onur K,et al A comparative analysisof biclustering algorithms for gene expression data JBriefings in Bioinformatics,Z013。14(3):279292Inderjit S D,Mallela S,Modha D SInformat
35、iontheoreticcocluste“ngCProc of the 9th AcM sIGKDD NewYork:ACM,2003:8998Inderjit S D Coclustering documents and words usingbipartite spectral graph partitioningcProc of the 7thACM SIGKDDNew York:ACM,2001:269274Li Tao,Ding Chris NonNegative Matrix Factorizations forcluste“ng:A surveyMData cluste“ng:A
36、lgo“thms andApplicationsLondon:chapman 8L HallcRC,2013:1491 76Long BoZhang Zhongfei,Yu P S Cocluste“ng by blockvaIue decompositioncProc of the 11 th ACM sIGKDDNew York:ACM,2005:635640Tjhi w C,Chen Lihui,Minimum sumsquared residue forfuzzy coclusteringJIntelligent Data Analysis,2006,10(3):237249I。i Z
37、hao, Wu Xindong Weighted nonnegative matrix trifacto“zation for co-clusteringCProc of the 23rd IEEE IntConf on Tools with Artificial Intelligence Piscataway,NJ:IEEE,2011:811816Shang Fanhua Jiao I爪heng, Wang Fei Graph dualregularization nonnegative mat rix factorization for coclusteringJPattern Recog
38、nition,2002,45(6):22372250Salunke A,Liu Xumin,Rege MConstrained c0_cluste“ngwith nonnegative mat rix facto“sation J Journal ofBusiness Intelligence and Data Mining,2012,7(12):60一79Chen Yanhua,Rege M,Dong M,et a1Nonnegative matrixfacto“zation for semisupervised data cluste“ng JKnowledge and Informati
39、on Systems。2008,17(3):355379Chen Yanhua, Wang Lijun, Dong Ming Nonnegativemat“x facto rization for semisupervised heterogeneous datacocluste“ngJ IEEE Trans on Knowledge and Data,Engineering,2010。22(1 o):1459一1474锄姗瑚mo万方数据466 计算机研究与发展 2016,53(2)Wang Hua Nie Feiping Huang Heng, et al- Fastnonnegative
40、mat rix trifacto“zation for largescale data coclusteringC,Proc of the 22nd Int Joint conf on ArtificialInteIligencePalo Alto,CA:AAAI,2011:15531558Li Tao, Ding Ch“s The relations hips among Va riousnonnegative mat“x factorization methods for clusteringcProc of the 6th Int Conf on Data MiningPiscatawa
41、y。NJ:IEEE。2006:362371Gu Quanquan,zhou jie Coclustering on manif01dscProc of the 1 5th ACM SIGKDDNew York:ACM,2009:359368【。i Ping, Bu Jiajun, Chen Chun,et a1 Relational coclustering via manif01d ensemble learningC,Proc。f the2lst CIKMNew York:ACM,2012:1687一1691Yan Xiaohui,Guo Jiafeng, I。iu Shenghua,et
42、 a1 Learningto pics in short texts by nonnegative mat“x factorization onterm correlation matrixc,Proc of the sIAM Int conf DataMiningPhiladelphia,PA:SIAM,2013:749757Ding Chris, Li Tao, Peng Wei, et a1 Orth。gonaInonnegative mat“x trifactorizations for cluste“ngc,Procof the 12th ACM SIGKDDNew York:ACM
43、,2006:1 26一135I。omet A。Govaert G,Grandval“YDesign of a rtificial datatables for coclustering analysisR Compi丢gne, France:Universitde Technologie de Compi趣ne,2012Deng Hongbo。 Han Jiawei Zhao Bo et a1 Probab订istictopic models with biased propagation on heterogene。u5information networksc,Proc of the 1
44、7th ACM SlGKDDNew York:ACM,20ll:127卜1279Zhao Ying, Karypis G Criterion functions for documentclustering:Expe“ments and analysis,UMN cs o 1一040RMinnesota,AK:University of Minnesota,200 1Strehl A,Ghosh J C1uster ensemblesA knowledge reuseframework for combining multiple pa rtitionsJ Journal。fMachine L
45、eaming Research,2003,3:58361723 Hubert I,Arabie Pcompa“ng partitionsJJournal ofClassmcation,19852(1):193218Shen Guowei,born in 1986PhD candidateat Harbin Engineering University Hisnlain research interests include data mining,social computing,etcYang Wu, born in 1974 Professor andPhD supervisor at Ha
46、rbin EngineeringUniversity His main research interestsinclude data mining,information security,etc(yangwuhrbeueducn)Wang Wei, born in 1974 PhD andassociate professor at Harbin EngineeringUniversity His main research interestsinclude data mining,information security,etc(wweihrbeueducn)Yu Miao,born in
47、 1987PhD candidate atHarbin Enginee“ng University His mainresearch interests include data mining,social computing, etc (yumiaohrbeueducn)Do札g Guozh咖g,bom in 1989PhD candidateat Harbin Engineerir堰U血versityHis mainresearch interests include data mining,social computing, etc (dongguozhonghrbeueducn)门刁一心一M一一:2掩均加孔毖万方数据