基于话题标签和转发关系的微博聚类和主题词提取-束珏.pdf

上传人:不*** 文档编号:128506 上传时间:2018-05-15 格式:PDF 页数:5 大小:862.68KB
返回 下载 相关 举报
基于话题标签和转发关系的微博聚类和主题词提取-束珏.pdf_第1页
第1页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于话题标签和转发关系的微博聚类和主题词提取-束珏.pdf》由会员分享,可在线阅读,更多相关《基于话题标签和转发关系的微博聚类和主题词提取-束珏.pdf(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Joumal of Computer Applications计算机应用,2016,36(2):460一464ISSN 100l-908lCODEN JYllDU201602-10http:wwwjocacn文章编号:10019081(2016)020460一05 DOI:1011772jissn1001-90812016020460基于话题标签和转发关系的微博聚类和主题词提取束珏1,成卫青1r,邓聪1(1南京邮电大学计算机学院,南京210003; 2计算机网络和信息集成教育部重点实验室(东南大学),南京211189)(+通信作者电子邮箱chengweiqnjupteducn)摘要:针对微博聚

2、类正确率不高的问题,在研究微博数据特点的基础上,利用微博hashtag来增强向量空间模型,使用微博之间的转发关系提升聚类的准确性,并利用微博的转发、评论数以及微博发布者信息来提取聚类中的主题词。在新浪微博数据集上进行实验发现,与_|一meaIls算法和基于加权语义和贝叶斯的中文短文本增量聚类算法(IcsTwsNB)相比,基于话题标签和转发关系的微博聚类算法的准确率比尼一means算法提高了18,5,比IcsTwSNB提高了648,召回率以及p值也有了一定的提高。实验结果表明基于话题标签和转发关系的微博聚类算法能够有效地提高微博聚类的正确率,进而获取更加合适的主题词。关键词:微博数据;文本挖掘;

3、特征权重;微博转发关系;主题词提取中图分类号:TPl81 文献标志码:AMicro-blog clustering and topic word ext腿ction b嬲ed onh嬲htag and fbw咖mng rela廿。璐lIipSHU Juel,CHENG Weiqin91,”,DENG Con91(1|sc如甜旷co唧吮r Scim唧n,ld如也,lo蛔弘彬,lg蚵矿P吣如柑死kDm舢础删如邶,d耐昭,谊7咿“210003,傩i舳;2研如60mto,y铲co唧恤r肫加。小。蒯蜘肌nt幻,l砌egm如,l(50眦k傩f踟觇巧蚵),胧n括竹矿E孔删面n,施砸,lg缸n伊H 21118

4、9,c毳i)Abst鞠d:Conceming the low accumcy of micr0-blog clustering,on the basis of research on the micmblog data,IIlicmblog hashtag was used to enhance vector space model,and micro-blog forwarding relationship was used to improve the accuracyof clusteringWith the iIlfbmation such aS forwarding硼mbercomm

5、ent number of a micmblog aIld infornlation of the userwho posted the blo昏topic keywords of the clusters were extracted Clustering results on the experiments of Sina micm-blogdataset show that,compared with矗一means algorithm and ICST-WSNB(a short Chinese text incremental clustering algorithmbased on w

6、ei曲ted semantics and Naive Bayes),the accuracy of the proposed clustedng metIlod based on topic labels alldfo刑arding relationship incre鹊es by 185 aIId 663 respectively; the recaU and,value are also improved711leexperimental results show that the pmposed clustering algorithm based on micm-blog topic

7、label and forwarding relationship caneffectively impmve the accuracy of micr0-blog clustering,and then get more appmpriate topic wordsKey words:micm-blog data;text mining;feature weight;micm-blog forwarding relationship;topic word ex心扰tion0 引言随着互联网的快速发展,微博成为了一个近几年来迅速兴起的社交网络,人们可以方便迅速地在这个平台上发表自己的意见想法、

8、所见所闻。截至2叭4年3月,新浪微博月活跃用户1438亿,日活跃用户6660万,其中包括大量政府机构、企业、官员、普通民众个人认证账号,开放的传播机制使新浪微博成为中国的“公共议事厅”。人们能够通过微博,随时随地将信息传递到每个用户。而对于微博中所包含的大量信息的相关研究也成为了当前研究热点,其中对微博文本的聚类分析便是其中之一。微博文本和其他文本存在着很多不同:1)微博文本限制在140字符之内,每个人发表的文本长短不一,很多时候只是一个句子甚至是一个短语;2)微博文本的语法存在着非正式性,常常带有一些口语,并且,在这些句子中通常会存在拼写错误、网络语言、缩略语和一些表情符号;3)微博文本带有

9、一些其他媒体文本所没有的元素,比如作者、发布时间、评论数量、转发数量、赞数等;4)微博文本与微博文本之间存在转发与被转发的关系;5)微博文本有着比其他文本更加突出的主观性12|。由于微博文本所具有的这些特征,传统的文本处理方式不太适用于该类变异短文本的处理。童薇等旧1基于用户网络,通过对微博间的用户关系、时间关系、语义关系进行分析,提出了基于中文文本特征语义相似度、时间相似度和社交相似度的事件发现算法,并指出了对于微博文本聚类,微博文本之间的语义相似度是最为重要的。Phuvipadawat等。41在纯粹的Twitter文本的基础上使用了一种基于命名实体加权的改进TF一1DF方法,将文本转换到了

10、空间向量模型上,通过调整7r们tter文本内词项的特征权重来计算文本间的相似度,以更准确地发现微博事件。彭泽映收稿日期:2015一0829;修回日期:2015-09一13。 基金项目:国家自然科学基金资助项目(61170322,71171117,61373065);计算机网络和信息集成教育部重点实验室资助项目(K93-9201404B)。作者简介:束珏(1990一),女,江苏丹阳人,硕士研究生,cCF会员,主要研究方向:数据挖掘;成卫青(1972一),女,江苏淮安人,教授,博士,ccF会员,主要研究方向:网络测量、模式识别;邓聪(1993一),男,江苏南京人,主要研究方向:数据挖掘。万方数据第

11、2期 束珏等:基于话题标签和转发关系的微博聚类和主题词提取 46l等p。基于wikipedia的词条通过对特征词项进行语义拓展来提高主题聚类学习模型的性能。该方法虽然降低了特征的稀疏性,但带来了额外的噪声数据,反而会导致聚类结果不准确。xu等旧。在分析了T衍tter文本特性的基础上,发现了“长尾效应”,提出了限制比较次数的不完全聚类的方法。大部分的聚类技术依赖于四个方面:数据相关模型、相似度检验方法、聚类模型和一个基于数据模型和相似度检验算法的聚类算法。文本聚类的研究基本上是基于以上四点。文本聚类大多是基于词袋模型的,但微博文本属于短文本,词袋模型会造成数据稀疏,故而聚类效果下降。同时,已有微

12、博文本聚类算法也并未考虑微博之间的转发关系,而在微博中,转发关系是最为重要的一种关系,它大多保持了转发双方在转发过程中主题的一致性,故而非常重要。本文在考虑微博转发关系的基础上,先生成转发链,再将转发链中的微博作为一簇,然后基于微博文本的特点改进特征权重的计算,最后进行微博文本的聚类分析。l 微博聚类和主题关键词提取在微博文本聚类中,为了提高微博聚类的效果,现有的研究主要是通过预处理来解决微博文本数据稀疏和分布不平衡的问题。现有的微博聚类算法主要从三方面来提高微博聚类的效果:一是基于微博文本的特点,改进特征选择和特征权重的计算方法,通过对纯文本聚类算法的改进来提高聚类的效果;但该类方法未考虑到

13、微博其他的特点,故对于微博聚类的效果提高一般不明显。二是在预处理时通过特征拓展来扩展特征空间。该类方法虽然可以提高聚类的效率,降低特征的稀疏性,但是特征的拓展为特征空间带来了噪声数据,不能在大范围微博数据上使用。三是基于微博数据的特性修改微博聚类的模型来提高微博聚类的效果,一般是对文本间的相似度计算进行修改。前两种都是在特征提取和特征权重方面作了改进,而第三种则是在相似度计算方面作改进。本章主要从微博文本特点和微博数据特性人手提高微博聚类效果:关于微博文本,对微博文本中包含的标签信息特别加以利用;关于微博数据,对微博之间的转发关系特别加以利用。11基于hashtag和转发关系的微博聚类111特

14、征词提取与特征词权重对于微博的文本,在计算特征词权重时,从两方面加以考虑:一个是微博文本本身,一个是微博文本中所包含的标签信息。当一个微博文本存在h鹊htag时,通常它的主题可以由这个hashtag来表示。hashtag基本上都是由#和【】来表示,提取出微博中的hashtag,并对它作进一步的研究。由于微博的字数限制在140字之内,描述比较短小精炼,除了一些通用词之外,其他词语一般只出现一到两次,而这些词语就是对这个微博主题的描述。考虑到这些词语大部分是实词,故在分词时只保留对话题影响比较重要的名词、动词、时间、处所等这类实词,把它们作为特征词。特征词fi在微博吐中的基本权重使用改进的TFID

15、Fl7。81计算: 埘i:_些些望些坠(1)埘F。F二=三=兰= 【l J艺(19(以)+1)i奶2其中:吮=Z(屯)n(di)表示特征词。在微博内的相对词频,f(。)表示词在微博d,内出现的次数,n(d,)表示的是保留的微博d,内实词的个数;i够=lg(奶)为反文档频率,哳为词项的文档频率,嘶=ni,ni为包含特征词t。的文档数量,为文档的总数量。对于微博中的hashtag信息,先提取出标签文字,并对其进行分词,再根据文本的信息来计算每个特征词的标签因子。借鉴改进的TF-IDF特征权重计算方法,在微博d,中的特征词。的标签因子te培i定义为:埘e喀i=1+ 1型垒型些坠,有。19(+1)lg

16、(凡。)2 V i=1第一个式子表示当微博存在hashtag且正文中的词fi在hashtag出现时的标签因子,第二个式子表示标签中不存在该词时的标签因子。其中:矗玑i表示在标签中的相对词频,J7、r表示包含标签的微博个数,|Il表示的是hashtag中包含词;的微博个数,A是一个常数。最后,特征词f。在微博d,中的权重定义为:埘e话=le喀i (3)112转发关系簇从获取到的微博发现,微博中存在着大量的转发关系,存在转发的微博的数量占微博总数的51左右,而转发与被转发的微博之间具有主题相关性。基于此发现,本文在对微博聚类时不仅考虑微博的纯文本信息而且考虑它们之间的转发关系。转发微博与被转发微博

17、之间的主题通常是相同或相似的,所以将微博信息中的转发关系单独提取出来进行分析。由于一条微博最多只能转发一条已有微博,因此微博中的转发关系是单向的,因此将转发关系作为单向边,微博作为结点构成图,将相互连通的部分视作一个小簇,称之为转发关系簇,如图l所示。图l 微博转发关系示意图构造微博的转发关系邻接矩阵,记为A:A=打(dI,d1)打(d:,d1)r(d。,d1)打(dl,d2)打(d2,d2)打(d。,d2)打(dl,d。)打(d2,d。)打(d。,d。)(4)其中:,、 l, 微博d。、di间存在转发关系。L0, 微博d。、d,间不存在转发关系基于转发关系矩阵,构造转发关系有向图,使用广度优

18、先遍历算法遍历该有向图,把所有微博分成一个一个的小簇(转发关系簇),每个小簇是一个最大连通子图,其中的节点是如图l所示的具有转发关系的微博。将这些小簇作为微博聚类的基本单位,使用基于最大最小距离和误差平方和(sum万方数据462 计算机应用 第36卷of Squared E玎or,SSE)的自适应聚类算法一1进行聚类。113转发关系簇与聚类中心之问的距离度量聚类需要计算转发关系簇与聚类中心之间的距离。转发关系簇以微博对象为主体,所以距离度量也是基于微博对象,这里有两种方法:1)计算簇中心与聚类中心的距离,计算簇中心的方法与计算聚类中心的方法相同。2)计算簇中微博对象与聚类中心距离的平均值。经过

19、实验发现,这两种方法的效果差距不大,本文选择第一种方法,该方法计算量明显小于第二种。114基于hashtag和转发关系簇的微博聚类算法利用微博间的转发关系,以转发关系簇为基本单位进行聚类,即这些小簇在聚类过程中是不可分的。但是如果只是把这些簇视作一个数据对象,在使用基于最大最小距离和ssE的自适应聚类算法计算聚类中心时会使簇对聚类中心的影响被削弱。因此,在计算聚类中心时,以簇中微博对象为单位进行计算。算法流程如下:输入需要进行聚类的微博数据;输出微博聚类结果。1)提取微博文本中的hash魄信息。2)使用汉语词法分析系统(Institute of co瑚putingTechn0109y,chin

20、ese kical Analysis system,ICTcLAs)分词系统对微博文本和标签进行分词,并去除停用词和非实词。3)基于式(3)计算特征词在微博中的权重。4)基于微博的转发关系,构造转发关系矩阵A和所有结点集合s。5)对于集合s中每个入度为0的微博节点node,以其为起点建立一个簇并加入簇的集合(具有转发关系的微博形成的簇的集合)c中:使用广度优先遍历(Breadth First Search,BFs)算法,将遍历到的所有节点加入以node为起点的簇中。6)使用基于最大最小距离和ssE的自适应聚类算法一。对微博数据进行聚类,其中:对每个转发关系簇计算簇包含的所有微博数据各个维度的均

21、值作为小簇中心,根据小簇中心与各聚类中心的距离将小簇分配到最近的类簇中;计算聚类中心时,将类簇中所有转发关系簇所包含的所有微博数据的距离平均值作为聚类中心。7)输出微博聚类结果。12主题关键词提取在获取聚类信息后,可以提取每个类簇中关键的特征词,以得出该类簇的大概主题。在关键词的提取过程中,除了利用文本本身的信息,还可以对微博的其他信息加以利用,如:微博的转发数和评论数、微博用户的粉丝数和发布微博的条数,来判断微博本身的重要性。本文提取每个类别中最能反映主题的特征词,主要考虑三个因素:一是特征词在微博中的权重,二是特征词在一个类别的主题相对权重,三是微博在其所属类别中相对权重。121特征词对一

22、个类别的主题相对权重本文借鉴文献10定义特征词f,对聚类c;的主题的相对权重:观厂荡万aj:,a:l (5)其中:妖,是指在类别c。中包含特征词i的文档篇数,奶是指全部文档中包含词,的文档的篇数,d。是指类别中总的文档篇数,d表示所有文档的篇数,够d。表示在类别ci中包含特征词f,的文档占类别c;中全部文档的比重。某类别中包含某特征词的文档占该类别文档总数的比值可以反映出该特征词对该类别的贡献程度,该比值较大表明含有该特征词的文档较多,该特征词较突出该类别主题,反之亦然。然而只从某类别中含某特征词文档占该类别文档的比值,不能全面地反映出该特征词的分布情况,故将此比值再除以文档频率,得到在所有文

23、档中,特定特征词对特定类别的主题的相对权重。因此相对权重仞。的定义表示当某个特征词在某类别中相对出现次数较多时,该特征词对该类别主题有着较好的辨别能力。12。2微博在其类剐中的相对文本权重为计算微博在其类别中的相对文本权重,先计算微博的综合权重,也就是微博的重要性。一般来说,微博文本的重要性可以从两个方面来度量:一个是发布用户,一个是文本本身。一个微博可以从它的转发数、评论数、赞数来评价它的重要性。一般来说,微博文本转发数、评论数、赞数越高,它所包含的信息就越多,同时它在聚类后就更加能够代表该文本所在类别的内容或者说是主题。同时用户的影响力越大,那么该用户发表的微博含有的信息也就越多。针对微博

24、重要性影响因素,本文定义微博盔的文本权重为:d埘;=坫er埘eigJIlt:+doc埘e喀危气+s口埘eig屯 (6)其中:泌eL船留衄表示用户的权重,而c钟增阮表示文档权重,st血e劬屯表示文档基于转发关系的权重。用户的权重淞ere增帆定义为:哪eL彬e培危f。=lg(J白zlo埘P邝n址mf+1)+soWnl上mi(7)其中:如肠埘e瑚眦mI表示发表微博吐的用户的粉丝数,s雠wPs眦眠表示发表微博d。的用户从微博创建起平均每天发表的微博数。文档基于转发关系的权重定义为:se龇皤5,霎嚣的微博 微博d。的文档权重基于微博发表后的评论数、转发数以及点赞数计算,参考文献11定义为:c如ct秽e培

25、危t。=l+“。cD,n,nenti+芦r哆pD盯i+7扣FcDmment (9)其中a+卢+y=1。微博盔在其所属类别(聚类)c。中的相对文本权重定义为:如肌增培K。=iL一 (10)去著咄,其中:幽叫表示微博吐的文本权重,d。表示类别c。中的微博1d数量,手幽。,代表类别c。的平均权重。一个微博的文本权重越大,那么它在这个类别中的重要性,或者说代表主题的可能性就越大。万方数据第2期 束珏等:基于话题标签和转发关系的微博聚类和主题词提取123主题关键词提取微博d,中特征词0对于该微博所属类别c。的主题权重定义为:埘。硝=埘e劬口功。4Dtt)嘶 (11)其中:1|Je培F是特征词。在微博嘭中

26、的权重,功。“是特征词屯基于类别c。的主题相对权重,加,e话出t“是微博dJ在其所属类簇c。中的相对文本权重。在一个类别中,选择每个特征词在该类别微博中最高的主题权重作为它的最终的主题权重,也即埘。F=m晒埘。琦,并以此为依据找出权重最高的若干关键词。主题关键词提取算法为:输入微博聚类结果和特征词在微博文本中的特征权重;输出每个类别的主题词。1)对于聚类结果,根据式(11)计算每个特征词对于类别的主题权重;2)在一个类别中,对于每个特征词,选出其在该类别所有微博文本中主题权重最高的作为它的最终主题权重,并选出主题权重最高的K个特征词作为该类别的主题关键词;3)输出每个聚类的主题词。2 实验验证

27、与结果分析实验目的是验证本文提出的基于微博转发关系的微博聚类方法能否提升聚类效果,以及本文提出的利用微博各种信息提取主题关键词的方法是否有效。本文使用的数据集是从网络上获取的63641个新浪微博用户信息的数据集“,该数据集包括用户信息数据、微博数据以及文本间的转发关系。63 641个用户数据,84 168条在20140503至201405-1 l采集的包含6个主题的微博信息,以及27759条微博转发关系,其中6个主题是:魅族和小米、火箭队和林书豪、恒大足球、雾霾、公务员与贪官,以及转基因。本文使用到的数据集的字段有:微博Injd、微博内容、微博转发数、微博评论数、微博被赞数、微博所属主题、用户

28、粉丝数和用户微博数;转发信息包括转发微博Inid与被转发微博mid。实验环境为32位windows 7系统,26GHz cPU,4GB内存,Eclipse编程软件,MySQL数据库。先通过实验为式(2)中的常数A选取一个合适的值。在2000、5000、10000条数据的情况下,不同的A值对聚类准确率的影响如图2所示。当A=0时,式(2)退化为传统的,IFIDF公式。而在A过大时,忽略微博文本h髂htag话题词以外的词,由于带有h船htag的微博文本只占微博文本总数量的247,话题词内容不能完全决定微博的主题,故而会导致一些不处于h鹊htag中的词语的权重过低,造成聚类正确率下降。在数据量为20

29、00时,虽然A的影响曲线变化并不大,但A=1-5时的正确率在一组数据中仍是最高的,且仍然符合A先增大再减小再增大然后变为平缓的趋势。实验数据中,A“O5,2)的区间上以及A3时的正确率较高。而有的实验数据表明A=15时的正确率要高于A3时的正确率,故本文选择A=15作为参数。本文使用传统的J|me衄s文本聚类算法和IcsTwsNB算法副进行对比实验。ICSTwSNB是一种基于加权语义和贝叶斯的中文短文本增量聚类算法,该算法使用了加权语义和朴素贝,图2取值对聚类结果的影响在相同的实验条件(20000条随机数据,丘=8,A=15)下,传统的-n呦璐以及IcST二wSNB算法与本文的算法进行对比实验

30、,实验结果采用5次实验的平均值,对比如表1所示。表l 三种算法的聚类结果比较由表1的数据可知,本文算法的聚类准确性有一定提升,但幅度不大,这主要是因为所选的数据话题相对集中。在话题类别比较多,且使用Me锄s聚类准确率不高的情况下,本文方法效果较好,而为了验证这一点,抽取矗Me蛐s聚类结果中准确率最低的一个簇,以这个簇中的微博为数据源进行对比实验。在这种情况下,七一Me蛐s的准确率为06773,而使用本文方法的准确率为09250,这表明本文方法是有效的。而Ic趼wsNB由于使用的是利用相交词的方法来计算文本间的相似度,故对含有较多相同词语的文本间的聚类有较好的效果,而对于一些使用不同词语表达相同

31、或相似含义的文本间的聚类效果不好,故在一般的数据集中本文方法的正确率要高于IcSTwsNB。基于微博数据聚类结果,结合每个类别中每个特征词对于类别的主题权重获取每个类别主题的关键词,结果如表2所示。由于微博的静态影响力主要是由微博的转发数量以及评论数量决定的“,故而取a=05,卢=035,y=015。由于存在广告微博,其发表者的粉丝数和微博数的数量都非常大,会对主题词的提取产生很大的影响,故而在进行微博聚类前以微博数量为单位,过滤平均每日发表微博数量在15条以上的微博。根据表2,可以直观地从关键词中获知每个类别的主题。由实验可知,本文提出的主题关键词提取方法是有效可行的,能够直观地从关键词中明

32、白该类微博所表达的含义。表2主题关键词提取结果关键词(A=15,K=8) 主题林书豪火箭开拓者霍华德球哈登绝杀利拉德雾霾北京风空气大风天气雾沙尘暴转基因中国美国转基因食品科学家崔永元国家问题小米手机魅族三星流量苹果微博M)【3房价公务员聘任制公务员中国北京年薪收入浙江恒大申鑫广州恒大球上海鲁能皮球迷火箭队和林书豪雾疆转基因小米和魅族公务员恒大足球万方数据计算机应用 第36卷3 结语微博数据的大数据量、实时性、短文本等特性给微博文本处理带来了困难,本文基于微博数据的特点,提出了一种基于hashtag和转发关系的微博聚类方法,并利用微博的转发数、评论数、赞数以及发布微博的用户的信息来提取各聚类中主

33、题关键词的方法。实验结果表明本文方法能获得较好的微博聚类效果,主题关键词提取更加准确。本文着重基于微博特性进行了微博的聚类和主题词提取,下一步可以在动态获取微博的基础上,利用不完全聚类的方法,动态地对微博文本进行聚类,生成新的小类。同时针对大量的不同时间段的微博文本聚类时要考虑到时间对于事件、话题的影响,应选取适当的时间区间,在时间区间内对微博文本进行聚类,进而提高聚类的效果。参考文献:11 张剑峰,夏云庆,姚建民微博文本处理研究综述【J1中文信息学报,2012,26(4):2l一27(zHANG J F,xIAY Q,YAO JMAreview towards microtext pross

34、ing【J】Joumal 0f Chinese Infbmation Processin昏2012,26(4):2l一27)【2】 王连喜,微博短文本预处理及学习研究综述【J】图书情报工作,2013,57(11):125131(wANG L XAliterature review on pre-processi|lg afld lealing of microtext【J】 Library and Inf0册ationService,2013,57(11):125一131)【3】 童薇,陈威,孟小峰EDM:高效的微博事件检测算法J】计算机科学与探索,2012(12):1076一1086(TON

35、G W,CHEN w,MENG X FEDM:an emcient algorithm for event detection in microblogsJ】J0umal of nDntiers of Computer science aIld Technology,2012(12):10761086)【4】PHuVIPADAwAT s, MuRATA T Breaking news detection and咖cking in TwitterCwI-IAT10:Proceedings of the 2010IEEEWICACM Intemational Conference on Web I

36、nteUi努ence and5】【6】【7Intelligent Agenthnology Washington, DC: IEEE ComputerSociety,20lO,3:120123彭泽映,俞晓明,许洪大规模短文本的不完全聚类【J】中文信息学报,2011,25(1):5459(PENG z Y,Yu x M,xu HIncomplete clustering for l雌e scale short textsJJoumal of ChineInforrnation PD0cessing,2011,25(1):5459)XU T,0ARD D WWikipedia_based topi

37、c clustering fbr micmblo|gsJPt佻eedings of the American society f打Inf0硼ation scienceTechnology,201l,48(1):110SALTON G,BUCKLEY CTe珊一weigIlting印pmches in automatictext retrievalJ】Infonnation ProcessingManagement,1988,24(5):513523。【8 宗成庆统计自然语言处理【M】北京:清华大学出版社,2008:346349 (z0NG C Q Statistical natural lan

38、gIIage pIDcessing【M】Be巧i“g:Tsingllua unive商ty Press,2008:346349)9 成卫青,卢艳红一种基于最大最小距离和ssE的自适应聚类算法J】南京邮电大学学报(自然科学版),2015,35(2):102107(CHENG W Q,Lu Y HAn ad8ptive dustering algori山mbased 0n ma】【i舢m aIld minimum distances卸d tlle SSE【J】Jou卜nal of Nanjing University of Posts and Telecommunications(Natu商sci

39、ence Edition),2015,35(2):102一107)【lO】 卢艳红文本聚类及其在话题检测中的应用研究【D】南京:南京邮电大学,2015:3334(Lu Y HResearch on text clustering and its application in t叩ic detection锄alysis【D】 Nanjing:Nanjing University 0f Posts卸d Telecommunications,2叭5:33341【11】 熊小兵,周刚,黄永忠,等新浪微博话题流行度预测技术研究【J】信息工程大学学报,2012,13(4):496502(X10NG x B

40、,ZHOU G,HUANG Y Z,et a1P陀dicting popularity of tweets on蜘na weibo【J】Joumal 0f Info姗ation Engineering univeTsity,2012,13(4):496502)【121 63“1个用户的新浪微博数据集【EBOL】【2014-09“】htp:wwwdatatan昏comdat函46758(63“l users of SinaWeib0 data setEB0L【2014一09-24】http:wwwdatataIlgcomdata46758)【13】 uN P Y,uN z JKuANG B Q,

41、et a1A shon Chinese text incremental clustering a190ritlIm b髂ed on weighted semantics and NaiVe BayesJ】 Joumal 0f Computational Info皿aon Systems,2012,8(10):4257426814 原福永,冯静,符茜茜微博用户的影响力指数模型【J1现代图书情报技术,2012(6):6064(YuAN FY,FENG J,Fu QQInnuence index model of micID-blog userJ】Newhnology 0fUbrary aIld

42、Info咖ation Seice,2012(6):60一“)Bad【訇mundThis work i8 paniauy suppoedby the N“0nal Natural science Foundation of china(61170322,71171117,61373065),the 0pen Fund ofthe Key kIb_Dratory of Computer Network蚰d I证b丌nation Integmtion(southe踮t university),Ministry of Education(K93-9201404B)SHU J吣,bom in 1990,

43、MScandidateHer research interests in_clude dta miningC既NG Weiqi醒,bom in 1972,PhD,profesrHer researchinterests incIude network measurement,pattem rec0罢舢itionDENG Cong,born in 1993,undergraduateHis Iesearch interestsinclude data mining(上接第459页)【10】 孟新萍,王会珍,张俐维基百科人物属性自动获取方法研究C】第五届全国青年计算语言学研讨会论文集北京:中国中文

44、信息学会,20lo:452458(MENG x P,wANG H z,ZHANG L Study on automatic person a晡bute ex昀ction fmmWikipediaC】YWCL 2010:Proceeding of t他5th Youth Work-shop on Computational“ngLlistics Be妇ing: Chinese InfomationProcessing Society of China,2010:452458)【11】 Yu D,Yu c,QU Q,et a1An intmduction to BLCu personal attr

45、ibutes extraction system【C】Proceedi“gs of the Third CIPSSIGHAN Joint Conference on Chinese Language fTocessingStroudsbu唱, PA: Association for Co呷utational LingIlistics,20】4:120一】25Bad罐尹哪mdnis work i8 panially supponedby Ihe National Natural science Foundation of China(61300081), the Fund硼ental Resea

46、Jh Funds fbr thecentral UniVers蛔(Be玎ing Language锄d culture university Research Pmiect:15YJ030006)YU Do呜,bom in 1982,PhD,research associateHis researchinterests include computational li“guistics, semantic analysis,缸ificial in-teUigenceLIU Chmlh哪,bom in 1994,under帮aduateHer research interestsinclude natural language pmcessingTIAN Yue,bom in 1994,under卿duateHer research inte陀sts include natural 1a“gIlage pmcessing万方数据

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁