基于梯度提升决策树的微博虚假消息检测-段大高.pdf

上传人:1890****070 文档编号:119731 上传时间:2018-05-14 格式:PDF 页数:6 大小:499.44KB
返回 下载 相关 举报
基于梯度提升决策树的微博虚假消息检测-段大高.pdf_第1页
第1页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于梯度提升决策树的微博虚假消息检测-段大高.pdf》由会员分享,可在线阅读,更多相关《基于梯度提升决策树的微博虚假消息检测-段大高.pdf(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Journal of Computer Applications计算机应用,2018,38(2):410414,420ISSN 10019081CODEN JYIIDU2018-02一10http:wwwjocacn文章编号:10019081(2018)02041005 DOI:1011772jissn100190812017082368基于梯度提升决策树的微博虚假消息检测段大高12,盖新新1,韩忠明12,刘冰心3(1北京工商大学计算机与信息工程学院,北京100048; 2北京工商大学食品安全大数据技术北京市重点实验室,北京100048;3University of Liverpool,Dep

2、artment of mathematical Sciences,Liverpool,GB L69 7ZX)(通信作者电子邮箱hanzhongmingbthueduca)摘要:微博是信息共享的重要平台,同时。也成为虚假消息产生和推广的重要平台,虚假消息的传播严重扰乱了社会秩序。为了快速、有效地识别微博虚假消息,提出一种基于梯度提升决策树(GBDT)的虚假消息检测方法。首先,从评论的角度分析微博虚假消息和真实消息之间存在的差异,在此基础上提取评论中的文本内容、用户属性,信息传播和时间特性的分类特征;然后,基于分类特征,采用GBDT算法实现微博虚假消息识别模型;最后,在两个真实的微博数据集上进行验

3、证。实验结果表明,基于GBDT的识别模型能有效提高微博虚假消息检测的准确率。关键词:微博;社交网络;虚假消息;梯度提升决策树;评论中图分类号:TP3914;TPl81 文献标志码:AMicro-blog misinformation detection based on gradient boost decision treeDUAN Daga01”,GAI Xinxinl,HAN Zhongmin91r,LIU Bingxin3(1School ofComputer and Information Engineering,Beijing Technology and Business Uni

4、versity,Beijing 100048,Chna;2Beijing Key Laboratory of Big Data Technologyfor Food Safety,Beq吨Technology and Bushess Fniversity,Be日沁100048,China;3Department ofMathematical&iences,Unwersily ofLiverpool,Liverpool,GB 169 7zx)Abstract:Microblog has become all important platform for information sharingMe

5、anwhile,it is also one of the mainways for spreading of different misinformationIn order to detect the micro-blog misinformation quickly and effectively,amethod based on Gradient Boost Decision Tree(GBDT)war proposedFifty,classification features of content,userproperties,information dissemination an

6、d time characteristic wero extracted from the comments of micro-blogThen anidentification model based on GBDT algorithm Was proposed to detect misinformationFinally,two real micro-blog datasetswere used to verify the efficiency and effectiveness of the modelThe experimental results show that the pro

7、posed model caneffectively improve the accuracy of microblog misinformation detectionKey words:micro-blog;social network;misinformation;gradient boost decision tree;comment0 引言微博是如今网民发布信息和获取信息的主要渠道之一。根据中国互联网信息中心(China Interact Network InformationCenter,CNNIC)2017年1月发布的全国互联网发展统计报告,我国网民规模达731亿,其中微博用户超

8、过267亿,占整体网民的365。微博的低门槛特性使得用户可以不受时间地域的限制,自由表达自己的观点,使用户之间分享信息更加迅速、便捷。微博已经逐步渗透进人们的生活,影响人们的生活方式。微博平均每天会增加数亿条博文,这些博文中既有真实的信息,也有大量的虚假信息,而虚假信息的泛滥对群众的影响非常大。例如:2017年3月初,一篇文章在网络上引起轩然大波,该文称疫苗会损害人体健康,危害无穷,家长们应该让孩子远离疫苗,甚至声称孩子自然感染疾病比打疫苗强。该虚假消息在传播的过程中,误导了网民的思想,很多家长选择了不再给孩子注射疫苗。4月,微博上纷纷在转一条如何鉴别草莓变色催熟的文章。该文称如果草莓籽是红色

9、的,便是用了染色剂的缘故。浙江宁波、江苏徐州等地市民也的确发现,市面上很多草莓的籽是红色的,顿时心生不安。很多市民不再食用草莓,给社会造成了巨大的经济损失。然而,真实的情况是,草莓自然成熟后,有部分草莓籽是会变成红色的。有效地识别虚假信息对营造诚信、公平、健康的网络环境以及维持正常的社会秩序是十分必要的。现有的研究主要是通过选取文本内容、用户属性和传播特性等方面的特征,然后构建合适的分类模型,以达到识别微博虚假消息的目的。但是,这些研究中往往只选取局部、片面的特征(如选取文本内容特征的统计特征、浅层传播特征或者简单的用户属性特征),没有全面、深入地分析并挖掘影响虚假消息识别的主要因素。另外,以

10、往的研究中只是选用单一的分类器对微博虚假消息进行检测,如朴素贝叶斯(NaiveBayes,NB)、支持向量机(Support Vector Machine,SVM)、决收稿日期:2017-0828;修回日期:201710-10。 基金项目:教育部人文社会科学研究基金资助项目(13YJC860006);北京市自然科学基金资助项目(4172016);北京市科技计划项目(z1611001616004)。作者简介:段大高(1976一),男,湖南邵阳人,副教授,博士,CCF会员,主要研究方向:多媒体信息处理、现代网络通信、嵌入式系统、智能数据分析; 盖新新(1990一),女,河北邢台人,硕士研究生,主要

11、研究方向:数据挖掘;韩忠明(1972一),男,山西文水人,副教授,博士,CCF会员,主要研究方向:海量数据分析与挖掘、互联网挖掘、生物信息学;刘冰心(1996一),女,北京人,主要研究方向:数据挖掘。万方数据第2期 段大高等:基于梯度提升决策树的微博虚假消息检测 411策树(Decision Tree,DT)等,没有考虑使用组合多个弱分类器构建强分类器来识别虚假消息,故而识别的精度不高。因此,基于微博的短文本特性,本文提取微博评论的文本内容、用户属性、信息传播和时间特性四个方面的特征,构建基于梯度提升决策树(Gradient Boost Decision Tree,GBDT)算法的微博虚假消息

12、识别模型。实验结果表明,本文提出的识别方法能够有效提高虚假消息检测的准确率。l 相关工作近几年国内外关于微博虚假消息的研究逐渐增多。在国外方面,201 1年,Castillo等B o提出了对Twitter话题可信度进行评估的方法,通过提取消息特征、用户特征、话题特征以及传播特征,采用J48决策树分类方法来预测热门话题是否可信。2012年,Yang等p提出客户端类型和微博事件发生的地理位置两种新特征,采用SVM分类方法对谣言进行检测。实验结果表明,当微博所涉及的事件发生在国外而且使用非移动客户端时,此微博被判断为谣言微博的概率较高。2015年,Dayani等H1通过提取用户特征和内容特征,并采用

13、K最近邻(K-Nearest Neighbors,KNN)分类器以及NB分类器在Twitter中检测谣言中支持、反对、质疑、中性的评论。实验结果表明:对于用户特征,KNN分类器的效果并不理想;而对于内容特征,朴素贝叶斯能有效检测出谣言话题下的评论数量。2015年,Ma等K o提出基于谣言生命周期的时间序列的社交上下文特征,包括微博内容特征、用户特征和传播特征,并采用线性SVM分类器分别在Twitter数据集与DT、随机森林(Random Forest,RF)以及SVM-RBF方法作比较。实验结果表明:该文中提出方法的精确性比DT、RF以及SVMRBF方法高,且达到与DT、RF以及SVMRBF相

14、同的精确性的用时最少。2015年,Liu等1提出在Twitter上的实时谣言揭露,通过使用“群众智慧”和系统性方法来挖掘语言特征,并采用DT分类器、RF分类器以及SVM分类器进行实验。实验结果表明:该文中提出的方法在事件只有最初的5条Tweets以及最初的一小时内的预测结果都要高于其他方法;而选取两个实时谣言跟踪网站snopescom和emergentinfo与人工验证方法相比,结果显示该方法能将检测延迟减少25和50。与国外相比,国内关于虚假消息检测的研究相对较少。2013年,蒋盛益等1对现有成果进行了梳理,总结了这些研究的不足,指出了微博信息可信度分析的关键问题和核心方法,并对未来进行了展

15、望。2013年,贺刚等旧1提出利用符号特征、链接特征、关键词分布特征和时间差等新特征,将微博谣言识别形式化为分类问题,利用SVM分类算法对微博进行分类,识别结果可以辅助识别谣言。2016年,路同强等一1在分析微博谣言传播特点的基础上,结合微博文本内容、微博用户等方面的特征构建特征集合,将半监督学习算法应用到谣言检测中,以解决人工标注语料代价高昂的问题。2016年,吴树芳等刚在HITS(HyperlinkInduced Topic Search)算法的基础上,提出了融合用户交互行为和博文内容的微博用户可信度评估算法,分别构建基于交互行为和基于博文内容的微博用户有向链接图,通过反复训练法获得可信度

16、阈值,绘制不同可信度算法的用户可信度曲线,验证了算法的可行性和有效性。2016年,谢柏林等1提出一种基于把关人行为的微博虚假信息及早检测方法。该方法利用模型状态持续时间概率为Gamma分布的隐半马尔可夫模型来刻画信息转发者和评论者对流行的真实信息的把关行为,基于此来及早识别微博上流行的虚假信息。实验结果表明该方法具有较好的性能和较高的在线检测速度。2 特征选取微博虚假消息与真实消息的评论存在着很大的差异。在文本内容方面,虚假消息的评论具有语气不确定程度强、消极词汇多、内容与源消息相关程度弱的特点;在用户属性方面,虚假消息的发布者一般是非认证用户,其注册日期比较短、注册地信息不够详细,朋友数量远

17、高于粉丝数量,并且不使用顶级域名;在传播特性方面,网络大V用户对源消息的转发和URL、hashtag等符号信息将会影响用户对源消息的信任程度,进而影响微博的转发量;在时间特性方面,距离源微博发布时间越久的微博,其是虚假消息的概率会越小。基于以上分析,本文中总共选取了11个特征,并将这些特征分为四类:基于文本内容的特征、基于用户的特征、基于信息传播的特征和基于时间的特征。其中,基于文本内容的特征已在文献12中详细介绍,故在此不再多作阐述。表l列出了文中所使用的全部特征,并对特征作了简单的介绍。裹1特征及其描述Tab1 Features and their description21关注度特征微博

18、用户之间存在的关系有两种:关注与被关注。关注其他账户,则此账户为所关注账户的粉丝,可以看到其关注账户发表的博文。两个账户互相关注,两个账户即为朋友关系,都可以看到彼此发表的博文。郭浩等31指出,积极关注别人,保持较高的发文数量,就可以吸引更多的粉丝,获得更高的关注度,使社会化网络媒体营销更加有效。这说明一些在微博上传播虚假消息的账户,可能会关注多个其他账户,以希望这些账户能够关注自己,看到自己发表的博文并传播这些消息,结果表现为朋友数量远远多于粉丝数量。正常用户的朋友和粉丝的数量一般相差不多,其微博上的关注关系一般是现实中朋友关系的映射。因此,将关注度特征计算公式表示如下:ATL=FOL。(F

19、OL。+职L) (1)其中:FOL。表示用户11,的粉丝数量,职,I。表示用户u的朋友万方数据412 计算机应用 第38卷数量。正常用户的关注度值要高于虚假消息传播用户的关注度值。22顶级域名特征顶级域名是付费服务,它具有易查找、可信度高、独立性等优点,一般来说,只有一些有需要的个人或者是公司才会使用这项服务。而虚假消息传播用户本身是为了盈利,故而只会注册一些免费的账户来传播信息,所以此特征具有明显的区分性。顶级域名特征(TLD)的取值是0,1,0表示个人介绍中有顶级域名的用户的特征值,1表示个人介绍中无顶级域名的用户的特征值。23意见领袖特征王永强41指出,所谓意见领袖,指的是人际传播网络中

20、经常为他人提供信息、意见、评论并对他人施加影响的“活跃分子”,是大众传播效果形成过程的中介或过滤环节。意见领袖在信息传播过程中的影响是巨大的。例如,2010年12月6日,微博上爆出金庸先生“去世”的消息,当晚中国新闻周刊在官方微博上转发了这则微博,这则消息事后被证实为谣言。但网络大V的转发加速了消息的传播,导致此谣言在数分钟内即被转发近千条。为了衡量意见领袖在传播过程中的影响,本文中将用户分为两类:认证用户和普通用户,主要获取认证用户在传播过程中的影响。由此,将意见领袖特征的计算公式表示为:o咒。:f舾Pv”脚“,认证用户 (2)。LO, 普通用户其中:尺EP。表示通过认证用户微博被转发的数量

21、,REP耐表示源消息的转发数量。如果是普通用户,则意见领袖特征为0。24时间差特征谣言的传播有四个阶段:潜伏期、变异期、爆发期和消亡期。谣言的爆发期通常时间比较短暂。在谣言微博发布后,随即会出现一系列辟谣的微博,并且其传播要比谣言微博快很多,所以,距离谣言源微博时间越久的微博,它是谣言的概率会越小。根据以上分析,用时间差特征来表示当前评论发布时间距微博源消息发布时间的间隔,其计算公式表示如下:TID。=TIM。一TIM。 (3)其中:TIM。表示当前评论t,的发布时间,TIM,。表示源消息m的发布时间。时间差特征以天为单位。25其他特征是否认证特征(VER)、注册日期特征(RED)、注册地特征

22、(POR)在一定程度上反映了用户的可信度。本文中通过是否认证特征将用户分为两类:认证用户和普通用户。是否认证特征的取值是0,1,0表示普通用户的特征值,1表示认证用户的特征值。注册日期特征是指用户注册的实际天数,通过计算用户当前评论的发表时间与用户的注册日期的差值来实现。注册地特征衡量用户注册位置信息的详细程度,其取值是0,05,1,0表示注册位置信息为空的用户的特征值,05表示注册位置信息中只有省份的用户的特征值,l表示注册位置信息中既有省份又有城市的用户的特征值。3 特征选取本文在微博消息的评论中提取四个方面的特征,从不同的角度衡量微博虚假消息与真实消息之间的区别。与真实消息相比,在文本内

23、容方面,虚假消息中SUP特征值为负、COR特征值较低、CON特征值较低的评论更多;在用户属性方面,虚假消息的发布者一般是VER特征值为0,且A1【r特征值较低、RED特征值较低、POR特征值较低、TLD特征值为0;在传播特性方面,虚假消息的评论中URL、hashtag特征值较低,OPL特征值较低;在时间特性方面,虚假消息中TID特征值较小的评论更多。特征提取的目的是为了分析影响类别之间差异的主要因素。微博虚假消息识别问题,可以看作一个分类问题。在数据量较大的情况下,需要选择一个分类速度高且准确率也高的模型。因此本文中选用GBDT算法,它是由Friedman纠提出的组合决策树模型,是一种由多个弱

24、分类器经过多次迭代形成的强分类器。与传统Boosting算法(如Adaboost)不同的是,GBDT算法的基分类器是回归树,其迭代的目的是通过计算上一次模型的负梯度来改进模型,然后在残差减少的梯度方向上建立新的决策树;Adaboost算法通过简单地调整正确、错误样本的权重来改进模型,二者有本质区别。现给定微博数据样本(墨,Y。)(i=l,2,rt)。由于虚假消息识别是一个分类过程,故采用对数损失函数,即:L(y,F(并)=2log(1+exp(一2y,pi) (4)其中:毛=(茁“,菇:i一,),rg为样本的数量,g为虚假消息识别中特征的数量,Y。为样本的实际标签,P。为样本的预测标签。GBD

25、T算法的详细步骤如下:1)初始化模型,估计使损失函数最小化的常数值口:r0(x)=axgBmin(,i,3) (5)2)在上一次模型损失函数的梯度下降方向上建立模型,从m=1到肘(M为迭代次数):计算损失函数的负梯度在当前模型的值,将它作为残差r。的估计值: r“=一皇掣,。;,:一。,;i=-,2,n(6)将中得到的估计残差作为输入,拟合一棵回归树,求得回归树的叶节点区域R。(_=l,2,-,)。为使损失函数极小化,对于,=1,2,求得沿梯度下降方向的最优步长风:艮=argsmin三(,e,L一-(戈)+卢) (7)。i,”更新模型,。(x):,。(算)=L一(茹)+2fl加l;并E (8)

26、3)迭代结束,得到模型n(髫):如(并)=Y,艮,;名 (9)4)根据得到的模型,估算样本预测为正类的概率P+(茹)和预测为负类的概率P一(省):p+(菇)2 p,(),2 1 l菇)2再知J (10)【p一(茗)2 p,(y 21 I茗)=丁_知万方数据第2期 段大高等:基于梯度提升决策树的微博虚假消息检测 4135)据以下准则预测样本标签y(x),其中C(一1,1)是代价函数,表示当真实类别为1,预测类别为一1时的代价:y(x)=2木zC(一l,1)P+(茹)c(1,一1)P一(并)一1(11)其中:l是将布尔值转换为0,1函数。4实验结果与分析41实验数据本文实验数据集有两个:数据集1选

27、自文献16,其数据采集自新浪微博社区管理中心和新浪微博API接口,总共包含2313个谣言和2351个非谣言,内容包括旅游、球赛、娱乐、生活、常识等话题。数据集2是在文献17中数据集的基础上,采集新浪微博社区管理中心中的不实信息作为谣言数据,然后在新浪微博上爬取与谣言微博具有相同时间跨度的微博作为非谣言数据,保留原微博字数超过10,评论数超过200条的微博。处理后的数据集2总共包含447个谣言和455个非谣言,内容主要是2013年和2014年的热点新闻。两个数据集的统计情况见表2。相比数据集2,数据集1包含的特征的相关信息更多,本文在数据集1中提取了表l中介绍的所有特征;而数据集2则缺少表1中某

28、些特征的相关信息,最终在数据集2中提取了SUP、COR、CON、URL、hashtag和TID特征。本文中提出的虚假消息识别模型是一个综合模型,如果需要针对具体某个事件进行识别,可以结合本文中的模型,并使用和事件本身相关的特征进行识别。实验按照8:2的比例随机划分数据集,即数据集的80作训练集,余下20作测试集。均采用十折交叉验证。表2数据集的统计情况Tab2 Statistics of the data set42特征归一化从评论中提取的特征如果直接用于分类,其相差过大的权重范围将会影响分类器的准确性。为此,对特征进行归一化处理是十分有必要的。本文使用式(12)对特征进行归一化处理,归一化后

29、特征权重限定在0,1区间,可以消除离群数据对分类的影响,也可以使计算过程收敛得更快。托,=者孑羔岛 (12)其中:min(xJ)表示第J列特征权重的最小值,max(xJ)表示第J列特征权重的最大值。43评价指标为了评测微博虚假消息检测的结果,本文选用查准率(P)、查全率(尺)以及F1值作为评价标准。P=TP(TP十FP) (13)R=TP(TP+FN) (14)F1=2PR(P+R) (15)其中:即是被正确判别为谣言的微博数,FP是被错误判别为谣言的微博数,FN是被错误判别为非谣言的微博数。另外,为了衡量总体的分类效果,采用下面的公式计算总体分类正确率:Acc=识别正确的微博数总微博数 (1

30、6)44结果分析微博虚假消息的评论存在着语气不确定程度强、消极词汇多、重复源消息等的特点。基于此,通过统计微博消息中被模型判定为虚假消息评论的比例,可以得到一个阈值,当微博消息中的虚假评论达到这个阈值的时候,则此微博被判定为虚假消息。为了比较不同分类器分类的结果,本文选择Castillo等拉J使用的J48决策树分类器、Yang等1使用的SVM分类器以及Kwon等引使用的RF分类器。其中,SVM核函数选择径向基核函数(Radial Basis Function,RBF),使用LIBSVM【l列中的grid来寻找最优的参数C和7。441实验阈值实验以正确率Acc为基准,使用不同分类器获得使正确率A

31、cc最高的阈值,称为最佳阈值,它可以最好地将虚假消息与真实消息区分开。两个数据集的最佳阈值统计结果如表3所示。表3数据集的最佳阈值Tab3 ne best threshold of the data sets数据集 分类器 最佳阈值 数据集 分类器 最佳阈值GBDT O16 GBDT O17RF O27 RF 0281 2SVM 040 SVM O45J48 045 J48 048442特征重要性为了验证特征在分类过程中的影响,以正确率Acc为基准,用GBDT分类器的默认参数来对不同的特征进行训练,数据集l使用表1中的全部特征,数据集2使用SUP、COR、CON、URL、hashtag和TID

32、特征,两个数据集的训练结果如表4所示。其中,特征前面的“一”符号表示不包括该特征的特征集,Acc中的“一”表示实验没有使用该特征集。表4不同特征对分类的影响Tab4 Influence Oil classification with different features特征集 数据集;。素据集2 特征集 数据集1Acc数据集2(一)SUP 0891 0872 (一)TLD 0880 一(一)COR 0883 073 (一)URL 0881 0881(一)CON 0888 0886 (一)0882 0889(一)VER 0887 一 (一)hashtag 0891 0890(一)ArI-r 08

33、84 一 (一)OPL 0887 一(一)RED 0870 一 (一)TID 0831 0887(一)POR 0886 一 ALL 0894 0892从表4中可以明显看出,实验中用到的所有特征都有助于提升微博虚假消息的检测效果。其中,数据集1使用所有特征(ALL)的正确率Acc是0894,高于数据集2(0892)。这是因为数据集1使用了表1中的全部特征,数据集2只使用表1中的部分特征。在数据集1中,时间差特征(TID)和注册日期特征(RED)对总体分类结果影响是最大的;在数据集2中,内容相关性特征(COR)和支持性特征(SUP)对总体分类结果影响是最大的。这是因为数据集1中的话题,例如生活、常

34、识等,其讨论的时间会比较长,所以在数据集1中,关万方数据414 计算机应用 第38卷于时间特征的重要性会比较高;数据集2的话题是热点新闻,其评论内容比数据集1更加规范,所以在数据集2中,起重要作用的主要是基于文本内容的特征,而新闻的时效一般都比较短,故时间差特征(TID)在数据集2中体现的重要性没有在数据集l中的重要性高。443分类结果为了便于比较,实验将GBDT、RF、J48中决策树的最大深度统一设定为15,SVM核函数选择RBF,使用uBSvM寻找最优的参数c和y。两个数据集的实验结果如表5所示。其中,表示虚假消息,r表示真实消息。从表5中可以看出,GBDT分类器的正确率Acc要明显高于S

35、VM和J48。这是因为GBDT是一种由多个弱分类器形成的强分类器,其效果要好于单一的分类器;GBDT分类器的分类效果要好于RF,这是因为GBDT的输出是所有结果的累积,RF采用多数投票原则决定最终结果,且RF训练调参时依赖于决策树的最大深度,而GBDT只需很小的深度就可以达到很高的精度,实验中为了提高分类速度,没有给RF增大深度。数据集1中GBDT分类器的正确率Acc要高于数据集2中GBDT分类器的Acc,因为数据集l中使用了表1中的全部特征,数据集2只使用表1中的部分特征,且数据集1比数据集2数据量大,故分类模型加精确。表5不同分类器的分类结果Tab5 Classification resu

36、lts of different classifiers5 结语本文从微博评论的角度在文本内容、用户属性、信息传播和时间特性四个方面分析影响分类的因素并提取分类特征,并基于GBDT算法设计微博虚假消息识别模型。通过在两个微博数据集上的对比实验分析可以看到,模型在数据集1上的实验结果要好于在数据集2上的实验结果;在数据集1中,起主要作用的是基于时间的特征,在数据集2中,起主要作用的是基于文本内容的特征。两个数据集上的实验均表明,本文提出的基于GBDT的方法能够有效提高微博虚假消息检测的准确率。但是,微博虚假消息检测的价值体现在能够及早地发现并处理,以减少对社会的危害。因此,下一步的工作重点是通过

37、借助传播模型以及消息传播过程中用户的认知与识别能力,综合更复杂的特征来构建合适的模型,实现实时检测微博虚假消息的目的。参考文献:【1】 中国互联网络信息中心中国互联网络发展状况统计报告(R】北京:中国互联网信息中心,2017(China Intemet Network Infor-marion Center(CNNIC)Statistical report on Internet developmentin China【R】Beijing:China Internet Network Information Center,20171【2】 CASTILLO C,MENDOZA M,POBLET

38、E BInformation credibilityon twitter f CWWW11:Proceedings of the 20th InternationalConference on World Wide WebNew York:ACM,201 1:675684【3】 YANG F,LIU Y,YU X,et a1Automatic detection of nlnlor on SinaWeibe【cMDS12:Proceedings of the 2012 ACM SIGKDDWorkshop on Mining Data SemanticsNew York:ACM,2012:Ar

39、ticle No13【4】DAYANI R,CHHABRA N,KADIAN T,d a1Rumor detection inTwitter:all analysis in retrospect【C】ANTs 2015:Proceedings oftIIe 2015 IEEE Intemational Conference on Advanced Networks andTelecommuncatiom SystemsPiseataway,NJ:IEEE,2015:13【5】 MA J,GAO W,WEI Z,et a1Detect Fulnors using time series ofci

40、al context information on microblogging websites I cCIKM15:Proceedings of the 24th ACM International on Conference on Informa-tion and Knowledge ManagementNew York:ACM,2015:17511754【6】LIU X,NOuRBAKHsH A,LI Q,et a1Realtime rumor debunking on twitter【cCIKM15:Proceedings of the 24th ACMInternational on

41、 Conference on Information and Knowledge ManagementNew York:ACM,2015:18671870【7】 蒋盛益,陈东沂,庞观松,等微博信息可信度分析研究综述【J】图书情报工作,2013,57(12):136142(mNG S Y,CHEN DY,PANG G S,et a1Research review of information credibilityanalysis on micmblog【J】Library and Information Service,2013,57(12):136142)【8】 贺刚,吕学强,李卓,等微博谣

42、言识别研究【J】图书情报工作,2013,57(23):114120(HE G,LYU X Q,LI Z,et a1Auto-matic rumor identification on microblog【J】Library and InformationService,2013,57(23):114120)【9】 路同强,石冰,闫中敏,等一种用于微博谣言检测的半监督学习算法【J】计算机应用研究,2016,33(3):744748(Lu T Q,SHI B,YAN Z M,et a1SelIlisupervised learning algorithm印曲ed to micreblog Fumo

43、IB detection【J】Appfication Research ofComputers,2016,33(3):744748)【10】 吴树芳,徐建民基于HITS算法的微博用户可信度评估【J】山东大学学报(工学版),2016,46(2):l一7(wu S F,XU J MEvaluation of micmblog userscredibility based on HITS algorithm【J】Journal of Shandong University(Engineering Science),2016,46(2):l一7)【11】 谢柏林,蒋盛益,周咏梅,等基于把关人行为的微博

44、虚假信息及早检测方法【J】计算机学报,2016,39(4):730744(XIE BL,JIANG S Y,ZHOU Y M,et a1Misinformation detection basedon gatekeepersbehaviors in micmblogJ】Chinese Journal ofComputers,2016,39(4):730744)【12】 段大高,王长生,韩忠明,等基于微博评论的虚假消息检测模型【J】计算机仿真,2016,33(1):386390(DUAN D G,WANG C S,HAN Z M,et a1A rumor detection model base

45、d onWeiboreviews【J】Computer Simulation,2016,33(1):386390)(下转第420页)万方数据420 计算机应用 第38卷一590 IEEE 14th Intemationnl Conference on Scalable Computing and【6】LONG C,WONG R CW,YU P S,et a1On optimal womt-case Communications and Its Associated WorkshopsWashington,DC:matching【C】SIGMOD13:Prneeedings of the 201

46、3 ACM IEEE Computer Society,2014:212219SIGMOD Lqternational Conference on Management of DataNew 【14】 宋天舒,童咏昕空间众包环境下的三类对象在线任务分配York:ACM,2013:845856 【J】软件学报,2017,28(3):61l一630(SONG T S,TONG Y【7l TONG Y,SHE J,DING B,et a1OlIliDe mobile microtask alloca-XThree types of objects online task allocation spa

47、ce cdurction in spatial cmwdsourcing【C】ICDE 2016:Proceedings of the ing environment【J】Journal of Software,2017,28(3):61 l一2016 IEEE 32nd International Conference oll Data EngineeringPis- 630)catsway,NJ:IEEE,2016:4960 【15】 BEN J,ZHANG Y,ZHANG K,et a1SACRM:Social Aware【8】LEONG HOU U,MOURATIDIS K,MAMOU

48、HS NContinuous spa- Crowdseurcing with Reputation Management in mobile sensing(J】tial assignment of moving u8【J】The VLDB JournalThe Inter- Computer Communications,2014,65:5565national Journal on Very La增e Data Bases,2010,19(2):141160 【16】DAI W,WANG Y,YIN Q,et a1An integrated incentive frame【9】 GAREY M R,JOHNSON D SComputers and Intractability:A work for mobile emwdumed sensing【J】Tsinghua Science andGuide to the Theory of NP-completeness【M1New York:WHTechnology,2016,21(2):146156Freeman,1979:9091 【17】 张晓航,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁