《基于把关人行为的微博虚假信息及早检测方法-谢柏林.pdf》由会员分享,可在线阅读,更多相关《基于把关人行为的微博虚假信息及早检测方法-谢柏林.pdf(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、书书书第卷第期年月计算机学报收稿日期:-;在线出版日期:-本课题得到国家自然科学基金(,)、广东省高等学校优秀青年教师培养计划项目()、国家社会科学基金项目()、教育部人文社会科学研究青年项目(,)资助谢柏林,男,年生,博士,副教授,中国计算机学会()会员,主要研究方向为微博虚假信息检测、在线社交网络-:蒋盛益,男,年生,博士,教授,主要研究领域为数据挖掘周咏梅,女,年生,教授,主要研究领域为文本情感分析谢逸,男,年生,博士,副教授,主要研究方向为网络安全李霞,女,年生,博士研究生,副教授,主要研究方向为自然语言处理基于把关人行为的微博虚假信息及早检测方法谢柏林),)蒋盛益)周咏梅)谢逸)李霞
2、)(广东外语外贸大学思科信息学院广州)(广东外语外贸大学语言工程与计算实验室广州)(中山大学信息科学与技术学院广州)摘要目前微博已成为人们获取信息和发布信息的一个重要平台,然而微博也正成为虚假信息滋生和泛滥的温床现有的方法主要基于分类算法来识别虚假信息,这些方法不能及早发现微博上流行的虚假信息为了减少虚假信息对公众的影响,使微博在人们的生产和生活中发挥更积极的作用,文中提出一种基于把关人行为的微博虚假信息及早检测方法该方法利用模型状态持续时间概率为分布的隐半马尔可夫模型来刻画信息转发者和评论者对流行的真实信息的把关行为,基于此来及早识别微博上流行的虚假信息该方法分为模型训练和虚假信息检测两个阶
3、段,在虚假信息检测阶段,计算每条信息在传播过程中产生的观测序列相对于模型的平均对数似然概率,实时更新每条信息的可信度,从而及早发现虚假信息,降低虚假信息的危害使用采集的新浪微博数据集和数据集对文中的方法进行了测试,实验结果表明了该方法的有效性关键词微博;虚假信息;把关人;隐半马尔可夫模型;社会媒体;社交网络;数据挖掘中图法分类号 DOI号MisinformationDetectionBasedonGatekeepersBehaviorsinMicroblog-),)-)-)(iscochoolofnformatics,uangdongniversityoforeigntudies,uangzh
4、ou )(aboratoryofanguagengineeringandomputing,uangdongniversityoforeigntudies,uangzhou )(choolofnformationcienceandechnology,unat-enniversity,uangzhou )Abstract ,-,-,Keywords ;-; 引言微博,又称“微博客”(),是一种基于用户关系的信息分享、传播以及获取平台最近几年微博迅速发展,已成为人们生活中不可缺少的一部分美国市场研究公司发布的最新调查报告显示,截至年月,国外微博网站的月活跃用户数已达亿目前,国内最大的微博网站新浪微博
5、的日活跃用户数为万根据中国互联网络信息中心()发布的第次中国互联网络发展状况调查统计报告显示,截至年月,我国微博用户数为亿在微博上,用户主要通过发布博文(即简短文本)来实现信息的即时分享微博上的博文通常是限制在字以内,微博用户在发布博文时无需长篇大论,因此微博具有较低的门槛借助电脑、手机等设备,任何一个微博用户都可以在任何时间、任何地点随意地发布信息,这使得微博上的信息具有很强的即时性,也使得每个微博用户都可以成为新闻的报道者目前,微博已成为新闻报道的利器例如:年月,本拉登的死讯是由上的一位用户首先报道,年月,中国云南彝良地震是由新浪微博上的一位用户首先报道微博上的信息主要依靠用户的转发进行传
6、播用户在转发信息时,也可以附加评论为了方便表达,我们把微博上的信息简称为微博信息微博信息具有极快的传播速度-信息发布的便捷性、信息的及时性和信息传播的快速性,使得微博已成为网民获取信息、发布信息的重要渠道例如:在年月国内的温州动车事故中,许多网民通过微博来实时了解事故救援的最新进展,有些网民则借助微博来发布寻人、请求献血等信息,微博在这次救援行动中发挥了十分重要的作用然而由于以下几个原因,微博正成为虚假信息滋生和泛滥的温床:()微博上的博文字数简短,较难全面客观地传递信息,这使得微博上的信息容易成为虚假信息;()有些用户为了吸引眼球喜欢故意发布一些耸人听闻的虚假信息;()普通网民自身水平、信息
7、量有限,导致其在使用微博时不经意间就会产生一些虚假信息;()微博信息在传播过程中,缺乏强有力的把关人()在传统媒体(例如电视、报纸等)中,信息的发布需要经过记者、编辑等专业把关人的重重把关,因此传统媒体中信息的可信度比较高微博虚假信息(即微博上的虚假信息)会混淆公众的视线,轻则使网民被恶搞、被愚弄,重则引起大众的群体性恐慌,造成社会的动荡,给社会带来重大经济损失例如:年月,新浪微博上的一位实名认证用户发布了一条“著名武侠作家金庸去世”的虚假信息,在该虚假信息被快速转发的分钟内,无数网民已开始表达对金庸去世的遗憾和悲痛;年月,我国微博上流传的“食用碘盐可预防核辐射”、“日本核泄漏出现的放射性物质
8、可能污染海水,没法再提炼盐”等虚假信息,引发了一场百姓排队抢购食盐的风波,给社会造成了一定的动荡为了减少微博虚假信息对公众的影响,同时也为了营造诚信、健康的网络环境,使微博在网民的信息获取和信息发布中发挥更积极的作用,有必要及早识别出微博上的虚假信息,以便及时控制虚假信息的传播,降低虚假信息对公众的影响微博上的信息主要通过用户的转发来进行传播,当用户在微博上发布一条信息时,该信息的传播过程大体如图所示(不考虑同一用户多次转发该信息的情况)其中表示信息发送者,表示信息转发者,圆圈代表用户的粉丝,圆圈的大小表示用户粉丝的数量信息在传播过程中,其转发者可能是信息发送者的粉丝或粉丝的粉丝,也可能是其他
9、一些用户,这些用户通过微博上的搜索引擎或主页发现了信息,并对信息进行了转发微博上每天新增的信息量十分庞大,例如平均每天新增的博文为亿条,新浪微博平均每天新增的博文为亿多条在每天新增的信息中,绝大部分信息都不会在微博上广泛传播,例如:用户之间的聊天信息等因此即便这些信息中存在虚假信息,也不会混淆公众的视线微博上绝大部分用户的粉丝数量都比较少-,当用户的粉丝在接收到某条虚假信息时,某些粉丝可能会识别出该虚假信息,并转告其他用户,从而使得微博对虚假信息具有一定的自我净化能力例如在图中,用户发布了一条虚假信息,然而其粉丝没有转发该信息,此时微博上的其他用户一般不会知道该虚假信息的期谢柏林等:基于把关人
10、行为的微博虚假信息及早检测方法:图 微博信息传播过程内容因此,在图中,用户发布的虚假信息不会混淆公众的视线由此可知,我们只需对微博上流行的信息进行虚假性检测,如果能实时评估微博信息的可信度,便可实现对微博虚假信息的及早发现图 非流行的虚假信息传播过程本文提出一种基于把关人行为的微博虚假信息及早检测方法,该方法利用模型状态持续时间概率为分布的隐半马尔可夫模型(-,)来刻画信息把关人对流行的真实信息的把关行为在虚假信息检测阶段,该方法实时更新每条信息在传播过程中产生的观测序列相对于模型的平均对数似然概率,即对每条信息的可信度进行实时评估,以便及早发现微博上流行的虚假信息该方法能够在虚假信息传播的前
11、期就能识别出虚假信息,从而降低虚假信息带来的危害本文第节介绍相关研究;第节介绍微博虚假信息检测的原理;第节给出实验结果;第节讨论把关人态度识别的相关问题;最后在第节总结并讨论下一步研究工作 相关研究在微博虚假信息检测方面,等人提出利用微博的信息特征(-)、用户特征(-)、话题特征(-)和传播特征(-),并基于分类算法来识别上的虚假新闻话题在微博上,一个话题一般会包含许多与之相关的博文在等人提出的方法中,信息特征选为:博文中包含的不同的个数;用户特征选为:平均每个用户发布的博文的数量、平均每个用户粉丝的数量、平均每个用户关注的用户的个数、平均每个用户注册的时间;话题特征选为:(话题博文集中)含有
12、的博文所占的比例、持肯定观点的博文所占的比例、持否定观点的博文所占的比例、最频繁用户(即在话题中发布博文最多的用户)发布的博文所占的比例、含有“?”的博文所占的比例、含有微笑表情的博文所占的比例、提及其他用户的博文所占的比例、含有第一人称代词的博文所占的比例以及博文的平均情感指数等;传播特征选为:信息传播树()的深度等人提出通过构建事件图(),并利用微博的用户特征、博文特征和事件特征()来检测上的虚假新闻事件事件通常是由某些原因、条件引起的,发生在特定时间、地点,涉及某些对象(人或物),并可能伴随某些必然结果在微博上,一个新闻事件通常会引起很多人的关注,导致出现大量与之相关的博文在等人提出的方
13、法中,用户特征选为:用户粉丝的数量、用户是否为认证用户、用户注册的时间、用户关注的用户的个数以及用户个人信息中是计算机学报年否包含头像地理位置等;博文特征选为:博文是否为专家所写、博文中是否含有、博文中的观点是否与整个事件的观点一致、博文中第一二三人称代词所含单词的个数以及最频繁用户是否来自新闻事件的发生地等;事件特征选为:事件所含博文的总数目、博文集中不同的个数、博文集中不同标签的个数、事件不同发生地的个数、事件持续的时间、事件发展到高潮时的当天用户发布的博文所占的比例该方法在检测虚假新闻事件时,考虑了特征之间的相互关系等人提出利用微博的用户特征、内容特征、话题特征和传播特征,并采用贝叶斯网
14、络分类算法来识别社会紧急情况()下上的虚假新闻话题,其中用户特征选为:用户粉丝的数量、用户是否为认证用户、用户使用的次数等;内容特征选为:博文的长度、博文中含有“?”的个数、博文中含有微笑表情的个数等;话题特征选为:(话题博文集中)含有的博文所占的比例、含有褒义词的个数、含有贬义词的个数等;传播特征选为:博文被引用的次数等人提出利用博文的内容特征、客户端特征、账号特征、传播特征和地理位置特征,并基于分类算法来判别新浪微博上的新闻事件是否属于谣言在该方法中,内容特征选为:博文是否含有图片视频音频、博文中含有正负情感词的个数、博文是否含有等;客户端特征选为:用户发送博文时是采用客户端程序还是移动客
15、户端程序;账号特征选为:用户是否为认证用户、用户的性别、用户粉丝的数量、用户的注册时间等;传播特征选为:博文是否为原创博文、博文被评论的总次数、博文被转发的总次数;地理位置特征选为:事件发生地等人提出利用信息评论者发表的评论中出现的词,并基于分类算法来识别微博上的谣言等人提出利用微博的用户特征和博文特征,并基于决策树分类算法来识别上的虚假图片,其中用户特征选为:用户粉丝的数量、用户朋友的数量、用户是否为认证用户等;博文特征选为:博文的长度、博文中单词的个数、博文是否包含“?”、博文集中含有的个数、博文中含有负面情感词的个数等上述几种方法都采用分类算法来检测微博虚假信息,即先选用一些特征来训练分
16、类器,然后用待判别的信息与训练好的分类器进行比较,从而识别出虚假信息这些方法没有考虑信息在传播过程中其转发者和评论者对信息的动态把关过程,另外只有当微博上存在大量与某条信息相关的博文时,这些方法才能对其进行判别,而此时该信息已在微博上广泛传播因此,上述几种方法不能实现对微博虚假信息的及早检测此外,-等人提出一种用于识别上虚假新闻信息的系统为了判别某条新闻信息是否可信,该系统首先在一些权威新闻网站(例如等)上找到与该信息相关的文章,然后把该信息所对应的博文与新闻网站上的相关文章进行对比,如果两者的相似度比较高,则认为该信息是可信的,反之则认为是虚假的由于很多新闻事件都是通过微博首先被报道,在新闻
17、信息传播的前期阶段,不一定能在权威新闻网站上找到与之相关的文章,因此-等人提出的方法对上的大部分虚假新闻信息都不能正确及早识别等人提出一种利用维基百科(-)来评估上的信息可信性的方法为了判别某条信息是否可信,该方法首先在维基百科上找到与该信息相关的文章,并对文章的可信性进行评估如果文章是可信的,则把信息所对应的博文与文章进行对比,如果两者的相似度比较高,则认为该信息是可信的,反之则认为是虚假的由于上的信息具有很强的及时性,而维基百科上的内容更新的速度比较慢,因此该方法对上的很多虚假信息都不能正确识别,该方法也不能实现对虚假信息的及早检测等人提出利用群体智能和机器智能来识别微博虚假信息,该方法首
18、先在微博上寻找到每条可疑信息所对应领域的专家,然后由专家来判别该信息是否可信,由于微博每天新增的信息量十分庞大,因此该方法需要大量人工的介入,很难适用于实际情况在网络信息的虚假性检测其他方法中,等人提出利用自然语言处理技术来评估博客()内容的可信性等人提出利用页面的内容特征和社会特征,并基于有监督学习算法来评估传统的内容的可信性王腾等人提出一种针对事实陈述的基于语义相似度的可信判定模型,然后基于该模型来评估传统的内容的可信度另外,等人对影响读者评估维基百科()内容可信性的因素进行了调查,发现维基百科中的一些文本特征、参考文献和图片是影响读者评估的最重要因素由于博客、传统的页面和维基百科中的文本
19、一般都是长文本,而微博中的文本是短文本(通常限制在字以期谢柏林等:基于把关人行为的微博虚假信息及早检测方法内),短文本字数很少,往往不具备长文本的很多特性,因此针对博客、传统的页面和维基百科信息可信性评估的方法很难有效识别出微博上的虚假信息本文将采用模型状态持续时间概率为分布的隐半马尔可夫模型来描述流行的真实信息在传播过程中其转发者和评论者对信息的把关行为,基于此来对信息的可信度进行实时评估,以便及早识别出微博上流行的虚假信息 微博虚假信息及早检测方法当微博用户在转发或评论信息时,用户既是信息的消费者,同时也是信息的把关人(),即用户会对信息的真实性进行判断微博信息的把关人可分为类:只评论信息
20、不转发信息的用户、只转发信息不评论信息的用户、转发信息时附加评论的用户当某条信息在微博上传播时,其每位把关人对该信息真假的识别能力是不同的,例如当与经济学相关的信息在微博上传播时,拥有经济学背景的把关人具有更高的识别能力我们把把关人对某条信息真假的识别能力称为识别度,其中识别度越高,表明用户越能正确识别出虚假信息在现有研究和实验结果的基础上,本文使用用户粉丝的数量、用户关注的用户数量、用户是否为认证用户、用户的性别、用户发表转发的博文数量、用户注册的时间以及用户的标签()在所把关信息中出现的次数来衡量把关人的识别度另外,信息在传播过程中,其每位把关人对信息的态度也是不同的,根据用户的评论可以确
21、定把关人对信息的态度,即肯定、否定或中立对于那些只转发信息不评论信息的用户,则认为其对信息的态度是中立的我们把把关人对信息的态度简称为把关人的态度虚假信息在传播过程中,持中立、否定或肯定态度的把关人的识别度的统计分布与真实信息会有比较大的差异,例如持肯定态度的把关人的识别度会普遍比较低因此,可以利用把关人的识别度和态度来检测微博上流行的虚假信息本文使用分类算法来自动判别把关人的识别度等级,然后采用现有的微博意见挖掘()方法得到把关人的态度,最后由把关人的识别度等级和态度构建观测值假设把关人的识别度可分为个等级,当某条信息在微博上传播时,令xt表示第t个把关人t对信息的识别度等级本文使用分类算法
22、来自动得到t的识别度等级xt,其步骤如下:()在微博上采集大量真实的流行信息在传播过程中出现的把关人的相关数据,然后提取出每个把关人的特征值,即把关人粉丝的数量、把关人关注的用户数量、把关人是否为认证用户、把关人的性别、把关人发表转发的博文数量、把关人注册的时间以及把关人的标签在所把关信息中出现的次数;()基于把关人的特征值,使用k-聚类算法把步中的把关人聚成个不同的簇,然后对每个簇中的把关人进行人工检验和筛选,使得每一个簇对应一种识别度等级,且同一簇中把关人的识别度等级都相同,最后把同一簇中的把关人都标记相同的类标号;()使用步中已标记的数据来训练和测试基于不同分类算法的分类器,然后根据测试
23、结果选择出最佳分类器;()从把关人t的个人资料和信息所对应的博文中提取出特征值,然后使用训练好的最佳分类器对t进行分类,从而得到xt的取值在得到xt的取值后,基于用户的评论,使用现有的一些微博意见挖掘方法便可得到把关人t的态度,例如等人提出一种用于挖掘上英文微博意见的方法,吴维等人提出一种用于挖掘中文微博意见的方法令yt表示第t个把关人t产生的观测值当t对持肯定态度时,则ytxt;当t对持否定态度时,则ytxt;当t对持中立态度时,则ytxt因此,yt,yt取的是整数值令ytyyyt表示信息在传播过程中产生的一个长度为t的观测序列某条流行的真实信息在传播过程中,其把关人的行为一般会发生变化,导
24、致把关人识别度和态度的统计特征会随着时间发生变化,例如在信息刚开始传播时其把关人的识别度可能都比较低,且不少把关人持否定态度,而在某个时间段其把关人的识别度可能都比较高,且把关人都持肯定态度可以把把关人识别度和态度的不同统计特征作为状态,假设不同状态的个数为,即q,q,q当流行的真实信息处于不同状态时,表示信息流经了不同类型的把关人,同一类型的把关人具有大体相似的兴趣爱好和识别度等级,他们在把关同一信息时大部分人会具有相似的行为,例如大部分人只转发信息或者转发信息时对信息做肯定的评价等计算机学报年状态的转移过程则可以看作是一个马尔可夫过程,即当前状态只与前一个状态有关由于把关人产生的观测值与状
25、态不具有一一对应的关系,即给定一个观测值yt,我们不能直接得到此时的状态,因此这是一个隐马尔可夫过程令Aaij;i,j为状态转移概率矩阵,它的元素aij表示在把关人把关流行的真实信息的过程中,状态从qi跳转到qj的概率令Bbi(v);v为观测值概率矩阵,它的元素bi(v)表示在状态qi下把关人产生观测值ytv的概率令i;i为初始状态概率矩阵,它的元素i表示流行的真实信息在传播过程中其第一个把关人出现时状态为qi的概率令Ppi(d);i,d为状态持续时间概率矩阵,它的元素pi(d)表示在状态qi下,连续出现d个把关人的概率,其中为状态持续的最大时间流行的真实信息在传播过程中,其把关人的行为是由多
26、种因素所决定的,因此状态持续时间概率pi(d)可能服从一个比较复杂的分布,不一定是几何分布而在传统的隐马尔可夫模型中,模型状态的持续时间概率必须服从几何分布,所以流行的真实信息在传播过程中,其把关人的把关过程实际上是一个隐半马尔可夫模型隐半马尔可夫模型是在隐马尔可夫模型(,)的基础上发展起来的,在隐半马尔可夫模型中,模型状态的持续时间概率可以为任意分布,因此隐半马尔可夫模型的应用范围比隐马尔可夫模型更广与隐马尔可夫模型相比,隐半马尔可夫模型更适合描述非稳态和非分布的随机过程图为某条流行的真实信息在传播过程中模型状态的转移过程,其中为信息发送者,代表信息的三类把关人,yt为第t个把关人产生的观测
27、值,q,q,qi为模型状态,di为状态i持续的时间,a为模型状态从q跳转到q的概率图 状态的转移过程. 虚假信息检测本文提出的微博虚假信息及早检测方法的流程如下:()数据采集、预处理在微博上采集大量的流行的真实信息产生的数据集,然后对数据集进行预处理,利用本文提出的把关人识别度等级自动判别方法和现有的微博意见挖掘方法得到把关人的识别度等级和态度,接着由把关人的识别度等级和态度构建观测值,最后得到大量的流行的真实信息产生的观测序列,作为模型训练的数据集;()模型训练利用训练数据集来训练隐半马尔可夫模型,得到模型参数值;()虚假信息检测利用训练得到的隐半马尔可夫模型来实时计算每条信息的可信度,从而
28、及早发现虚假信息其中虚假信息检测的具体过程如下:当某个微博用户发布某条信息后,如果出现该信息的把关人,则令tt,并计算出xt的值,其中t的初始值等于;求出观测序列yt,然后计算观测序列yt相对于模型的平均对数似然概率,我们把作为信息的可信度,的计算公式如式()所示,其中表示隐半马尔可夫模型,t(i,d)为前向变量,它的定义和计算公式如式()所示在式()中ct表示第t个把关人出现时模型所处的状态,t表示在状态ct下将连续出现的把关人的个数如果小于某个阈值,则认为该信息是虚假信息,退出循环,从而实现对虚假信息的及早检测;反之,则跳转到步yttidt(i,d)t()t(i,d)yt,ctqi,tdt
29、(i,d)bi(yt)jit(j,)ajibi(yt)pi(d),tibi(y)pi(d),t烅烄烆()期谢柏林等:基于把关人行为的微博虚假信息及早检测方法 模型的状态总数和不同观测值的总个数都比较小,由式()和()可知,信息可信度的更新速度主要受状态持续时间概率矩阵P的影响状态持续时间概率矩阵P的求解一般比较复杂,的取值一般比较大当某条流行的信息在微博上传播时,其转发者和评论者会非常多,导致短时间内会产生大量观测值为了能快速更新的值、减少模型参数的个数,我们假定pi(d)服从均值为ii,方差为ii的分布,pi(d)的计算公式如式()所示,其中()为函数,它的定义如式()所示为了简化模型,本文
30、中i的值取为正整数,因此(i)(i)!,如式()所示pi(d)dieidii(i)()(z)xzexx()(i)(i)(i)(i)(i)!()通过调整i和i的取值,pi(d)可以成为指数分布、高斯分布等多种分布,图为(i,i)取不同值时pi(d)的分布情况,因此假定pi(d)服从分布是合理的图 状态持续时间概率分布. 模型训练令表示模型的新参数集,即aij,bi(v),i,i,i假设训练数据集为,其包含个不同的观测序列,即(n),n,其中(n)yn为第n个观测序列,n为对应序列的长度,并且假定各个观测序列是相互独立的在模型训练阶段,我们采用文献中的前向-后向算法,并采用多序列来更新参数集aij
31、,bi(v),i的值,参数更新的公式如式()()所示其中n为训练集中观测序列(n)相对于模型的平均对数似然概率,其计算公式如式()所示,nt(i,j),nt(i)的定义和计算公式分别如式()、()所示,c(n)t表示在观测序列(n)中第t个把关人出现时模型所处的状态,(n)t表示在观测序列(n)中模型在状态c(n)t下将连续出现的把关人的个数nt(i,d)表示观测序列(n)中的前向变量,其定义和计算公式如式()所示nt(i,d)表示观测序列(n)中的后向变量,其定义和计算公式如式()所示在式()中,当y(n)tv时,(y(n)tv),否则(y(n)tv),其中y(n)t表示观测序列(n)中的第
32、t个观测值aijnnntnt(i,j)nnjntnt(i,j)()bi(v)nnntnt(i)(y(n)tv)nnvntnt(i)(y(n)tv)()-innn(i)nnin(i)()nt(i,j)(n),c(n)tqi,c(n)tqjnt(i,)aijbj(y(n)t)dpj(d)nt(j,d)()nt(i)(n),c(n)tqint(i)jint(i,j)nt(j,i),tndnn(i,d),t烅烄烆n()nt(i,d)yntc(n)tqi,(n)tdbi(y(n)t)nt(i,d),d,tnjiaijbj(y(n)t)dpj(d)nt(j,d),d,tnnn(i,d),d,t烅烄烆n()
33、通过求解式()和()来更新i和i的值,其中i,i分别表示i和i更新后的值,nt(i,d)为状态持续联合概率,它表示在观测序列为(n)的基础上,当第t个把关人出现时,模型从其他状态跳转到状态qi并将在状态qi下连续出现d个观测值的概率nt(i,d)的定义和计算公式如式()所示计算机学报年iindntnt(i,d)nddntnt(i,d)()ndntnt(i,d)idndntnt(i,d)nddntnt(i,d)(i烅烄烆烍烌烎)()nt(i,d)(n),c(n)tqi,c(n)tqi,(n)tdjint(j,)ajibi(y(n)t)pi(d)nt(i,d)()在式()中,()为函数,其计算公式
34、如式()所示,其中为欧拉-马歇罗尼常数,的计算公式如式()所示(i)(i)i(i)(i)iihh(hi)()()hh()h()由式()和()可知,如果能得到i的值,则根据式()就可得到i的值,然而i的求解比较复杂,文献提出了一种求解i的简化方法,本文采用该方法来求解i的值 实验测试及结果分析我们使用采集到的新浪微博数据集来测试本文提出的虚假信息及早检测方法,新浪微博是目前国内最大的微博网站,其注册用户数已超过亿,日活跃用户数已达到万我们使用新浪微博的和文献中的数据采集方法,在热门微博排行榜中采集流行的真实信息新浪微博运营商会监督热门微博排行榜中的信息,因此热门微博排行榜中的信息绝大部分是真实信
35、息我们对热门微博排行榜中采集到的信息进行人工筛选,得到条流行的真实信息新浪微博上存在很多流行的娱乐信息,这些信息中绝大部分信息是娱乐明星在跟粉丝分享自己的生活和工作,或娱乐明星与粉丝之间的互动,体现了微博的娱乐性这些信息由于侧重于娱乐性,因此即便存在虚假信息,也很难引起大众的群体性恐慌在我们采集到的流行的真实信息中,娱乐信息所占比例为我们在新浪微博“举报处理大厅”的“不实信息”中采集流行的虚假信息,同时也通过以下方式来采集流行的虚假信息,即首先使用新浪微博上的搜索功能来获取可疑信息,搜索关键词设置为“求辟谣”、“求认证”,然后人工的从这些可疑信息中挑选出流行的虚假信息我们共采集到条流行的虚假信
36、息在数据采集过程中,我们把信息传播过程中出现的所有把关人的相关资料都采集下来,保存于数据库中. 数据集统计分析我们对实验所用的新浪微博数据集进行了一些统计分析,信息发布者和把关人的认证统计情况如图所示,其中虚假信息发布者中为认证用户,真实信息发布者中为认证用户,虚假信息把关人中为认证用户,真实信息把关人中为认证用户信息发布者和把关人的性别统计情况如图所示,其中虚假信息发布者中为男性,真实信息发布者中为男性,虚假信息把关人中为男性,真实信息把关人中为男性图 信息发布者和把关人的认证统计情况图 信息发布者和把关人的性别统计情况信息发布者的粉丝数量统计情况如图所示,虚假信息发布者的粉丝数量主要分布在
37、之间,其中的虚假信息发布者的粉丝数量在之间,的虚假信息发布者的粉丝数量在之间;而粉丝数量在以期谢柏林等:基于把关人行为的微博虚假信息及早检测方法上的真实信息发布者的分布相对比较均匀,其中的真实信息发布者的粉丝数量在之间,的真实信息发布者的粉丝数量在之间,的真实信息发布者的粉丝数量在之间,的真实信息发布者的粉丝数量在万以上信息把关人的粉丝数量统计情况如图所示,其中的虚假信息把关人和的真实信息把关人的粉丝数量在之间,的虚假信息把关人和的真实信息把关人的粉丝数量在之间,的虚假信息把关人和的真实信息把关人的粉丝数量在之间图 信息发布者的粉丝数量统计情况图 信息把关人的粉丝数量统计情况信息发布者关注的用户数量的统计情况如图所示,其中的虚假信息发布者和的真实信息发布者关注的用户数量在之间,的虚假信息发布者和的真实信息发布者关注的用户数量在之间,的虚假信息发布者和的真实信息发布者关注的用户数量在以上信息把关人关注的用户数量的统计情况如图所示,其中虚假信息把关人与真实信息把关人关注的用户数量的分布基本相同图 信息发布者关注的用户数量统计情况图 信息把关人关注的用户数量统计情况信息发布者注册的时间统计情况如图所示,其中的虚假信息发布者的注册时间为半年以内,的虚假信息发布者的注册时间为