话题下微博信息传播拓扑构造研究(精品推荐).docx

上传人:安*** 文档编号:17866471 上传时间:2022-05-26 格式:DOCX 页数:15 大小:24.87KB
返回 下载 相关 举报
话题下微博信息传播拓扑构造研究(精品推荐).docx_第1页
第1页 / 共15页
话题下微博信息传播拓扑构造研究(精品推荐).docx_第2页
第2页 / 共15页
点击查看更多>>
资源描述

《话题下微博信息传播拓扑构造研究(精品推荐).docx》由会员分享,可在线阅读,更多相关《话题下微博信息传播拓扑构造研究(精品推荐).docx(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、话题下微博信息传播拓扑构造研究随着互联网的普及,论坛、微博、微信等新媒体已经成为人们获取和信息的重要渠道,而微博已经成为舆情传播的主要平台,研究微博上舆情信息的传播情况具有重大社会意义,文章基于话题研究微博信息的传播特点。首先,通过对话题传播经过中新增用户数和介入话题用户的累计概率分布的统计,研究用户对话题转发的介入度,总结出话题传播经过,包括产生期、爆发期和衰亡期;接着利用话题中用户的转发关系,整理出话题传播的拓扑构造,通过测量传播拓扑构造中的平均途径、网络直径和聚类系数,并与无尺度网络进行比拟,对话题传播拓扑构造进行进一步的分析,总结出传播网络具有小世界特性,这些特性能够加快话题在网络中的

2、传播速度并扩大传播范围。文章研究话题传播的拓扑构造,为研究网络上的微博舆情提供了基础。关键词:微博;话题;信息传播;拓扑构造随着互联网和互联网终端的迅速普及,涌现出了很多便捷的互联网应用,如电子商务、社交网络、微博等。从美国的Twitter到我国的新浪、腾讯,微博在中国乃至全世界迅速普及。据统计,中国的微博总注册量已经超过5亿人次,天天更新的信息量已经超过1亿条。微博流行的原因主要在于它让人们信息的门槛大大降低,任何人都能够发表内容而且不必具有专业的文学撰写水平,这知足了群众快速沟通共享信息的需要。作为一种实时的沟通、信息共享工具,用户能够在任何时候任何地点微博信息,和别人互动,此外微博用户还

3、能够关注其他用户,使得微博平台成为了一个宏大的社会化网络。微博的普及、海量的信息以及庞大的用户群体,使得它也成为了一种实时信息来源工具,并且成了一种有着宏大社会影响力的社会媒体,近几年一些重要的社会热门话题都是由微博平台率先报道出来的。研究话题在微博平台上传播的经过和构成的网络拓扑构造,是对微博平台上用户行为、用户影响力等进行研究的基础。目前对微博平台上拓扑构造的测量和研究很多,GUO1等人对新浪微博上的用户进行分析,发现用户网络拓扑构造有很强的动态性,用户关注间的关系表现出马太效应;微博用户网络中存在着影响力宏大的用户,这些用户成为“核心,这些核心加速了话题在微博网络上的传播。WANG2等人

4、对微博上的信息传播进行研究,提出了一个微博的信息瀑传播模型,测量了微博的转发数分布,指出其分布情况能够用一个广延指数模型来表示。CHA3等人通过对入度、转发和引用的比照研究,发现用户的转发行为主要受微博本身价值的影响,而且对于名人和微博大V的微博应用明显要多于其别人。WEBBERLEY4等人对微博传播的深度和范围进行了研究,其目的针对一条微博,传播深度表示其最长的转发途径;传播范围表示其介入转发的用户群体数量;他们通过Twitter的数据进行验证,实验结果显示一条微博的平均最长转发途径为1.8,表示大多数消息被转发2次左右;平均转发规模在六左右,这和6度空间理论比拟符合。平亮5等人基于网络中心

5、性对微博平台上信息的传播进行研究,通过分析微博用户的点度中心度、中介中心性和接近中心性三个属性,证实了点度中心度能够衡量用户传播和获取信息的能力,中介中心性表示用户控制信息传播的能力,接近中心性能够衡量信息传播到其他用户的速度,这几个参数都能够间接用来表示用户的个人影响力大小。MISLOVE6等人对Flickr、YouTube、LiveJournal和Orkut四种社交网络的拓扑构造进行研究,对社交网络的幂率特性、小世界特性以及无标度属性进行了验证。CHA7等人在MISLOVE的基础上对Flickr上的图片拓扑构造进行研究,发现其中的信息传播需要依靠关键节点,并且时间可能较长。CHENG8等人

6、对YouTube进行了测量,分析了上面的用户行为特征、社会网络拓扑构造等,总结出了YouTube特有的统计行为方式。GUO9等人在对三种不同的分享型网络博客、书签分享、知识问答网上的用户行为进行测量研究时,发现用户的使用时间长短不服从指数分布,用户的奉献服从广延指数模型而不是服从幂率分布,证实了这种分享型网络并不是由少数核心节点所支配。CHUN10等人利用用户之间的交互信息,如留言、评论等进行研究,发现利用这些信息构成的网络构造特征与好友关系构成的拓扑构造类似,并且二者的分布极为类似,得到了与Mislove一样的结论。袁毅11对微博的用户网络构造、信息传播途径以及影响因素进行研究,他们跟踪一条

7、微博,采集所有相关的评论数据和用户数据,同时获取相关用户的好友关系。研究将信息传播归为3种类型:偶发型、偶遇时机型和强势节点照应型。其中的强势节点越早参加转发经过,越有利于信息的扩散;另外,一个用户的微博转发数量与该用户的粉丝数有一定的相关性。本文通过跟踪腾讯微博话题,采集相关话题下的所有用户数据,根据用户间话题数据的转发关系,整理出话题在整个网络上传播的拓扑构造,测量话题传播拓扑构造的性质,总结拓扑构造的特征。相比于传统的通过好友关系和跟踪一条微博构成的网络拓扑构造,这种通过转发关系建立的拓扑构造愈加完好,能够展现出整个话题的扩散速度和范围,更有利于舆情信息的监测和控制。1微博数据采集1.1

8、微博爬虫设计为了获取实验数据,本文针对腾讯微博设计了一款微博主题爬虫,根据特定主题获取微博网络上的微博信息和用户信息。本文设计实现的腾讯微博数据爬取系统从功能上主要分为API爬虫、Web爬虫以及分布式控制三个模块。其中,API爬虫模块通过微博平台的开放API实现对微博用户信息的采集,主要用于获取用户的个人好友关系、转发关系等;Web爬虫通经过序模拟阅读器进行Web页面阅读的经过,用于获取用户的微博信息,主要是对特定页面的源代码信息进行解析,进而获取相应的微博数据,该模块主要采集微博内容信息和微博相关属性信息;分布式控制模块根据指定的分布式任务分配策略从数据库中读取关键字,控制爬虫的爬取策略和速

9、度。API爬虫和Web爬虫以数据库作为信息交互的媒介,通过为这两个爬虫设置适宜的线程数来到达两者之间的供需动态平衡。爬虫系统的设计框架如图1所示。为了采集微博平台的话题传播信息,并保证数据的安全性,爬虫系统部署在四川大学网络与可信计算研究所的科研网络环境中,该科研网络利用文伟平12等人和王永娟13等人的的信息安全风险评估技术对网络安全性进行评估,并根据评估结果对网络进行改造升级,从软件层面保证数据信息的安全性;其基础设施安全防护借鉴卿斯汉14所阐述的身份鉴别经过,加强基础设施保护措施,从硬件层面保证数据安全性。程序运行的服务器配置为:MicrosoftWindowsServer2003Ente

10、rpriseEdition;Intel(R)Xeon(R)CUPE55062.3gHz;8G内存。为了提高数据的采集效率,爬虫系统采用了分布式的爬行策略并行爬行。为了避免爬虫系统被腾讯微博平台识别为恶意程序而被封禁,保证爬虫系统的连续运行,爬虫系统的爬行间隔设置为5分钟。数据的采集时间为2014年7月至9月,系统持续跟踪了这段时间内的所有话题。图1爬虫系统设计框架1.2数据采集结果系统天天监测排名前10的话题,由于天天的话题有重复,在数据采集期间一共获取话题数量207个,获取与所有话题相关的微博信息超过870万条,用户总量超过400万。首先对话题的性质进行分析,通过统计发现,话题主要分为娱乐性

11、质、社会性质和其他性质。娱乐性质的话题主要和娱乐界的事件、人物相关,例如某个明星开演唱会等;社会性质的话题主要和社会事件、人物相关,例如某地发生灾祸或者草根爆料事件等;除了这两种话题之外的其他话题属性比拟模糊,所占比例很小。表1是这3种性质话题的统计结果。从表1中能够看出,社会性的话题数量占比为17.39%,而娱乐性话题的数量占比为73.91%,用户比例表示相应话题下所有介入话题讨论或转发的用户占采集用户总量的百分比。在话题数量差距宏大的前提下,介入话题的用户数量却基本一样,甚至社会性的话题介入人数还要略高于娱乐性的话题。从话题的平均持续时间能够分析出原因,对于娱乐性的话题,其平均持续时间为4

12、天,比第三性质的话题持续时间还短,远小于社会性话题持续时间,讲明用户群体固然对娱乐性质的话题关注度较高,但是没有持续跟踪的热情,但是对社会性质的话题有很高的持续跟踪热情。话题在持续发展的经过中,随着其影响范围逐步扩大,会吸引更多用户介入其中,这和话题的传播特点有关。根据采集的数据,从中选择了“云南昭通市鲁甸县地震和“江苏昆山工厂发生爆炸这两个社会性的话题微博数据作为实验数据集,对话题传播的特点进行分析,测量话题传播经过中通过转发构成的拓扑构造。2话题传播的拓扑构造2.1话题传播的特点微博平台是由关注与被关注的机制连接起来的社交关系网络,是人们在现实生活中社交关系在互联网上的映射和扩大。信息在微

13、博上的传递大多数是通过转发方式来实现的。微博上话题传播的第一个特点是话题传播的间接性,信息不直接传递给用户,而是首先通过几个微博用户进行转发,然后关注这些用户的粉丝会选择性地对这些信息进行转发,这样经过层层转发,信息间接地传递给受众。根据YANG15等人对Twitter的研究发现,其中有接近25.5%的内容是从朋友的推文中转发而来。在采集到的腾讯微博中去除个人心情相关的博文,只统计和话题相关的博文,统计结果显示,转发博文所占比例的平均值高达54.7%。但是话题转发率高,并不代表该话题就能够大范围地传播以及产生宏大影响,话题能否产生宏大影响和话题本身以及受众的偏好有直接关系。根据研究人员对Fac

14、ebook用户群体的研究16,发现很多有影响力的用户更倾向于相互之间进行关注,这个现象讲明社交网络存在明显的同质性。同质性17是指有类似特征的用户之间构成好友关系的倾向,即通常所讲的“物以类聚,人以群分。有些话题与娱乐明星或者体育等相关,在关注这些人的圈子里,这方面的话题能够大量转发和传播,但却不能在整个微博网络平台上产生广泛关注,由于这些话题不能吸引圈子外其别人的兴趣。相比之下与社会性相关度高的话题,能够吸引更多人的兴趣。而且微博网络被证实符合六度空间理论。KWAK18等人对Twitter的转发途径研究表明,超过90%的转发途径长度都小于6,所以这类话题能够在微博平台上引起广泛的关注和讨论,

15、传播范围更大。微博话题信息传播的另一个特点是具有很强的时效性,即话题从产生到消亡的持续时间较短,不能长时间地保持很高话题热度。话题的热度发展趋势能够分为产生期、爆发期和衰亡期,但是在产生期到爆发期之间可能会出现一个短暂的静默期,同时在爆发期后可以能进入静默期,在遭到一些条件的刺激后,再次进入爆发期。其中话题在静默期表现为话题的热度基本维持不变或者是变化率很小;在爆发期时表现为话题的热度呈现线性增长,话题迅速扩散,用户介入话题的数量也呈线性增长趋势;进入衰亡期后,热度迅速下降,介入话题的总用户量到达稳定,变化率基本维持不变。根据从腾讯微博平台采集的数据,针对“云南昭通市鲁甸县地震和“江苏昆山工厂

16、发生爆炸两个话题的数据进行分析,采用用户的介入度来衡量微博话题的热度。图2为两个话题每日新增用户数量统计,话题持续时间较短的是“工厂爆炸,它的发展是一个典型的话题发展经过,从话题产生后直接进入到爆发期。图3是两个微博话题介入用户数的累计概率分布。从图3能够看出,前3天的新增用户量占了近90%,讲明话题的传播处于爆发期。然后迅速进入衰亡期,持续时间只要一个星期,衰亡也非常迅速,充分体现了话题传播的时效性。云南地震话题的持续时间较长,它的发展是一个非典型的经过,首先它的热度持续了较长时间,超过了3个星期,而且它有两个爆发期,从图3中看出,前3天和第812天这两段时间的新增用户所占比例分别接近40%

17、和30%,讲明这两个时间段话题的传播正处于爆发期。两个爆发期中间还有一个短暂的静默期,从话题产生开场就迅速增长,其第一个爆发期持续了3天多,这和地震的黄金救援72小时时间基本吻合,这段时间内用户关注数量增长非常快。接下来新增用户数量逐步减少,趋于平缓,然后就进入了静默期。假如这个时期没有其他的因素进行刺激,那么话题就有可能渐渐进入消亡期,热度逐步消退。但是话题却再次被激活了,从静默期又一次进入了爆发期,由于这段时间内发生了较大余震,并且很多救援问题凸显,导致很多用户又开场关注这一话题,于是进入了第二个爆发期,新增用户量又开场剧增。第二个爆发期后,由于事件中的所有问题都得到了妥善处理,没有新的刺

18、激点,用户的关注度也逐步下降,新增用户数量逐步减少,直至趋于稳定,然后话题就逐步进入消亡期,热度逐步消退。话题的发展趋势和事件的发展及处理经过非常吻合。2.2话题传播的拓扑构造形态微博话题通过转发的方式进行扩散,从一个或少数的用户开场,到被大量的用户发现并进行转发,最后进行大规模传播甚至扩散至整个微博平台,转发方式是用户获取和传播信息的主要途径。通过获取话题中有转发标志的微博用户,并标注出话题在这些用户中传播的途径,得到了话题的转发树,表示话题在传播时的拓扑构造。图4表示的是“昆山工厂爆炸话题转发树的拓扑构造,表示的是用户之间的转发关系,一条线表示一个转发关系。其中包含很多不同的“类,这些类是

19、若干个节点的集合,在这些类的内部,各个节点之间联络严密,而各个类之间则仅仅通过少数的几条边相连接。从图4能够看到各个点之间的联络,而且很容易看出网络的整体传播构造。形态。第1种形态是在关注朋友圈子里面的小范围传播,如图4中的a部分的简单转发构造所示,话题微博仅仅被用户的直接好友大量转发,短时间内话题的转发量和用户介入数迅速增加,但是之后就不会再继续向外扩散,构成了一个小范围的扩散构造。第2种形态如图4中的c部分的简单转发构造所示,话题微博也只是被用户的直接好友转发,但是介入数量很少,只要一个或几个,即便转发之后话题微博也难以向外扩散,很快就停止传播。图4中的两个简单转发构造表示的就是这种形态有

20、共同的特点,就是扩散的用户多但是途径很短,扩散范围小,而且传播速度较慢。第3种形态就是图4中的b部分所展示的方式,话题的传播途径相对较长,介入转发的用户数量很多,话题的传播范围很广,我们将针对这种传播范围广的转发树来进一步研究。2.3话题传播拓扑构造的性质网络平均途径长度19指网络中所有节点对之间最短途径的平均值;而网络直径则是指网络中任意节点对之间最短途径的最大值。这两个值能够用于描绘网络的信息传输速率、传输范围等特性。节点的聚类系数19ClusteringCoefficient表示一个节点与邻居之间互相连接的严密程度,刻画了网络中节点的集团化程度;而网络的平均聚类系数是所有节点聚类系数的平

21、均值,刻画整个网络的聚类特性。网络中的一个节点i有K条边将它和其他节点相连,这K个节点就是节点i的邻居,在这K个节点之间最多可能有K(K-1)/2条边。而这K个节点之间实际存在的边数E和总的可能存在的边数之比就定义为节点i的聚类系数,如公式1所示:很明显,Ca1。当且仅当所有节点都为孤立节点时,Ca=0。当且仅当网络是全局耦合的时候,即网络中任意两个节点都直接相连时,Ca=1。为了测量传播经过中拓扑构造的性质,本文利用分析工具产生随机网络与实际获取的社交网络数据进行比照,产生一个无尺度的复杂网络20,模拟用户社交网络。首先要生成一个ER随机网络,这是Erdos和Renyi最开场研究的随机复杂网

22、络模型,对一个节点数N1的复杂网络,任一条边都以一样的概率p连接任意两个节点,这就是一个典型的N个点,有pN(N-1)/2条边的ER随机图。对于大型的稀疏网络,p值非常小,表达起来及其不方便。因而,在产生ER随机网络时,利用一个更直观的概念:节点的平均度d,它的值定义为:3公式3中p为连接概率,v为节点数目,M为该复杂网络中最多可能存在的边数。先前产生的ER网络没有考虑到很多复杂网络的实际特性,其中有两个重要的特征,复杂网络具有动态增长和优先连接特性。动态增长是指在实际的复杂网络中网络的规模是不断变化甚至扩大的;优先连接是指新参加进来的用户,更倾向于与那些具有较大连接度的节点相连。基于这两个特

23、性,在ER网络的基础上构造无尺度网络。1增加网络规模:每一步向网络中增加一个新的节点,同时向网络中添加k条边。2优先连接:边所连接的两个节点是在所有的节点包括新增加的节点和原网络所有节点中以某个概率来选择。其中,各节点被选择的概率的大小Pr(v)与节点的度有关,详细计算如公式4所示:其中,E表示原网络中总的边数也就是原网络中各节点的度之和,v为节点数,而indeg(v)和outdeg(v)分别表示节点v的入度和出度,、和分别为三个常系数,且+=1。利用上述的方法产生了两个分别包含50000和80000个节点的无尺度随机网络,用于和从真实社交网路获取的数据进行比照。从36个话题中随机抽取8个话题

24、,这些话题包含的用户规模都比随机无尺度网络大一些。分别测量它们的拓扑构造,计算它们的平均路的径长度、网络直径和网络的聚类系数进行比照。表2中是部分无尺度网络与话题传播拓扑构造参数比照。从表2能够看出,微博话题传播拓扑构造与随机无尺度网络相比,其平均途径长度基本一样,但是网络直径要远小于随机无尺度网络,这讲明实际拓扑构造中的节点间联络愈加严密,聚集系数的测量结果也证实了这一点,测量结果中实际网络的聚集系数的最小值0.2009要远远大于随机无尺度网络聚集系数的较大值0.000071。假如一个网络有较小的平均途径长度和较高的聚类系数,则能够成为小世界网络,从测量结果分析,话题传播构成的转发构造网络具

25、有明显的小世界特性。与新浪微博和人人网的拓扑特征参数比照,他们的平均途径长度、网络直径和聚类系数都很接近,讲明话题传播构成的拓扑构造与新浪微博和人人网的网络关系拓扑构造具有一样的网络性质。在这个转发网络中,网络的平均途径相对很短,但是网络的聚类系数很大,讲明在整个传播网络中,用户间的联络更为严密,这特别有利于信息的传播,而且网络的小世界特性会加速信息的传播经过,话题信息在用户之间进行层层转发,屡次转发,从核心的用户逐步向外扩散,用户介入数呈爆发式增长,话题传播范围越来越广。因而研究话题传播拓扑构造对研究怎样进行舆情监控、网络监管以及研究用户的影响力具有重大意义。3结束语舆情信息的监管是当前网络

26、安全监管的重要内容之一,微博已经成为了舆情信息传播的重要平台。为了研究舆情信息在微博上的传播形式和特点,本文利用爬虫程序从微博网络上获取话题数据以及相应的用户数据,通过对用户介入转发的经过进行分析,总结出了话题传播的一般规律和特点,并结合实际情况进行了验证。然后利用话题中用户间的转发关系,绘制出了话题传播的几种主要拓扑构造,对其中的大规模转发拓扑构造进行了深化的分析,并根据无尺度网络的定义,利用社交网络分析软件Pajek生成两个无尺度网络,通过真实的转发网络与利用分析工具模拟生成的随机复杂网络进行比照,测量其平均途径长度、网络直径以及聚类系数等参数,总结出了转发网络构成的拓扑构造具有明显的小世界特性。研究结果对网络舆情监控有一定的应用价值。本文主要针对微博社交网络上的话题传播经过进行了研究,目前的研究工作只利用话题中介入用户的转发关系来构建网络的拓扑构造,没有对用户的转发行为和用户关系进行进一步的研究。用户的个人行为对话题的传播也具有一定的影响力,用户的个人影响力能够加快话题的传播速度和扩大话题的传播范围,因而下一步的研究将是在话题传播拓扑构造的基础上,研究用户的行为和用户的影响力,发现网络中影响力大的用户,研究这些用户对话题传播经过的影响作用。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 考试试题 > 升学试题

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁