基于区域交互模型的sns网络用户影响力评估-王楠.pdf

上传人:1890****070 文档编号:107021 上传时间:2018-05-13 格式:PDF 页数:10 大小:2.80MB
返回 下载 相关 举报
基于区域交互模型的sns网络用户影响力评估-王楠.pdf_第1页
第1页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于区域交互模型的sns网络用户影响力评估-王楠.pdf》由会员分享,可在线阅读,更多相关《基于区域交互模型的sns网络用户影响力评估-王楠.pdf(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第37卷第1期2016年1月通信学报Journal OIl CommunicationsVbl37 NO1January 2016doi:10119598issn1000-436x2016020基于区域交互模型的SNS网络用户影响力评估王楠1,孙钦东1,周亚东2,王汉秦1,隋连升1(1西安理工大学网络计算与安全技术陕西省重点实验室,陕西西安710048;2西安交通大学智能网络与网络安全教育部重点实验室,陕西西安710049)摘要:针对现有方法与模型未能准确体现不同距离用户之问真实交互行为的问题,提出了一种基于用户区域交互模型的用户影响力评估方法。区域交互模型利用影响力传递的不同方式,刻画不同距

2、离之间用户的交互行为模式,能更为真实准确地反映在线社会网络用户之间的交互行为。通过计算用户对相邻用户的显性影响力与非相邻用户的隐性影响力,可有效识别在线社会网络中大影响力用户、僵尸粉用户等不同类型用户。基于新浪微博与人人网真实数据开展用户影响力评估以及相应的用户角色识别实验,结果显示,与现有方法相比,基于区域交互模型的识别方法可以准确有效地识别出在线社会网络中的大影响力用户、僵尸粉用户等各类型用户。关键词;用户影响力评估;区域交互模型:在线社会网络;大影响力用户;僵尸粉中图分类号:TP393 文献标识码:AStudy on user influence analysis via regiona

3、l userinteractiOH model in online social networksWANG Nanl,SUN Qindong 1,ZHOU Ya-don92,WANG Hartqin 1,SUI Lianshen91(1Shaanxi Key Laboratory ofNetwork Computing and Security,Xian University ofTechnology,Xian 710048,China;2MOEKLINNSLab,Xi眦JiaotongUnive辐ity,)【ian710049,China)Abstract:Conventional user

4、 influence researches do not accurately reflect the real interaction pattern between differentuse塔in online social networksIn order to solve this problem,a user influence evaluation method based on regional userinteraction model has been proposed11豫regional user interaction model can illustrate the

5、real online social network USerinteraction pattern between USers with different distance by the influence Wansfer effect11坞method calculates the directinfluence and the indirect influence of each 1Lser in online social networks and identifies the influential usel晤and zombieUSerSExperiments锄-e based

6、Oll the real data of Sina Weibo and RenRen online social networks and the results show thatcompared with the existing methods the method has better accuracy and efficiency for the influential u跚and zombieuser identificationKey words:USer influence evaluation,gional interaction model,online social ne

7、twork,influential USer,zombie user1 引言近年来,Twitter、新浪微博、Facebook等新兴在线社会网络(SNS,online social network ser-vices)吸引了大量网络用户关注。与传统的Email、新闻站点等网络信息交换平台相比,这些新兴在线社会网络具有用户主动参与度高、信息规模巨大、信息传播速度快等特点。海量用户之间通过关注或者添加好友等行为,建立起有向或无向的连接关系,并通过信息转发或者分享等行为形成了新型的网络生态系统。用户影响力评估是在线社会网络的重要研究内容之一,其研究结果可为网络的信息传播规律、用户行为分析等研究提供理

8、论支撑,并且可用于精准化网络营销、收稿日期:201502-03;修回日期:20150730通信作者:孙钦东,sqdxauteducn基金项目:国家自然科学基金资助项目(No61172124,No61571360。No61202392)Foundation Item:The National Natural Science Foundation ofChina(No61172124,No61571360,No61202392)2016020-1万方数据第1期 王楠等:基于区域交互模型的SNS网络用户影响力评估网络舆情管控等提供技术支持【l】。目前,用户影响力相关研究方法大多基于网络拓扑结构、用户

9、行为【2卅等基础特征(诸如粉丝连接数、转发行为)对用户影响力进行评估。已有方法对用户影响力评估有着重要的参考价值,但是仍然存在不足。单一拓扑结构并不能真实反映用户重要性【5J,而基于介数等复杂的拓扑结构方法同样仅考虑到网络中用户之间的连接关系,忽略了用户行为等其他在线社会网络用户特性。基于用户行为的影响力评估方法大多从相邻用户之间的交互行为为出发点,对于一定距离范围内的非直接相邻用户行为交互分析不足。此外,现有影响力分析研究中大多数方法的研究对象只针对网络的大影响力用户,而在线社会网络用户可根据用户影响力被区分为大影响力用户、普通用户、僵尸粉用户等多种类型用户。在线社会网络中,用户之间的交互行

10、为与真实社会类似,用户之间即使并不直接相连,由于信息在不同用户之间的多次转发也能够形成交互关系,如图l所示。用户影响力可由与其不同距离用户之间的交互行为体现,并且对其他用户的影响方式以及影响力大小能够体现出该用户在社会网络中的地位与角色。本文以新浪微博与人人网为研究对象,针对现有研究中所存在的问题,提出了一个在线社会网络用户区域交互模型并对网络用户影响力进行评估。通过用影响力传递的方式描述用户与其他相邻或非相邻用户之间的交互行为,反映用户在在线社会网络中真实的影响力,并以此来对网络中的用户进行类型划分。实验结果表明,区域交互模型可应用于在线社会网络中用户的影响力评估研究,并且能够对网络中不同类

11、型角色的用户进行有效准确地识别。图1在线社会网络用户交互2相关研究目前,在线社会网络用户影响力研究大多针对大影响力用户的识别,现有方法可分为基于拓扑结构与基于用户行为特征等。早期研究大多将简单的拓扑结构属性直接作为评估与识别网络中重要节点的依据,如Leavitt等【6】直接将用户粉丝规模的大小作为判断用户影响力大小的依据。Kitsak等【7J根据计算用户的介数(betweenness)、中心度(centralities)等特征值来对用户影响力进行评估,进而筛选网络中大影响力的用户。Brown等【8】通过K-shell分解的方法识别Twitter中的大影响力用户,该方法通过节点在网络中所处的位置

12、对节点影响力进行评估,认为越靠近中心位置的节点其影响力越大。由于根据介数与中心度评估用户影响力的方法难以应用到大规模复杂的网络中,Chen等【9】在中心度等用户结构特征的基础上结合时间开销因素,对网络中节点进行影响力评估。基于用户行为特征的方法是在线社会网络大影响力用户识别常用的一类方法。此类方法大多基于用户转发、评论等行为,再采取相应的评估手段对用户影响力进行评估。Huang等【loJ将用户行为与PageRank算法相结合对微博社会网络中的用户影响力进行评估,研究结果发现网络中活跃用户的影响力更大,并且此现象与粉丝规模的大小并无严格的相关关系。Tang等【ll】研究了用户转发行为、交互信息内

13、容以及相应时间等属性与用户影响力之间的关系,并在此基础上提出了一个在线社会网络用户影响力评估架构。此外,针对大影响力用户识别还有一些其他类型方法。Uysal等【12】根据用户转发微博的习惯,提出了一种用户微博的排序方法,并以转发微博的可能性作为用户影响力评估的标准。Sun等【13】根据在线社会网络话题传播过程中用户行为的差别,将用户分为不同角色,并利用相应方法对分类过的用户进行影响力分析。对于僵尸粉识别,早期研究主要根据一些指标并通过简单的规则进行僵尸粉的识别【14】,这些方法虽然简单易于实现但是准确率偏低,难以应用到实际的僵尸粉识别工作中。目前,比较有效的僵尸粉识别方法大多通过特征选择,选出

14、与用户身份存在密切关联的特征集,然后通过机器学习的方法对僵尸粉进行识别,如Chu等【l 5】研究分析了多个正常用户、僵尸粉万方数据通信学报 第37卷用户等类型用户的特征,并提出了一个基于熵、用户属性以及文本处理的僵尸粉、正常用户分类系统。Bhat等1叼根据群组特性来对网络中僵尸粉进行研究,通过分析群组交互性、用户连接、用户是否为核心节点等多个属性,对网络用户类型进行划分。3数据集实验过程所使用的数据通过爬虫程序采用广度优先的策略从新浪微博以及人人网获得,并且为保障用户隐私所有数据均进行了匿名化处理。在采集新浪微博数据时,利用新浪提供的API获取相关数据,采集人人网数据则使用基于页面内容解析方式

15、的网络爬虫进行爬取。最终得到的微博数据如表l所示,采集得到的微博用户数据中分为用户信息以及用户的微博信息,其中,用户信息包括用户UID、昵称、微博数、粉丝数、关注数以及注册日期等。微博信息则包括了发布时间、转发量以及转发列表信息等。表1 新浪微博数据集对于人人网,由于其有向图性质以及受限于隐私保护策略,在爬取数据时选取的实验室内部成员为根节点,筛选可以浏览到新鲜事分享的用户对其信息进行存储。最终得到的人人网数据如表2所示。其中,用户信息包括用户UID、好友数、学校信息、用户基本信息等。新鲜事信息包括参与信息分享过程的用户链以及信息、分享数等。表2 人人网数据集4区域用户交互模型磁场、引力场等物

16、理学的场模型理论描述了物理场中节点之间的相互作用关系,以及物体之间的能量传递效应。在线社会网络用户之间的交互行为与场模型中节点问的交互作用相类似,具有相近的特征。作者在前期研究中发现,用户之间的交互行为与影响力相关,用户影响力由于与其相邻和非相邻用户的信息转发行为具有与场模型类似的传递效应【l 7|。本文在考虑用户交互行为与影响力传递关系的基础上,提出了用户区域交互模型,用户区域交互行为模式与影响力传递机制如图2所示。交互行为与影响力传递过程可描述如下。有社会网络G(E功,其中,矿表示社会网络的节点集合,E为边集合,表示节点之间有无连接关系,其值的大小表示节点之间的距离。净H,圪,玛),其中,

17、圪是n的粉丝节点,乃是圪的粉丝节点。如果圪转发了巧的信息,由于信息内容或者用户真实身份等因素,n所发布的信息有一定的概率被乃的粉丝再次转发。转发过程使H的影响力沿着转发链传递下去,同时节点由于信息被转发其影响力得到了增加,此过程与能量反馈相类似。根据参与转发用户之间的距离,本文将影响力划分为2种不同的形式:显性影响力与隐性影响力。显性影响力表示距离为1(庐1)的情况下,用户转发所传递的影响力,即由于粉丝用户转发所产生的影响力。隐性影响力表示距离大于1(D1)的情况下,用户转发所产生的影响力传递效应,即由于非直接相连接用户转发所产生的影响力。影响力传递隐性影响力显性影响力 直接交互 间接交互图2

18、用户区域交互行为与影响力传递图2中由用户交互产生的影响力传递效应可被推广到一般模型。假设有社会网络图G|暇功,V表示节点集合肛n,圪,虼),E表示边集合庐El岛,厶。则可以得到如下定义。定义1 t时刻节点(即用户)之间的连接关系(距离)矩阵为2016020-3t瞳=(嘭)棚=dl dl dld d ddt dt dt万方数据第1期 王楠等:基于区域交互模型的SNS网络用户影响力评估 163。其中,西的取值为边集合E中的值。定义2 t时刻用户巧转发巧信息的转发关系矩阵为C=(弓)。=吐吒t乞tl c2t2c2t”。:乇其中,C:0,表示t时刻用户K转发形信息的行为关系,值为0表示用户K与巧之间没

19、有转发关系,值大于0时表示存在转发关系。在此假设前提为一个用户可以转发同条信息多次。根据转发关系矩阵可得出以下2个结论。结论1 t时刻用户圪转发总量为噶,即为,=1g中第k行的总和。结论2 t时刻用户圪信息被转发总量为,即为q中第七列的总和。i=I定义3所有节点(即用户)在t时刻的发帖数目向量为嘭=(E)k。=(W,呓,E)总的转发数量。用户吸引度为用户吸引粉丝,并使其信息被转发的能力。用户吸引度与粉丝转发其信息占粉丝转发平均比例成正比,粉丝转发其信息的比例越高,表示该用户对其粉丝的吸引越大。此外用户活跃度与其粉丝规模曰(f)成正比,活跃粉丝越多表示该用户的信息具有被更广泛传播的可能性。由于用

20、户影响力分为显性影响力与隐性影响力,所以在模型中t时刻用户圪总的影响力为所有传递效应产生的显性与隐性影响力之和,表达式为=,(圪,t)=厶(圪,f)+(圪,t) (5)其中,厶(圪,t)、(圪,t)分别表示t时刻用户圪总的显性与隐性影响力。由图2可以看出,用户的显性影响力为相邻用户间的影响关系,其物理意义可由某一时刻邻接用户转发引起的用户影响度变化率表示,其表达式如下Jf“嚷(f)=警(酗 (6)“i=1月of其中,=表示用户圪的吸引度在时刻t的变化速(3) 度;酲表示在f时刻用户巧与圪之间的显性关系,定义4 t时刻用户珞活跃粉丝的规模为B(力,其值为参与转发的粉丝数,即召(K,t)=扣鼽畦-

21、器为定义2中转发关系矩阵C中第k列的值。定义5 t时刻用户K若转发了的信息,且他们之间的距离为,则称圪为K的,距父节点,记为嗽;相对应地,称所为的,距孩子节点,记为啭。若与珞距离为,的孩子节点有多个,则嘭=砭,瑶r,略),其中,KWvh。用户的信息越多地被转发表示该用户的吸引度越大,其影响力传递效应越强,基于上述定义,本文建立的用户区域交互模型中在t时刻用户攻的吸引度为,可由以下公式计算=B(圪,f)去生 (4)“扛1勺t其中,以为粉丝K转发圪的信息数量,弓为K其取值为暖气箍为定义2中转发关系矩阵C中第k列的值。由于用户影响度变化率瓯表达式为导数形式,需要将其离散处理,采用向前差分格式,最终的

22、表达式为嚷=警窆i=I(暖)=华喜(剐(7)那么,t时刻用户圪的显性影响力以f)则可由累计的相邻用户影响度变化率表示L(K,f)=嚷 (8)对于时间尺度的间隔缸,本文实验取At=l,t=-0,1,2,T(T是考虑到的最大时间,时间单位为天)。在初始时刻用户之间没有信息传递,其显性影响力为零,因此在初始时刻(即零时刻)规定以vk,o)=o。对于用户的隐性影响力,采取遍历连接图中所有父节点的方式,计算每个父节点与其孩子节点的20160204万方数据通信学报 第37卷传递效应总和衡量该父节点的隐性影响力。所以f时刻用户攻的隐性影响力从O,本文主要考虑圪与其,距孩子节点(,1)的影响关系。假设此时用户

23、圪有m个孩子节点,则从f)表达式为(圪,f)=(厶(略f)p7)=瓠芸嗽)p, 其中,P为转发概率(其值是通过抽样得到的分布概率),为用户间信息转发的路径距离。实际中,由于影响力作用的距离,不可能是无穷远。若已知t时刻用户之间的连接距离矩阵中的最大值dk,则相应地修正隐性影响力从力表达式为(刎=芝(L(嘿r)矿):斯窆L(训(10)=2 L-1 其中,碱,表示t时刻用户圪的,距离孩子节点数。综上所述,t时刻用户攻总的影响力为t=I(Vk,t)=L(圪,f)+(K,t)。;(兰学善(最)+塞慷厶(酬”2L户1 =(“一)(剐)+虮窆厶(咖)H (11)”2卢1 用户任意t时刻影响力可基于上述过程

24、计算得到。由于实验过程中所需要处理的用户数据都是十万级别以上的,此时得到的转发关系矩阵、连接关系(距离)矩阵等是稀疏且相当庞大的,而大数据的存取也制约了模型的求解。为了解决上面的问题,本文采用图论中树形结构的方式来表达用户间的连接关系,使数据的存取和模型的求解得到极大的简化。5用户交互行为实证分析在线社会网络中,相邻用户交互行为可以通过直观的数据进行分析,而不相邻用户之间的交互行为则难以直接被观测到。本节通过分析表明非直接相邻用户之间是否存在交互行为且具有一定规模能够为区域交互行为模型提供支撑。51用户关系的确定研究不同距离用户之间的交互行为,需要确定转发链中各个用户之间的连接关系。由于各SN

25、S站点都设置了隐私保护机制,因此信息传播链中用户之间是否存在关注关系需要进行判断分析。新浪微博的共同关注功能显示了2个用户之间是否关注了同一个用户,本文通过共同关注判断2个用户之间是否存在关注关系。由于请求限制以及转发链中用户数量规模,难以准确判断全部用户的连接关系。本文根据抽样推断的方法,从获取到的转发链中随机选择了一部分用户,并判断他们的关系,基于此结果来估计转发链中各个用户之间的关注关系。具体方法如下。11随机选取条转发链。2)统计距离为d且存在关注关系的用户数目,并计算其占整个转发链的比例乃。31为了减少抽样统计的分布与总体分布的误差,采取多次抽样取平均的方法,即重复步骤1)和步骤2)

26、,完成m次抽样统计得到一系列的距离为d且存在关注关系的用户比例岩(f_l,2,m)。4)最终的总体分布表示为艿=去喜巧02) 埘百例如,分析长度为3的转发链中用户之间的距离关系,从数据集中选取相应长度的转发链,并判断不同位置的用户之间是否存在关注关系。人人网提供了与微博类似的共同好友查看功能。在判断转发链中用户之间的链接关系时,共同好友可作为判断依据之一。由于人人网部分用户设置了非好友的访问权限,因此针对有向图中用户关系采取以下机制进行判别。1)根据有向图节点之间连接关系以及相应的用户转发行为方式,在转发链中相邻的2个用户为互为好友的用户。21对于转发链中非直接相邻的用户,若能访问用户详细信息

27、,则进一步判断2个用户是否拥有共同好友。3)若不能访问用户详细信息,用户通常会填写20160205万方数据第1期 王楠等:基于区域交互模型的SNS网络用户影响力评估 165学校信息以及籍贯等,通过个人信息相似性对用户之间是否存在好友关系进行判断。52测量结果根据转发链中用户距离的分析过程,将基于转发顺序的用户序列,转化成基于距离排列的用户序列,并且对不同距离用户转发进行统计分析。数据集中信息被不同距离用户转发比例如图3和图4所示。从图中可知,当用户之间距离大于1时,用户之间的交互行为是存在并且活跃的。对于无向图网络,虽然用户之间若非直接好友关系并不能直接访问,但是非相邻用户之间同样存在一定规模

28、的交互行为。图3微博转发链中不同距离用户比例上图4人人网分享链中不同距离用户比例由于人人网数据规模及其隐私限制,为了减小判断误差带来的影响,在分析时定义用户的距离最长为4。根据上述结果,在线社会网络用户之间的交互关系存在于不相邻的用户之间并具有一定数量规模,能够对基于不同邻接距离用户交互行为的区域交互行为模型提供理论依据。6实验结果与分析61影响力评估与用户划分结果分析为了验证区域交互模型在用户影响力评估以及基于影响力分析的用户角色划分研究的有效性,本文基于用户显性、隐性影响力对网络中的大影响力用户、普通用户以及僵尸粉用户进行识别研究。图5为基于微博数据得到的部分大影响力用户、普通用户以及僵尸

29、粉用户的显性、隐性影响力分布。大影响力用户的隐性影响力与显性影响力都具有较大的数值规模,此结果表明大影响力用户的微博信息不仅能够被大量的粉丝转发,还能够由传递效应传播到距离较远的用户。普通用户的信息传播能力较弱,因此其2类影响力分布取值区域较小。僵尸粉用户的影响力分布显示出极为不平均的结果,这是由于僵尸粉用户的信息很难被正常用户转发,其影响力分布也与普通用户有明显差别。显性影响力(a)大影响力用户显性影响力(C)僵尸粉用户图5新浪微博大影响力用户、普通用户以及僵尸粉用户显性、隐性影响力分布由于人人网的有向图性质,用户之间的好友关系建立需要用户审核确认,因此本文研究内容不包括人人网中僵尸粉的识别

30、。图6为人人网中大影响力用户与普通用户的显性、隐性影响力分布。由于本文实验所使用的人人网数据中不包括明星账号、万方数据通信学报 第37卷机构账号或者媒体账号等用户,并且人人网用户整体的活跃性与新浪微博相比相对较低,因此用户影响力的计算值相对较小。显性影响力a)大影响力用F图6人人网大影响力用户、普通用户显性、隐性影响力分布从图6所示的各类型用户的显性与隐性影响力分布可以看出,大影响力用户的信息能够被大量的粉丝转发,并且还可被大量非连接用户转发,因此其区域交互性十分明显。普通用户与相邻、非相邻用户之间也存在交互行为但规模相对较小。僵尸粉用户的信息难以被大规模转发。即使目前存在通过僵尸粉团等模拟正

31、常用户的僵尸粉,其不同类型的影响力分布与正常用户相比仍有明显区别。62有效性分析621大影响力用户为了分析区域交互模型在识别大影响力用户时的有效性,本文与基于粉丝数、PageRank1s以及信息级联模型【l 9的大影响力用户识别方法进行对比分析。图7和图8为新浪微博与人人网中影响力排序前50用户的粉丝粘性对比结果。图7微博用户粉丝粘性对比图8人人网用户粉丝粘性对比本文用粉丝用户转发次数2次上的用户数来表示用户粘性,用以反映用户与其粉丝之间的交互频度与依赖关系。根据图7和图8结果,无论有向图网络(新浪微博)或无向图网络(人人网),基于区域交互模型识别得到的大影响力用户要优于其他方法。虽然通过不同

32、方法识别得到的大影响力用户具有重合部分,但是基于区域交互模型识别得到大影响力用户在整体上具有较大粉丝粘性。信息转发是在线社会网络中最具特色的功能,信息的转发规模能够体现用户影响力。若排序序列中越靠前的用户其信息传播具有越大的覆盖人数,相应的影响力评估方法具有更好的效果。因此,本文对影响力排名靠前的用户信息转发规模进行统计分析,进一步验证区域交互模型的有效性,结果如图9和图10所示。根据图中结果可知,采用区域交互模型的方法识别得到用户在信息覆盖人数上要高于其他方法。从上述分析可以看出,基于区域交互模型的用户影响力评估方法识别得到的大影响力用户具有较高的活跃性,并且能够吸引大量其他用户关注与转发其

33、信息,该模型能够有效体现出在线社会网络中用户的真实影响力。图9微博用户信息传播规模对比万方数据第1期 王楠等:基于区域交互模型的SNS网络用户影响力评估 167622僵尸粉用户僵尸粉用户是在线社会网络中对正常用户造成较差用户体验度的一类虚假用户,简称为僵尸粉,部分僵尸粉由机器人程序自动注册生成,以广告为目的发布大量垃圾信息。还有一些用户在注册后并没有任何使用站点服务的行为,也属于僵尸粉。为了验证在识别僵尸粉时模型的有效性,本文采用人工方式从微博中的僵尸粉进行标注,具体判断原则为:1)判断用户发布微博内容中是否明显为广告信息,如果比例超过90则判定其为僵尸粉用户;2)判断用户微博内容的差异性,若

34、用户微博内容中含有大量短链接或者图片等,判断文字内容与短链接内容是否相关;3)若微博内容为纯文字信息,判断信息内容是否具有意义,是否含有生僻、乱码等字符。最终通过人工标注方式得到3 000个僵尸粉样本。目前识别僵尸粉的方法大多是基于用户的特征指标,然后利用机器学习的方法来分类识别。对于基于用户特征的识别方法,单一指标虽然可以被用来识别网络中的僵尸粉用户,但是准确率偏低,实际应用效果较差。表3所示内容为根据单个特征进行僵尸粉识别时的准确率(由于数据集的差异,本文中的结果与文献15】稍有差异)。因此,为了保证识别效果,此类方法必须要有足够多的特征指标。表3 单一指标僵尸粉识别准确率特征 准确率,账

35、号名誉度身份认证微博数URL评论数注册日期发布设备在使用较多用户属性进行僵尸粉识别时,基于机器学习方法,如SVM识别方法能够达到90的正确率,但是如果相关算法使用的特征较少时准确率则相对较低。选取2个属性作为特征向量并使用SVM做2类分类,进行僵尸粉识别,结果如表4所示。从表5中的结果可以看出少量特征并不能保证识别结果能够有很高的准确性,因为特征对于识别方法的权重也是有区别的。表4 基于区域交互模型的僵尸粉识别结果表5 基于少量特征的僵尸粉识别准确率特征 准确率,微博数和评论数身份认证和URL微博数和身份认证75279183基于区域交互模型采取的僵尸粉识别方法为:1)获取用户显性、隐性影响力值

36、;2)显性、隐性影响力值阈值设定;3)根据用户相应影响力值对其身份进行标定。为了设定合理的影响力阈值取值,本文根据人工筛选得到的数据集以300个僵尸粉与300个普通用户一组,将用户分成10组作为训练与测试数据集,并采用循环估计的方法选取平均准确率最高时相应显性、隐性影响力数值作为僵尸粉识别过程的阈值。最终僵尸粉判定条件为选取显性影响力大于100且隐性影响力小于5,隐性影响力大于150且显性影响力小于10以及选取显性、隐性影响力同时小于l为僵尸粉用户,其他则认为是正常用户。僵尸粉识别实验结果如表4所示。根据对识别错误的用户进行分析发现,误判的主要原因在于某些正常用户其活跃性非常低,在实验周期中发

37、微博的行为十分稀疏,虽然在用户影响力上与僵尸粉用户极为相似,但通过人工筛检并不能被归为僵尸粉用户。此外把僵尸粉误认为普通用户的原因为其信息在本文实验数据中截止时间的原因并不完整,因此计算出结果未能满足僵尸粉筛选条件。在分析得到的僵尸粉后,帅叭砌轮配姗万方数据发现存在僵尸粉团的现象存在,部分账号其信息内容与行为跟普通用户相比并无较大差异,该账号微博由其他僵尸粉进行转发但账号之间并不存在关注关系,这些模拟正常用户行为的僵尸粉也被基于区域交互模型的识别方法检测获得。综合上述几部分实验,结果表明区域交互模型能够较为真实地反映用户之间的交互行为,基于行为不同模式的差异可对在线社会网络中不同类型用户进行识

38、别。7结束语本文基于新浪微博与人人网数据发现用户之间的转发、分享等交互行为在一定邻接距离范围内是广泛存在的,并不仅限于相邻用户。根据不同距离的交互行为提出了一个区域交互模型。该模型基于不同邻接距离用户之间的交互行为,对在线社会网络中用户的影响力进行判断分析。用户对相邻节点的显性影响力以及非相邻节点的隐性影响力可应用于在线社会网络用户类型划分,能够从用户行为、用户影响范畴等方面更真实地体现出用户在网络中所处的地位。实验结果表明,不论是对于大影响力用户识别,还是僵尸粉识别,本文的方法在准确度等方面具有一定的有效性。区域交互模型是针对在线社会网络用户之间交互行为的抽象,本文开展包括的用户影响力研究以

39、及相应的用户角色划分研究仅是基于该模型展开的部分基础研究。在下一步研究工作中,将开展在本文工作基础上的算法复杂度优化研究,并对算法有效性进行更为细致的分析研究。参考文献:【1】KANNA A FYACINE AAJITH AModels of influence in onlinesocial networksJInternational Journal of Intelligent Systems,2013,29(2):161-183【2】LIM S H,KINI S W,PARK SUN JDetermimg content power嘲in a blog network:an appro

40、ach and its applicationsJIEEE Transac-tiom oll Systems,Man,and Cybernetics,Part A:Systems and HumansArchive,2011,41(5):853862【3】u X,CHENG S Y,CHEN W LNovel us盯influence measurementbased on user interaction in microblogCThe 2013 IEEEACM In-temational Conference on Advances in Social Networks Analysis

41、 andMiningNiagara FallsCanada,c2013:615-619【4】wu x M,WANG J MMicro-blog in China:identify influentialusers and automatically classify posts on Sina micro-blogJJournal ofAmbient Intelligence and Humanized Computing,2014,5(1):51-63【5】CHA M Y HADDADI E B研咂,T0 FMeasuring us盯influ-ce in Twitter:the milli

42、on follower fallacyCThe Fourth Interna-tional AAAI Conference on Weblogs and Social Media-Washington,DC,USAc2010:10-18【6】LEAVITT ABURCHARD E,FIS衄R D,et a1The Influenfials:New Approaches for Analyzing Influence on TwitterRWeb Ecology Project,2009【7】KITSAK M GALLOS L IL HAVLIN SIdentification of influ

43、antialspreaders in complex networks川Nature Physics,2010,6(11):888893【8】 BROWN P,FENG J LMeasuring user influence on Twitter usingmodified K-shell decompositionCThe 201 l ICWSM Workshoponthe SocialMobileWebBarcelona,Spain,c201l:1823【9】9 CHEN D B,LV L Y,SHANG M SIdentifying influential nodes incomplex

44、 nctworksf1Physica A:Statistical Mechanics and its Appli-cations,2012,391(4):1777-1787【10HUANG Y L,LI LAnalysis ofuser influence in social network basedon behavior and relationshipCThe 2nd International Conference OllMeasurement,Information and Contr01Harbin,China,c2013:682-686【11】TANG X N,YANG C CR

45、anking uscr influence in healthcase socialmediaJACM Transactions on Intelligent Systems and Technology,2012,3(4):565582【12】UYSAL I,CRFOFT W BUser oriented tweet ranking:a filteringapproach to microblogsCThe 20th ACM International Conferenceon Information and knowledge ManagementGlasgow,Scofland,c201

46、l:22612264【13】SUN B M,VINCENT T YIdentifying influential users by their post-ings in social networksCThe23rd ACM Conference on Hypertextand Social Media Workshop on Modeling Social MediaMilwaukee,USA,c2012:1-8【14】STRINGHINI G,ICRUEGEL C,VIGNA GDetecting spammers onsocial networksCThe 26th Annual Com

47、puter Secm-ity ApplicationsConferenceNew York,NYUSA:ACM,c2010:1-9【15】CHU Z,GIANvEccmO S,WANG HNDetecting automation ofTwitter accounts:are you a human,bot,or cyborgJIEEETransactions on Dependable and Secure Computing,2012,9(6):81 1824f16】BHAT S Y,ISLAMIA J M DELHI NCommunity-based feamres foridentif

48、ying spammers in online social networkICThe 2013IEEEACM International Conference on Advances in Social NetworksAnalysis and MiningNiagara Falls,Canada,c2013:100-107【17】SUN Q D,WANG N,ZHOU Y D,et a1Modeling for user Interactionby influence transfer effect in online social networksCThe 391hIEEE Conference on Local Computer NetworksEdmonton,Canada,c2014:486-489【18】LIANG H,LU G,XU N SAnalyzing user influence of microb-logC2012 IEEE fifth International Conference on Advanced20160209万方数据第1期 王塑篁!苎王匡苎奎三堡型竺型!里竺旦生整堕垄堡笪二!生二二二二

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁