《基于PageRank算法的社交网络节点重要性排序.doc》由会员分享,可在线阅读,更多相关《基于PageRank算法的社交网络节点重要性排序.doc(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、论文题目: 基于PageRank的社交网络节点重要性排序 目录目录1摘要2第一章 绪论41.1引言41.2国内外研究现状41.3文章组织结构4第二章 社交网络综述52.1复杂网络概述52.1.1复杂网络基本概念52.1.2小世界效应和无标度性52.2社会网络概述62.2.1社会网络基本理论62.2.2社会网络分析方法62.3微博概述62.3.1微博的发展72.3.2微博网络分析7第三章节点重要性排序83.1数据集获取83.2 马尔科夫过程83.3 PageRank算法9第四章 实验结果与分析124.1数据集分析124.2实验结果分析12第五章 总结与展望145.1论文工作总结145.2未来的研
2、究和工作14致谢14参考文献16第 1 页 共 17 页基于PageRank的社交网络节点重要性排序摘要社交网络(Social network service,SNS)是由许多节点构成的一种社会结构,节点通常是指个人或组织,社会网络中的连边代表节点间存在的社会关系所以它既有网络结构的属性也具有社会网络的特质。目前国内外知名的社交网络平台有Twitter、YouTube、Facebook、新浪微博等。其中新浪微博作为国内最著名的社交网络,截至2019年底,微博月活跃用户达5.16亿,每天有数量庞大的信息发布在该平台,微博在信息传播中发挥的重要作用,当下已经明显超越了传统媒体,所以新浪微博网络具有
3、重要的研究价值。 本文的主要工作包括:首先阐述了复杂网络的小世界效应、无标度特性、“六度分割理论”与“150 定律”,介绍了社会网络的分析方法;其次,本文采用网络爬虫方法,采集了微博用户信息,对数据集进行初步处理导并入数据库;然后,介绍了马尔科夫过程,阐述了PageRank算法的基本思想,并说明马尔科夫过程在计算PR值时的用途;最后,将PageRank算法应用到数据集中,得出用户的PR值,对用户重要性进行排序。这段我修改过请对照修改英文摘要已修改关键词:社交网络,新浪微博,用户重要性,PageRank算法Importance ranking of social network nodes ba
4、sed on PageRankAbstractSocial network service (SNS) is an information sharing platform based on real-life friend relationship. With the rapid development of Internet industry, and benefit from the advantages of social network information dissemination, more and more people choose to use social netwo
5、rk, making it one of the important fields of Internet industry. As the establishment of social network is based on the real friend relationship, it has both the attributes of network structure and the characteristics of social network.At present, famous social network platforms at home and abroad in
6、clude twitter, youtube, Facebook, Sina Weibo, etc. As the most famous social network in China, Sina Weibo has a monthly active user of 516 million by the end of 2019. There are a large number of information published on the platform every day. Weibo plays an important role in information disseminati
7、on. At present, it has obviously surpassed the traditional media, so Sina Weibo network has an important research value.The main work of this paper includes: Firstly, the small world effect, scale-free characteristics, six degree segmentation theory , Rule of 150 and the introduction of the analysis
8、 methods of social network; secondly, collects the information of microblog users with the method of web crawler , and preliminarily sort the data and set it into the database; then, introduces the Markov process, expounds the basic idea of PageRank algorithm, and explains the use of Markov process
9、in calculating the PR value; finally, applies the PageRank algorithm to the data before and obtain users PR value so user importance is sorted.Keywords: social network, Sina Weibo, user importance, PageRank algorithm第一章 绪论1.1引言自上世纪末以来,互联网行业获得迅速发展,社交网络的影响力日益增长,形形色色的社交网络平台被不断推出,目前已经成为相互交流、获取信息的一个重要途径。
10、很显然,每个社交网络里都有一小部分用户掌握了极大的影响力。实际上,在任何网络都是如此,美国俄亥俄州仅仅有几条高压线烧毁却造成了北美大停电事故1,2003年非典疫情时出现了传染了130余人的超级传播者。若将社交网络中每个成员看做一个节点,重要节点一般数量非常少, 但其影响却可以快速地波及到网络中大部分节点,因此网络节点的重要性排序和重要节点发现意义重大,研究节点的重要性也就是研究节点的影响力。1.2国内外研究现状一 影响力方面:在传统传播理论中认为用户的中心亲和性,即某个特定信息传播过程中的活跃节点以及网络中的意见领袖2在信息传播中起主导作用;同时,节点的好友数量也在消息传播中起重要作用。所以考
11、察以上指标,对符合要求的关键节点进行营销就可以引起大规模的信息传播。后来,Watts等人利用阀值模型对比重要节点和普通节点在传播信息中的不同,结果发现重要节点并不是必须的,在同质化网络中普通节点和重要节点的传播效果是相同的;Lazega和Burt对结构洞的研究结构证明,在网络中处于结构洞位置的节点也起到重要作用3。之后以为代表的微博社区迅速发展,针对其用户的影响力研究不断增加,Cha M对用户分别从粉丝数量,转发次数,引用次数三个指数衡量节点影响力,实验结果表明节点影响力与粉丝数量关联性不高4;Jianzhu Weng等创立了算法衡量用户的影响力,结果证明了节点的影响力是他在各个话题的影响力之
12、和5;新浪微博建立了微数据平台分析量化节点及其粉丝的影响力,认为节点影响力是覆盖度,传播力和活跃度三者的综合体现。二算法方面现在已经有不少研究把PageRank算法6应用到社交网络的影响力领域,并且在各个方向对算法做出改良,具有很高的参考价值。如Haveliwala.T.H提出了基于文本的主题敏感算法;Dniel Fogaras等人提出了一种基于用户选择的个性化算法8等。1.3文章组织结构本文一共分为五章。第一章为绪论,包括引言,国内外研究现状,文章组织结构。第二章为社交网络综述,首先介绍了复杂网络9的基本理论,包括基本概念,小世界效应11和无标度特性;然后介绍了社会网络基本理论,主要包括基本
13、概念、结构特点、分析原理等;接下来对新浪微博进行了简单介绍。第三章为重要性排名,首先介绍了怎么获取数据集,本文采取网络爬虫方式获取数据;然后论述了马尔科夫过程12的相关概念,为下一部分奠定理论基础;接下来阐述了算法的基本理论,包括原理、公式、伪代码实现等。第四章为实验结果分析,就数据集和实验结果两反面做出分析。第五章为总结和展望,分别对论文工作做出总结并且对未来工作做出期望。第二章 社交网络综述2.1复杂网络概述2.1.1复杂网络基本概念生活中很多事物都可以用网络来表示,一个网络是由节点和节点之间的边构成的,节点代表事物主体,边代表事物之间的关系。这种网络结构通常表示为,V其中为节点集合,E为
14、边的集合。网络结构中存在三个基本概念:平均路径长度(average path length)、聚类系数(clustering coefficient)、和度分布(degree distribution):(1) 平均路径长度:设有两个节点i和j,定义两节点距离为连接这两点间的最短路径的边数,平均路径长度为网络中任意两点间的距离的平均值。(2) 聚类系数:设有节点i,该节点与邻居节点之间实际存在的边数,和与邻居结点的最大可能边数的比值称之为节点的聚类系数。(3) 度与度分布:度即连接到节点的边数,根据边是否有方向网络可分为有向网络和无向网络。有向网络中度分为出度和入度。设有节点i,则以i为起点连
15、接到其他点的边数为节点i的出度;以其他节点为起点,终点为i的边数,为节点i的入度。节点的度服从的分布即为度分布,通常用函数P(k)表示,该函数指该网络任何一个节点的度为k的概率。网络中的所有节点的度的平均值为该网络的平均度。描述现实中的网络时,有些网络边之间存在某种特定规律,我们称之为规则网络,后来学者发现了一种可以以确定的概率来决定节点之间是否相连的网络,称为随机网络。随着信息时代来临,学者发现一些网络既不属于规则网络也不属于随机网络,有其独特的性质,学者将其命名为复杂网络910。钱学森定义具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络。其中小世界和无标度特性最
16、具代表性。 2.1.2小世界效应和无标度性一 小世界效应 Watts和Strogatz最早提出了WS小世界模型11, 网络模型认为节点会以概率p放弃原先的节点而连接新的节点,构造出一个新的网络结构。当p=0时,相当于节点自此至终不会选择新的节点,还是规则网络;当p=1时,这时网络结构是一个随机网络(如图1)。图1 小世界模型 WS小世界模型具有聚类系数大和的网络距离小的特点,这个现象即小世界效应,具有小世界效应的网络称为小世界网络。二 无标度性Barabsi A L的研究表明复杂网络具有无标度性13。无标度性是指复杂网络的节点度分布服从幂律分布,即。随机网络的度分布服从泊松分布。2.2社会网络
17、概述2.2.1社会网络基本理论社会网络(Social Network),1954年J.A.Barnes最早提出了“社会网络”的概念14。社会网络代表各种社会关系,经由这些社会关系,把从偶然相识的泛泛之交到紧密结合的家庭关系的各种人们或组织串连起来,形成相对稳定的关系体系。社会网络是由许多节点构成的一种社会结构,节点通常是指个人或组织,由于即节点之间关系的复杂性,由此产生的图形结构往往是非常复杂的。社会网络的关注点是成员之间的互动和联系,社会互动影响人们的社会行为。社会网络分析中重要的理论有“六度分割理论”和“150定律”。(1) 六度分割理论由美国心理学家Stanley Milgram证实,该
18、理论认为最多需要通过6 个人,世界上任何两个人之间建立某种联系。六度分隔理论说明了社会网络中存在一种弱强度的连接,就像不相识的两个人也可以通过某种方式相互交流,这种六度分隔理论表现出来的弱连接将在这个信息时代十分明显且重要15。(2) 150定律(Rule of 150)也称为邓巴数字,是由人类学家Robin Dunbar提出,该定律指出:同一个时间段内,一个人可以与许多人保持某种关系,但是保持着稳定人际关系或者强关系的人只有150个左右。该定律也被商家应用到商品中去,例如移动的卡中最多能存储140人的号码。 2.2.2社会网络分析方法社会网络分析家Barry Wellman提出了研究社会网络
19、分析应具有的六个基本原理,一个合格的社会网络分析方法必须满足这六个基本原理16。(1) 任意两个节点之间的连接,可能是对称的也可能是不对称的,因此二者的相互作用也不同。 (2) 为获取稀缺资源或获取共同利益,不同节点间可能会达成合作或者竞争的关系。(3) 节点的不对称性复杂网络的特性,导致了网络中稀缺资源的分配不公平。 (4) 交叉连接把不同群体,不同个体以及群体和个体连接起来,使的彼此间不在孤立。 (5) 节点之间可以直接或者间接关联在一起,因此我们需要一个规模更大的、更加复杂的网络结构为背景进行分析。 (6) 社会网络的连接通常不是随机的网络,现在复杂的社会网络通常是各群体网络间的连接构成
20、。上面的六个基本原理对我们研究社会网络的分析方法意义重大,它揭示了社会网络中节点之间存在的联系,揭示了社会网络的本质是群体和个人间的随机组合连接起来的。2.3微博概述社交网络即社交网络服务(Social Network Service),严格意义上的社交网络含义包括硬件、软件、服务及应用,在日常生活中社交网络通常指在线社交平台,常见的如邮件,MSN,微信,微博等。社交网络具有时效性强,互动性强,用户信息相对真实等优势,因此社交网络平台久盛不衰。本文将微博的用户作为研究对象,下面是对微博的简单介绍。2.3.1微博的发展微博(Micro Blog)又可以被称为微型博客。2006年Twitter创立
21、,开创了微博这一形式。 Twitter把消息内容限制在 140 字符之内,人们可在限定字符内发表自己的最近动态、表达对某个事件的看法等,内容简明;Twitter用户还可以使用手机等移动终端发步消息,使用的移动性强。凭借其优秀特性,Twitter已经成为一个十分热门的社交网络。Twitter成功之后,国内的各大门户网站也竞相模仿,推出了各自的微博服务,如新浪微博、腾讯微博等。其中新浪微博占据了领头羊的地位。新浪微博由新浪公司于2009年创建,凭借优秀运作,一路发展,新浪微博已经吸引了各个领域的名人,媒体,和其他官方平台入驻,截至至2019年底,微博月活跃用户到达5.16亿,日活跃用户增长至2.2
22、2亿17。2.3.2微博网络分析微博是社交网络中的一种,所以可以结合微博的特点,利用图论理论来构造出新浪微博的网络结构,则其基本要素如下:(1) 节点:即微博用户,社交网络上活动的参与者,是研究的基本单位。新浪微博网络结构中每个用户都有自己的用户ID;用户可以是某个人,也可以是某个组织。(2) 边:网络结构中两个节点之间的联系。在新浪微博中代表两个用户之间的某种联系,比如好友关系、转发关系、相互关注关系等。其中在新浪微博中,若一个用户a关注了另一个b用户,则a是b的粉丝;这是一种单向的关系,即使a关注b,b不一定关注a(如图2(1),此时a可以看到发布b的消息,b而看不到a的,信息传递为一种单
23、向传播。当两用户a和b相互关注(如图2(2),二者之间的信息传递才成为双向传递。图2 用户关注关系因此新浪微博形成的凭借粉丝关注关系,构成了一个有向网络,并且一般把用户关注其他用户视为该用户的出度,而其他用户对当前用户的关注视为用户的入度。第三章节点重要性排序3.1数据集获取目前数据获取的方法很多,最常用的的方法有三种:一是在数据库平台下载已有的数据;二是利用网络爬虫来获取目标网页的信息;三是通过运营商提供的API来获取相关权限,用获得的权限来获取相应的数据。本文采取网络爬虫方法获取数据,原因如下:一是网络上有开源的爬虫源代码可供参考;二是对获取用户信息的限制比较大,通常无法获取一个用户的完整
24、粉丝列表。爬虫的基本原理如下:从一个指定的URL出发,下载与解析该URL指向的页面,读取数据以及该页面所包含的URL队列,抽取所需要的URL集,将新URL放入URL队列,再根据广度优先搜索或者深度优先搜索的方式访问下一个URL,最后爬虫根据某种标准停止运行。本文从一个特定微博用户主页出发,选定并获取各项数据,导入数据库,并标记该用户信息已被获取,然后将其粉丝列表里的粉丝作为下一次的访问对象,获取各项信息,如此地一层层获取用户关系,直到数据集满足预期要求。获取的用户信息如下表:字段名信息详细说明nick_name昵称Varchar(64)gender用户性别Varchar(64),统一用“男”或
25、“女”表示area用户所在地Varchar(64)user_id用户idVarchar(64)reference_id上级用户idVarchar(64)verify是否验证int型,验证用户为“1”,未验证用户为“2”tweets发博数int型,默认值为0focus关注数int型,默认值为0fans粉丝数int型,默认值为0表1 用户数据3.2 马尔科夫过程随机过程:随机过程可以看作一个随机变量的集合,记为。为在同一状态空间中取值的随机变量,可为离散型或者连续型;t表示参数集,可分为可数参数集或不可数参数集。随机过程可以表示一个系统的变化过程12。马尔科夫性(无后效性):是指在某一时刻状态已知
26、,该过程在下一时刻状态与之前时刻状态无关,通俗讲,已知现在,过去和未来是无关的。马尔科夫过程:服从马尔科夫性的随机过程为马尔科夫过程,简称马氏过程。根据状态和时间的性质,马氏过程可以分为4类,其中时间离散,状态离散的马氏过程为马尔科夫链12。马尔科夫链:随机过程称为马尔科夫链,若它只取有限或可列个值(若不另外说明,以非负整数集表示),并且对任意,及任意状态i,j,i0,i1,in-1,有 (1)其中,表示过程在时刻处于状态,称为该过程的状态空间,记为S。转移概率:条件概率为马尔科夫链的一步转移概率,简称转移概率,记为,它用来表示处于状态i的过程下一步转移到状态j的概率。由一步转移概率可以计算k
27、步转移概率12。时齐性:当马尔科夫链的转移概率只与状态i,j有关,而与n无关时,称该马尔科夫链为时齐的马尔科夫链;否则为非时齐的。转移概率矩阵:定义矩阵 (2)称为转移概率矩阵,一般简称为转移矩阵。转移概率矩阵有性质: (3) (4)3.3 PageRank算法 PageRank算法是Google用来衡量一个页面重要性的经典方法之一,它最初由Brin S和Page L提出18。 算法的基本思想如下:若网页(节点)j有指向网页(节点)i的链接(边),i的重要性会有所增加,j的PR值将传递向i。因此有算法最简单形式: (5)其中PR(i)表示网页i的PR值,I(i)表示所有包含了网页 i 的链接的
28、网页的集合,n表示I(i)中的网页数,PR(j)表示页面j的 PR 值。但是有一个问题,若页面 j 只包含了到页面 i 的链接,那么页面 i 就会拥有和页面 j 一样的 PR 值,但是当页面 j 还包含了其他的页面链接,上面的计算公式就不那么合理了。所以需要对界面j的PR值进行分配,一般平均分配,因此有公式: (6)其中N(j)为页面j中所有指向其他页面的链接数,c为规范化因子。但是,上述公式在计算PR值时,会出现排名下沉和排名泄露现象。若有一组网页互相之间是彼此链接的,有由组外链接到组内的网页,但都没有对组外网页的链接,则传递进来的PR值就一直滞留在这组网页内部,不能传递出去,这就是等级下沉
29、现象。若有一个网页只存在入链没有出链,则传递进来的PR值一直滞留在该网页无法传递出去,这就是等级泄露现象。改进措施为在算法中引入一个阻尼系数,一般取0.85。因此改进后算法公式如下: (7)用矩阵形式来描述19,假设为某一网络中所有节点,定义的连接矩阵,若从网页j有一个链接到i,则gij=1,否则gij=0。矩阵G有以下特点:(1) 矩阵G是大规模稀疏矩阵;(2) 矩阵G中第i行元素之和为网页i的入度;(3) 矩阵G中第j列元素之和为网页j的出度,即为N(j);(4) G中非零元素的数目除以2表示整个网络中的所有链接数;计算值PR,可假设一个随机网上“冲浪”过程,访问完一个网页后,以一定概率在
30、当前网页随机选择一个超链接进入下一个网页或随机打开一个新网页;这可以看作一个马尔科夫过程,某个网页被访问到的极限概率就是它的PR值。设为选择当前网页上链接的概率,则为不选当前网页的链接而随机打开一个新网页的概率。在网页到的转移概率为: (8) (9)任意两个网页之间的转移概率形成了一个转移矩阵A=(aij)nn,设矩阵D为各网页出度的倒数组成的n阶对角矩阵,若某网页出度为零则设置对应位置元素为1,e为元素全为1的n维向量,则有公式:其中p即为阻尼系数。设为时刻浏览网页i的概率(),向量表示k时刻浏览各网页的概率分布,那么下一时刻浏览到网页的概率为,浏览各网页的概率分布为。当这个过程无限持续下去
31、,达到极限情况,即网页访问概率x(k)收敛到一个极限值,这个极限向量为各网页的值,它满足,且,求PR值即解这个矩阵方程。其伪代码实现如下:PageRank算法1:2:3:4: 5: 6:7: 将PageRank算法应用到社交网络中,社交网络中的节点即用户可视为网页结构的网页,网页结构的入链相当于社交网络的入度,出链相当于社交网络的出度,因此,可以通过应用该算法计算用户的值,来量化每个用户的影响力。 第四章 实验结果与分析4.1数据集分析获取数据时从为1427982855的用户的主页出发,一共获取了约5000个用户的信息,将数据进行预处理并导入数据库,等待进一步分析。将数据导入SPSS,对数据进
32、行初步分析,可以得到以下结果:(1)所有用户中有323位验证用户;(2)发博数(tweets)的平均数为1947,中位数为128,众数为0,最小值为0,最大值为467767;(3)关注数(focus)的平均数为1611,中位数为671,众数为84,最小值为1,最大值为20000;(4)粉丝数(fans)的平均数为5283,中位数为132,众数为1,最小值为0,最大值为8521316。(5)将网络中用户按照入度值大小排序,得前二十名用户如下表:排名ID入度值排名ID入度值126133715673281157665136941252280291447425612505460855911831427
33、982855201135536209363113418337191841881460678949521125545257041218515383364089210462218772604178165343560114103753040819781661763153195131018632169899914718276390455190927594901311381954489639678410265107523213220210461768580表2 数据集中入度排名前20用户4.2实验结果分析按照值进行排名,则前20名的用户如下表:排名IDPR值排名IDPR值114279828550.444
34、5719461150546085590.003550234222187726040.0993424511238336408920.003133178353040819780.0990048341353435601140.003103388455362093630.0978231751463153195130.003028914518337191840.0056206191554489639670.002537383654525704120.0055262851621046176850.002418224763216989990.0044141361760119852150.0023586458
35、28029144740.0038382011856699325310.002299065957665136940.0037240071927594901310.0020905371026133715670.0036991822051055038000.002090537表3 PR值排名前20用户表中20名用户的值排名和入度数排名绘制折线图如下:这个图不太清楚 调整一下标注字体,尤其“数值” 这两个字 和 入度排名 尽量用常用字体 这样不会错误,调整后重新截一下图已换图3由此图可以发现,用户的值和入度数呈某种正相关关系,恰恰符合了算法的基本思想。第五章 总结与展望5.1论文工作总结本文收集了知名
36、社交网站微博上用户的粉丝数据,以微博用户的关注和粉丝关系形成的复杂网络为研究对象,利用算法对用户的重要性进行研究,找出了值排名前十名的用户,并通过数据发现粉丝数目和发博数目跟值存在一定的相关性。5.2未来的研究和工作PageRank算法存在缺陷:算法存在新用户歧视性,在算法的基本思想中网页的PR值是均匀的分配给链出的网页上,旧网页会被链接的次数一般可能高于新网页,但是新网页的信息反而可能更有价值,在社交网络中,例如可以看作某个名人刚刚入驻微博,粉丝即入度可能很低,但是该用户可能有很高关注度; 算法无法识别入链的有效性,体现在社交网络中,例如可以看作算法无法识别无价值的“僵尸粉”;算法无法判断主
37、题相关性,容易导致主题漂移现象等等。针对算法存在的缺陷,研究者们已经针对不同研究方向给出了各自的改进方案,在未来的研究中,将学习和实践这些改进后的算法,并期望能有自己的改进思路。由于设备和技术的局限性,收集到的数据量较小,未来将收集更多数据支撑进一步研究。致谢时光荏苒,大学四年时光匆匆而逝,学习生涯来到了最后一个阶段,即完成这篇论文。论文完成不易,我十分感谢来自各方的帮助。首先感谢我的指导老师赵老师,在论文完成的过程中一直耐心指导我,解答我的问题,督促我完成的进度。其次要感谢学校四年的教导,大学四年的学习为我的论文工作的完成打下了基础,让我能够避免无所适从的情况。然后要感谢我的姐姐,一直耐心的
38、用她的专业知识为我解答模型代码方面的疑惑。最后感谢我的同学和家人,在我产生畏难情绪时鼓励我鞭策我。第 16 页 共 17 页参考文献1 张傲翔. 北美大停电,信息时代安全面临新挑战J. 信息网络安全, 2003(09):28-29.2 Lyons B , Henderson K . Opinion leadership in a computer-mediated environmentJ. Journal of Consumer Behaviour, 2005, 4(5):319-329.3 Lazega E , Burt R S . Structural Holes: The Social
39、 Structure of CompetitionJ. Revue Franaise de Sociologie, 1995, 36(4):779.4 Cha M . Measuring User Influence in Twitter: The Million Follower FallacyC/ Fourth International Conference on Weblogs & Social Media. DBLP, 2010.5 Jianshu Weng, Ee-Peng Lim, Jing Jiang,等. TwitterRank:finding topic-sensitive
40、 influential twitterersJ. 2010.6 Amy N. Langville, Carl D. Meyer. Googles PageRank and BeyondM. Princeton University Press, 2006.7 Haveliwala T H . Topic-sensitive PageRank: a context-sensitive ranking algorithm for Web searchJ. IEEE Transactions on Knowledge and Data Engineering, 2003, 15(4):p.784-
41、796.8 Dniel Fogaras, Balzs Rcz. Towards Scaling Fully Personalized PageRankC/ Algorithms & Models for the Web-graph: Third International Workshop. 2004.9 Albert R , Barabasi A L . Statistical mechanics of complex networksJ. reviews of modern physics, 2001, 26(1):xii.10 汪小帆, 李翔, 陈关荣. 复杂网络理论及其应用M. 清华大
42、学出版社, 200611 Watts D J , Strogatz S H . Collective dynamics of small-world networksJ. Nature, 1998.12 张波, 张景肖. 应用随机过程M. 清华大学出版社, 2004.13 Barabsi A L. The origin of bursts and heavy tails in human dynamicsJ. 14 Nature,2005,435:207-211.15 Guare J, Sandrich J, Loewenberg S A. Six degrees of separationM
43、. LA Theatre Works, 2000.16 Wellman B . Computer Networks As Social NetworksJ. Science, 2001, 293(5537):p.2031-2036.17 18 Brin S , Page L . The anatomy of a large-scale hypertextual Web search engineJ. Computer Networks & Isdn Systems, 1998, 30.19 黄德才, 戚华春. PageRank算法研究%PageRank Algorithm ResearchJ. 计算机工程, 2006, 032(004):145-146,162.