《基于完全子图的社交网络用户特征识别方法-胡开先.pdf》由会员分享,可在线阅读,更多相关《基于完全子图的社交网络用户特征识别方法-胡开先.pdf(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第29卷第8期2016年8月模式识别与人工智能PRAIV0129 No8Aug 2016社交网基于完全子图的络用户特征识别方法水胡开先1,2 梁 英1 苏立新12 许洪波1(中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190)2(中国科学院大学北京100049)摘要社交网络已经成为人们获取信息、交友的主要媒体,但其自身虚拟性、匿名性等特点在给人们带来便利的同时也使用户身份不易确认为此,文中提出基于完全子图的社交网络用户身份特征识别方法,根据三度影响力原则,构建推测模型,通过分析社交网络拓扑结构图中构成完全子图的用户属性,推测未知用户的未知身份特征提出多度包含完全子图身份特征识
2、别方法和多度传递的完全子图身份特征识别方法,利用未知用户的三度互粉社交网络拓扑结构图的邻接矩阵搜索完全子图,通过多数投票器方法进行身份推测,有效改善因社交关系稀疏而导致的用户身份特征识别结果不稳定的问题实验表明文中方法具有较高的准确率关键字用户特征识别,三度影响力原则,社交关系,社交网络,完全子图中图法分类号 TP 393 DOI 101645ljcnkiissnl003与059201608004引用格式胡开先,梁英,苏立新,许洪波,傅川基于完全子图的社交网络用户特征识别方法模式识别与人工智能,2016,29(8):698708Method for Social Network User Fe
3、ature Recogllition Based on CliqueHu Kaixianl”,uANG Ying,SU Lixinl,XU Hon曲01,FU Chuanl1(研如6D阮细形酽耽6 D口把&洳。凡d忍陀DZ蝴r,凰觑把矿cD印甜抛7碱n。切,CRinese Acode,v Q厂Scienc,Be玎irzg 100190)2(踟泌瑙如旷蕊i凡ese Acnde,v Q厂&搪nc酣,Be拆增100049)ABSTRACTSocial network is a major media for people to get dif玷rent info珊ation and make fhe
4、nds As thesocial network keeps developing,it bdngs convenience to people but meanwhile identifying user identitybecomes di硒cult7ro solve this problem,a method for social network user feature recognition based onclique is proposed According to three degrees of innuence mle, the inf色rence model is bui
5、lt, and国家重点基础研究发展规划(973计划)(No2014cB340406,2013cB329602,2012cB316303)、国家高技术研究发展计划(863计划)项目(No2015AA015803)、国家自然科学基金重点项目(No61232010)、国家自然科学基金面上项目(No,61173064)、国家科技支撑计划项目(No2015BAIf y I&1 x f2 then遍历完所有用户且当前解中节点数量大于2时ifx then 如果当前解包含推测用户知;加;铂屹如如嘶地;站瓤万方数据模式识别与人工智能 第29卷Js酣insert X将当前解加入多度包含完全子图的集合else 如果
6、当前解不包含推测用户Sinsert X将当前解加入多度传递完全子图的集合end ifreturnend if返回nag=fr“e是否能保持当前解为完全子图的标记for_=1 to i一1if巧E X&o口=0 then如果,在解中且当前节点口i和秒i没有互粉关系nag=知zse; 不满足完全子图条件break:end ifend fbrifnag then兄i凡sen将当前用户节点加入到当前解cZigueSe口rc危(A,i十1,秽。)递归第i+1个用户节点end ifx如胁e口i不将当前用户节点加入到当前解c蜘ue5eorc(A,i+l,。)递归第i+1个用户节点算法中:5。为多度包含完全子
7、图G。的集合,即G。s。;Js。为多度传递完全子图G。的集合,即G。s。;x为当前完全子图解;i和,的取值范围为1,I y|算法初始值i=1,x=勿算法设初始解为一个空集,首先加入一个用户节点,然后依次考虑每个用户节点,判断该用户节点加入解集后是否仍然与解集中其他用户节点构成一个完全子图,判断依据是邻接矩阵A中对应元素nii表示的2个用户节点之间是否有互粉关系如果是,递归考虑将该用户节点加入解集或舍弃;否则,直接舍弃,然后递归判断下一用户节点注意到搜索社交网络拓扑结构图的所有完全子图是NP问题算法1是确定性算法,在当前用户的二度互粉中搜索完全子图的计算开销可接受当搜索完所有用户节点后,算法停止
8、为了保证能准确搜索到所有完全子图,本文采取上述确定性算法搜索完全子图以图l为例,算法结束后s。=口。,t)l,妒2,秒3,秽4为所有多度包含完全子图,s。=秽5,秽6,秽7,秽8为所有多度传递完全子图22 多度包含完全子图身份特征识别方法社交网络拓扑结构图的完全子图中的用户之间具有较强影响力和同质性,他们通常具有相似的兴趣爱好、职业、年龄在此基础上,如果当前用户秽,的身份特征属性未知,可以通过完全子图中其他用户对应的身份特征属性值推测的未知身份特征属性为了尽可能提高推i910的准确性,当秽,有充足的互粉数时,本文利用多度包含完全子图G。=(K。Ed舻。)推测未知身份特征詹|生,具体方法如算法2
9、所示算法2 多度包含完全子图身份特征识别方法G=geFr沈nds(秽。);生成的二度互粉的社交网络拓扑结构图GA=creoeM口ri戈(G);生成的邻接矩阵A=口i。c蜘eSerc(A,1,口。);在4中搜索所有多度包含完全子图for V秽iK;。获得所有G。包含的用户的身份特征属性集合歹,=gez4ri6n把(口i);for V iJ,=C(q);通过分类器c2分类,中身份特征属性嘲“如=co“n(I);通过多数投票计数器心计算G。中用户同质的身份特征属性图4为一个用户社交网络拓扑结构图中部分用户组成的包含被推测用户a,的完全子图的示意图从图中可看到,该完全子图中有包括被推测用户秽,的5个用
10、户节点,每2个用户节点之间都有1条表示互粉关系的边相连图4 多度包含完全子图示意图Fjg4 Sketch map of current user included clique图4中包含被推测用户吼的完全子图对应的邻万方数据第8期 胡开先等:基于完全子图的社交网络用户特征识别方法接矩阵如下: q 吻 Au 0 1 11 0 1l l 0l l 11 1 l 啦 铷l 1l 1l 1O l1 O从图5可看到,当前用户所属的完全子图一共有5个用户,每2个用户间互为互粉关系此时”的职业和兴趣未知,用户口。、秽:、口,、钉。的职业和兴趣已知,根据前文所述“完全子图中的用户有强关联关系,共享相似的用户身
11、份特征”,可以通过用户、移:、钟,、的身份特征属性推测的身份特征属性根据图5可知,用户秽。、秽:、口。、职业的交集为CEO,兴趣的交集为互联网,因此,推测的职业为CEO,兴趣为互联网职业:创始人叵围兴趣:匡圃创业 兴趣:匡囫创业圆兴趣:圈图5 多度包含完全子图子方法示例Fig5 Example of method of current user included clique注意到图5的示例是理想情况,在现实情况中,很可能无法找到完全子图中所有其他用户共有的某个相同的身份特征,本文通过对各身份特征属性值进行计数计算推测结果23 多度传递完全子图身份特征识别方法如果当前用户无充足的互粉数,无法在
12、社交网络拓扑结构图中搜索到足够的多度包含完全子图瓯。,考虑通过多度传递完全子图戗。推测当前用户啡未知身份特征属性多度传递完全子图中存在至少一个用户节点和当前用户是互粉关系,且2个节点之间的最短路径小于等于2满足上述规则后就可根据社交网络用户间的社交影响力和同质性,通过氏。中其他用户的身份特征属性推测口。的未知身份特征属性,具体方法见算法3算法3 多度传递完全子图方法G=getnien出(秽。);生成的二度互粉的社交网络拓扑结构图GA=cre口e朋rotr如(G);生成G的邻接矩阵A=口。cZigneiSeo,c危(A,1,秽。);用完全子图搜素算法在A中搜索所有G。for Vk。获得所有G。包
13、含的用户的身份特征属性集合,=ge识打沾u抛(秽f);for V i E,歹=C(秽);通过分类器C2l 3分类,中身份特征属性您sM如=cou眦(正);通过多数投票计数器心计算G。中用户同质的身份特征属性i图6是在一个社交网络拓扑结构图中,部分用户组成的多度传递完全子图的示意图从图中可看到,该完全子图包含4个用户节点,每2个用户节点之间都有1条代表互粉关系的边相连图6 多度传递完全子图示意图Fig6 Sketch m印of multi-degree passing clique图6中的多度互粉形成的多度传递完全子图对应的邻接矩阵如下:从图7中可看到未包含用户的完全子图,但是有包含用户秽。的完
14、全子图,且用户影秽。间的中继节点的个数小于2,因此,可通过用户秽,所在的完全子图中用户的身份特征属性推测用户的未知身份特征属性用户影。、秽:、移,、秽。的职业交集为CEO,兴趣mnm。;k;,“;“;,;q屹如;mm聘AA一;00如O11O也O1O11铂1Oll1一OOOO一;。“;地也啦;万方数据模式识别与人工智能 第29卷交集为互联网,因此该完全子图共有的相同职业是cEO,相同兴趣是互联网,通过相似属性传递的理论,可推测得到用户秽。的职业为cEO,兴趣为互联网如同23节提到,实际情况可能不如图7中理想,需要对完全子图共有身份特征属J陛值进行投票计数处理职业:创始人圆兴趣:匡坷创业创业图7
15、多度传递完全子图方法示例Fig7 Example of method of multi-degree passing clique3 实验及结果分析为了评价用户身份识别方法的推断准确性,使用新浪微博开放API及浏览器模拟登陆抓取网页内容的方式收集新浪微博的用户数据,包括用户信息和用户的社交关系实验收集的新浪微博数据超过12亿用户,在实验中,将从此数据集中随机选择信息已知的微博认证用户作为样本数据,样本数为1 000注意到,本文的实验数据并不是新浪微博的全量数据,本文方法能够通过多度传递完全子图解决在被推测用户社交关系稀疏时推测其未知身份特征,实验数据满足实验需求本文以样本用户的互粉列表为基础,
16、从新浪微博获得其互粉好友用户信息和社交关系首先,本文随机获取1 000位样本用户,然后以上述用户作为种子用户获得他们的互粉用户,再以上述互粉用户作为种子用户,获取第二层互粉用户作为实验的数据集合31 数据分析本文从1 000位随机样本用户选取14位用户,获得其二度互粉用户共5 512位,对这5 512位用户做出聚类分析,使上述5 512位用户聚类为14个团,与初始的14个新浪微博认证用户的数量吻合,这说明二度互粉之间能够传递相似的用户身份特征属性基于完全子图的身份特征识别方法使用的实验数据为信息已知的1 000位新浪微博认证用户其中无法获得任何完全子图的用户29位,无法获得多度包含完全子图的用
17、户157位,无法获得多度传递完全子图的用户61位注意到将基于完全子图的方法引用到上述实验数据集时,部分用户的社交关系中没有可以挖掘的完全子图用于推测其身份特征属性,本文将上述用户作为无效样本且不处理,在计算各方面实验评价指标时,不考虑上述用户,具体如表1所示表1 基于完全子图的身份特征识别方法适用性统计表Table 1 Statistics of feasibility of method for user identityfe砒ure recognition based on clique完全子图推测 覆盖率所有完全子图最大多度包含所有多度包含最大多度传递所有多度传递971(9711000)
18、843(8431000)843(8431000)939(9391000)939(9391000)从表1可看到,无任何类型完全子图的用户有29位,因此,可根据该人数计算其它数据的用户数例如,无法获得多度包含完全子图但能获得多度传递完全子图的用户数为15729=128位,其它以此类推32 评价指标本文使用3个评价指标评价基于完全子图的身份特征识别方法的效果,分别是准确率P、pn和Apn: 肚赫州00,pn:堡100, nApn=去耋p;n00其中,推测结果指完全子图中其他用户的身份特征属性投票后降序排列结果,n为第1到n项候选推测结果,m为样本用户的数目,冲(Tme Positive)为适用本文方
19、法且推测准确的用户数,即(FalsePositive)为适用本文方法且推测错误的用户数,卯。(True Positiven)为推测结果前n项中适用本文方法且推测准确的用户数本文方法的实验主要分为2部分:多度包含完全子图实验,包含完全子图时多度传递完全子图实验后者可在当前用户社交关系不够健壮,无法获得多度包含完全子图时,通过当前用户的传递互粉所在的完全子图推测当前用户的身份特征属性33 多度包含完全子图实验在多度包含完全子图实验中主要考虑2种推测万方数据第8期 胡开先等:基于完全子图的社交网络用户特征识别方法方法:使用最大多度包含完全子图推测,使用所有多度包含完全子图推测前者只考虑一个完全子图的
20、推测结果,后者考虑所有多度包含完全子图叠加的推测结果在实验中,本文分别考虑top5到t叩30之间适度等间距项推测结果的准确率和pn实验表明,在n的各个取值下所有多度包含完全子图推测命中率都优于最大多度包含完全子图推测命中率由图8可看到,随着考虑推测结果项数的增加,命中率区间40100、0所占百分比的趋势下降;命中率区间O一20所占百分比大幅上涨(a)中命中率区间2040在p15由上涨变为下降,而(b)中命中率区间20一40从p5到p30保持上涨趋势,这说明所有多度包含完全子图推测结果的命中率高于最大多度包含完全子图的推测命中率,准确率更高,推测更有效冰60睾50暑40舞3020量一10霄O枣枣
21、妒爹擎妒妒妒擎妒擎(a)最大多度包含完全子图(a)Max current user included clique亭枣爹擎擎妒妒妒擎妒妒j(b)所有多度包含完全子图(b)AJl cu玎ent user included cliqIIe综上所述,在使用多度包含完全子图推测用户身份特征属性时,本文推荐考虑所有多度包含完全子图的推测结果34 多度传递完全子图实验当用户无健壮的社交关系,无法挖掘多度包含完全子图时,需要通过该用户的多度传递互粉所在的完全子图推测当前用户的身份特征属性在多度传递完全子图实验中主要考虑2种推测方法:使用最大多度传递完全子图推测,使用所有多度传递完全子图推测前者只考虑一个完全
22、子图的推测结果,后者考虑所有多度传递完全子图叠加的推测结果实验结果见图9,结果表明,在n的各个取值下所有多度传递完全子图推测命中率都优于最大多度传递完全子图推测命中率守枣爹爹擎擎妒妒擎妒妒(a)最大多度传递完全子图(a)Max multidegree passing clique$窜爹爹擎妒爹妒擎妒妒(b)所有多度传递完全子图(b)A1l multi-degree passing clique图9 多度传递完全子图命中率分布趋势图图8 多度包含完全子图命中率分布趋势图 Fig9 Trend8 of hit dist曲ution of multidegree passingFig8 Trends
23、 of hit distribution of cuH|ent user included clique clique阳蛳m0承:寻求呈凶褂导嬗叵专万方数据模式识别与人工智能 第29卷从图9可看到,随着考虑推测结果项数增加,命中率区间40一100、0所占百分比的趋势下降;命中率区间020所占百分比大幅上涨(a)中命中率区间2040随着n的增大大幅下降,而(b)中命中率区间20一40在p20之前波动幅度较小,这说明所有多度传递完全子图推测结果的命中率高于最大多度传递完全子图的推测命中率,准确率更高,推测更有效综上所述,当用户社交关系健壮时,多度传递完全子图的推测准确率和命中率都明显低于多度包含完
24、全子图,应该优先使用所有多度传递完全子图推测当前用户身份特征属性当用户社交关系不够健壮,无法得到包含的完全子图时,可通过其多度传递互粉所在的完全子图推测用户身份特征在推测时,本文推荐使用所有多度传递完全子图推测用户身份特征属性35 对比实验在基于完全子图方法的实验中,本文测试所有完全子图、最大多度包含完全子图、所有多度包含完全子图、最大多度传递完全子图和所有多度传递完全子图5种推测方法,推测结果的准确率和却n如图10所示从图10(a)可看到,除了最大多度包含完全子图和最大多度传递完全子图以外,推测准确率随着n的增加而增长所有多度包含完全子图的推测准确率最高,因此在推测时,应优先使用该类型完全子
25、图推测用户身份特征属性,如果无法获得多度包含完全子图,可以使用所有多度传递完全子图的推测结果枣枣妒妒擎爹妒妒擎擎妒(a)准确率(a)Accuracy(1)却,z图10 不同完全子图推测方法的趋势Fig10 Trends of different kinds of cliques在实际应用中,还需要考虑却,z,两者结合才能使推测更为高效从图10(b)中可看到,Apn随着n的增加而减少多度包含完全子图的却n在p20时达到极大值,超过p8,接近p5的命中率综合考虑推测方法的准确率和和凡,应首先选取所有多度包含完全子图推测用户身份特征属性,取推测结果的前20项当无法获得多度包含完全子图时,可以使用所有
26、多度传递完全子图推测用户身份特征属性,取推测结果的前10项图11为本文方法与TextRank方法”J、直接博文推测方法等用户兴趣推测方法准确率的横向对比直接博文推测方法直接对博文分词取出现次数最多的词作为推测结果,并用来作为对比实验的基准TextRank方法通过改进的PageRank方法提取用户博文中的关键词,推测用户兴趣+本文方法准确率+TextRank方法准确率+直接博文推测方法准确率+覆盖率图ll 3种方法推测准确率对比F喑1l Inference aceuracy comparison of 3 methods图图图图fr严f全全全全占兀冉兀占兀占兀图含含递递子包包传传全度度度度完多多
27、多多有大有大有所最所最所+一图图图图子子子子全全全全由兀由兀冉兀出兀图含含递递子包包传传全度度度度完多多多多有大有大有所最所最所一I磊衢加弱帖(;6“太互L盆踟加(j6踌罨掣万方数据第8期 胡开先等:基于完全子图的社交网络用户特征识别方法 707在对比实验中,2种方法都利用用户博文,这与本文利用用户信息和用户社交关系形成对比从图11可看到,在取推测结果前20项时,本文方法的用户兴趣准确率超过95,明显超过其它推测方法,推测准确率不受最低有效互粉数影响,始终保持在95以上,说明本文方法在实际中可有效运用,且具有较高的推测准确率36 案例运行结果最后,本文通过2个案例验证推测结果的有效性,案例用户
28、分别是新浪微博博主“染香”和新浪微博认证用户“姚晨”,结果如表2所示表2 微博用户“染香”、“姚晨”的兴趣推测结果T丑ble 2 Inference resulfs of microblog users named“ranxia力g”and“yaochen”用户昵称 兴趣推测结果染香姚晨1互联网2媒体3读书4电子商务5创业6传媒7 80后8移动互联网9新媒体10微博营销1电影2美食3音乐4读书5旅游6媒体7演员8摄影9互联网10传媒从表2观察到,“染香”兴趣推测结果中,“互联网”、“媒体”、“读书”、“传媒”、“移动互联网”、“新媒体”和“微博营销”符合其自媒体人的职业特征“姚晨”兴趣推测结果
29、中“电影”、“媒体”和“演员”等推测结果符合其演员身份上述案例的实验结果显示本文方法计算的2位新浪微博博主的兴趣爱好与其实际的职业身份基本相符,说明本文方法具有较好的实际应用价值4 结束语本文根据三度影响力原则,定义多度包含完全子图和多度传递完全子图,提出基于完全子图的身份特征识别方法,通过社交网络完全子图中已知用户的身份特征属性推测未知用户的身份特征属性实验表明,本文方法具有较高的准确性,并具有良好的实际应用价值下一步将通过深入分析社交网络用户博文内容语义,标签化社交网络用户关系,并将其应用于推测用户身份特征方法,通过为更多的用户属性建模,从更全面的角度识别用户身份,提高推测的准确率和覆盖率
30、参考文献1GONzALEz M c,HIDALc0 c A,BARABAsI A Lunderstandi“g Individual Human Mobility Pattems Nature, 2008,453(7196):7797822DAVIs JR c A,PAPPA G L,DE 0LIVEIRA D R R,村ozInferring the Location of Twitter Messages Based on User RelationshipsTransactions in GIS,20ll,15(6):7357513BAcKsTROM L,suN E,MARL0w cFi
31、nd Me if You can:Improving Geographical Prediction wifh Social and spatial ProximicyProc of the 19th IntemationaI Conference on World Wide WebNewYork。USA:ACM,2010:61704xu w H,zHOu x,LI L Inferri“g Privacy Infonnation via socialRelationsPmc ofthe 24th Intemational Conference on Data Engineedng Worksh
32、叩New York,USA:IEEE,2008:5255305wu w,zHANG B,0sTENDORF MAutomatic ceneration of Pe卜sonaIized Annotation 7rags for个wit把r UsersProe of the AnnuaIConference of the Nonh American Chapter of the Association forComputational LinguisticsStroudsbu唱,USA:Association for Computational Li“guistics,2010:6896926TA
33、N B,L0 Y H,zHAI c xMining Long-Lasting Exploratory userInlereslS from Search Historypmc of the 2l st ACM IntemationalConference on Information and Knowledge Management New York,USA:ACM,2012:1477一14817BAO J,zHENG Y,MOKBEL M FLocationBased and PreferenceAware Recommendation Using Sparse GeoSocial Netw
34、orking DataProc of the 20th Intemational Conference on Advances in Geo_graphic InfonTlation SystemsNew York,USA:ACM,2012:1992088IJU B,xIONG H PointofInterest Recommendation in LocationBased Social Networks with Topic and kcation AwarenessProcof the SIAM IntemaIional Conference on Data Mining Philade
35、lphia,uSA:SIAM,2013,13:3964049wEI L Y,YEH M Y,LIN G,以nzDiscovering P0int-of_InterestSignalures Based on Group Features from GeoSocial Networking DataProc of the Conference on Techn0109ies and Applications of Ar-tificial IntelligenceNew York,USA:IEEE,2013:18218710cRANDALL D J,BAcKsTROM L,cOsLEY D,enf
36、InferringSocial Ties from Geo矿aphic CoincidencesProceedings of the Na-tional Academy of Sciences of the United States of America,2010,107(52):2243622441,11王玛,高琳基于社交圈的在线社交网络朋友推荐算法计算机学报,2014,37(4):801808(wANG Y,GA0 L Social Circle-Based Algorithm for FriendRecommendatjon in 0nline Social Networks Chin
37、ese Joumal ofComputers,2014,37(4):8叭一808)12Y0sHIDA TToward Findi“g Hidden communi【ies Based on userProfilesJoumal of Intelligent Inforrnation Systems,2013,40(2):18920913cHEN J,sAAD YDense subgraph Extraction with Application toCommunity DetectionIEEE Thns on Knowledge and Data En百n-万方数据708 模式识别与人工智能
38、 第29卷eering,2010,24(7):1216123014YIN z J,GuPTA M,wENINGER T,以zuNKREc:A unifiedFmmework for Link Recommendation with User Attributes andGmph StructureProc of the 19th Intemational Conference onWodd Wide WebNew York,USA:ACM,2010:1211一121215NARAYANAN A,sHMATIKOV VDe-anonymizing social NetworksPmc of th
39、e 30th IEEE Symposium on Security and PrivacyWashin殍on,USA:IEEE,2009:17318716NARAYANAN A,PAsKOV H,GONG N z Q,eofOn the Feasibility of IntemetScale Author IdentincationProc of the IEEESymposium on Security and Privacy Washington,USA:IEEE,2012:300一31417cHRIsTAKIs N A,FOwLER J Hconnected:The surprisi“g
40、Power of Our Social Networks and How They Shape 0ur LivesHow Your FriendsFriendsFriends Affect Everything You FeeI,Think,and DoNew York,USA:Back Bay Books,201118LAzARsFELD P F,MERTON R K Fnendship as a socialProces8:A Substantive and Methodological AnalysisDahl R A,Be曙er M,Abel T,以nZ,edsFreedom and
41、Contml in ModemSocietYBuckhannon,USA:Van Nostrand,1954:186619McPHERs0N M,sMITH-LOVIN L,c00K J M Birds of aFeathe。:Homophily in Social NetworksAnnual Review of Socio-log),200l,27(1):4154“20sHAuzI C R,THOMAs A CHo埘ophny and Confa西on are cenerically Confounded in Observational Social Network Stu diesSo
42、-ciological Methods and Research,2011,40(2):21123921胡开先社交网络用户身份特征识别的虚实映射方法研究硕士学位论文北京:中国科学院大学,2015(HU K xStudy of M8ppi“g Method for Social Network user Identity Feature RecognitionMaser DissertationBe玎ing,china:university of Chinese Academy of sciences,2015)作者简介胡开先,男,1989年生,硕士,主要研究方向为网络数据科学、大数据Email
43、:kaixianhugrnailcom(HU Kai】【ian,bom in 1989,masterHis research interests in-clude network data science and big data)梁英(通讯作者),女,1962年生,硕士,高级工程师,主要研究方向为大数据挖掘、大数据处理、中间件、服务计算等E-mail:liangyictaccn(LIANG Ying(Corresponding author),bom in 1962,master,senior engineer Her research interests include big data
44、mining,b培data processing,middleware and service computing)苏立新,男,1992年生,硕士研究生,主要研究方向为数据科学、大数据Email:suli】(inictgmailcom(SU Lixin,bom in 1992,master student His research interests include data science and big data)许洪波,男,1975年生,博士,副研究员,主要研究方向为互联网搜索和大数据挖掘、文本分类、信息过滤等E-mail:hbxuictaccn(XU Hongbo,bom in 197
45、5,PhD,associate pmfessorHisresearch interests include web search, big data mining, textcIassification and infonllation filtering)傅川,男,1973年生,硕士,高级工程师,主要研究方向为大数据处理、中间件、服务计算、网络体系结构E-mail:chuanfuictaccn(FU Chuan,bom in 1973,master,senior engineer His research interests include big data processing, middleware, ser-vice computing and network architecture)万方数据