基于微博文本的层次化实体链接方法-李禹恒.pdf

上传人:1890****070 文档编号:104087 上传时间:2018-05-12 格式:PDF 页数:7 大小:437.48KB
返回 下载 相关 举报
基于微博文本的层次化实体链接方法-李禹恒.pdf_第1页
第1页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于微博文本的层次化实体链接方法-李禹恒.pdf》由会员分享,可在线阅读,更多相关《基于微博文本的层次化实体链接方法-李禹恒.pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第46卷第3期 吉林大学学报(工学版) V0146 No32016年5月 Journal of Jilin University(Engineering and Technology Edition) May 2016基于微博文本的层次化实体链接方法李禹恒12,宋 俊12一,黄 宇123,付 琨12,吴一戎2,陈 昊12“(1中国科学院空间信息处理与应用系统技术重点实验室,北京100190;2中国科学院电子学研究所,北京100190;3中国科学院大学,北京100049;4北京空间信息中继传输技术研究中心,北京100094)摘 要:首先基于用户偏好一致性假设,根据信提及,利用消歧算法消歧,并将返

2、回的确认实体果正向传递给下一层更模糊的消歧任务。在人有良好的性能。息函数对所有提及进行排序,得到歧义最小的纳入消歧函数。通过这种迭代策略让正确的结工标注测试集上的实验结果表明,本文方法具关键词:计算机应用;实体链接;文本消岐;数据挖掘中图分类号:TP391 文献标志码:A 文章编号:16715497(2016)03090407DOI:10。13229jcnkijdxbgxb201603034Hierarchical entity linking based on microblogsLI Yuhen91,2”,SONG Junl2,HUANG Yul2“,FU Kunl”,WU Yiron92

3、,CHEN Ha012,4(1Key Laboratory of Technology in Geo-spatial Inrformation Processing and Application System,Institute ofElectronics,Chinese Academy of Sciences,Beijing 100190,China;2Institute of Electronics,Chinese Academy ofSciences,Beijing 100190,China;3University of Chinese Academy of Sciences,Beij

4、ing 100049,China;4BeijingSpace Information Relay Transmission Technology Research Center,Beijing 100094,China)Abstract:First,considering the assumption of user preference consistency,all the candidate mentionsare ranked based on a proposed Information FunctionThen,the most familiar candidate is assi

5、gnedto the given mention by adopting a Scoring FunctionThis procedure is iterated by incorporatingdisambiguated entities into the Scoring Function,which consequently passes on the certainty fromprevious linking results to the following rounds of more abstract linking tasksExperiment results onhumana

6、nnotated dataset show that the proposed method outperforms other methodsKey words:computer application;entity linking;text disambiguation;data mining0引 言互联网上,诸如维基百科、百度百科等一系列基于用户产生式内容(UGC)构建的百科类网站的迅猛发展为人类构建大规模通用知识库提供了便利,这种以实体为单位的知识结构具有较强的语义特征,可以准确地描述现实世界中客观存在的对象,同时通过建模实体之间的关系,可以进一步形成完备的知识图谱。现在较为成熟的知识

7、库包括:DBPediaEl】,YAGO2。,Freebase33和收稿日期:2015-0207基金项目:“863”国家高技术研究发展计划项目(2012AA011005)作者简介:李禹恒(1989一),男,硕士研究生研究方向:文本挖掘E-mail:liyuheng:meeom通信作者:付琨(1974),研究员,博士生导师研究方向:计算机视觉与遥感图像理解,地理空间信息挖掘与可视化E-mail:kunfuiecasgmailcorn万方数据第3期 李禹恒,等:基于微博文本的层次化实体链接方法 905ProbaseL4。这些现有的知识库可以用来理解海量的微博文本,作为真实的语料库,这些微博文本反过来

8、可以补充和增强现有的知识库结构。自然语言表达具有多样性和歧义性,因此其中涉及的命名实体往往是模糊的。如用户提到的SF既可以表示一种文学体裁(Science fiction)又可以表示地理位置(San Francisco)。此外,相较于传统实体链接任务中的文档,作为一种非结构化的自由文本,对于微博的实体链接任务还受制于长度限制和口语化表达。将微博实体链接定义为对微博文本中的实体名词(指称项)与知识库中唯一的实体之间的映射,若实体名词对应的实体在知识库中不存在,则被映射到一个空实体(NIL)。实体链接任务是知识图谱构建的基础,在基于知识库的自动问答系统中,对于自然语言的消歧和链接是影响系统效力的关

9、键因素;另外,在微博文本挖掘中,实体链接可以用来检测新闻动态、监视舆情、品牌管理以及个性化的推荐口6。比如通过对用户微博中提及的实体进行链接分析,可以得到用户的兴趣偏好口8,从而根据这些信息来进行有针对性的博文推荐9J 0I,或者提供精确的用户检索服务6。针对网络文本,前人在实体链接问题上进行了较为深入的研究口1。14,这些研究的主要的思路是通过规定一个指称项与实体页面之间的相似性度量准则来对候选实体进行打分排序,从而返回相似度最大的候选实体链接到该指称项上。然而基于上述对于微博文本的特性,不规范的用语和有限的上下文信息令这种基于本文内部上下文静态特征关系的方法在处理微博文本链接问题上效果并不

10、理想。另外一类研究则通过基于图的协同推断151 6。,综合考虑了指称项与实体间的文档内相似度,以及指称项间、实体间的文档间相似度,在实际应用中,构建实体关系图需要消耗大量的时间,同时图中大量的非相关候选实体会为权重传递引入负面的影响。针对上述方法的不足,本文提出了一种层次化的实体链接方法。该方法通过迭代策略让正确的结果正向传递给下一层更模糊的消歧任务,即根据指称项的模糊程度层次化地实现链接任务。1 系统构架本文方法认为任务中的指称项相互依赖,具有层次化的重要程度而非相互独立。该方法首先根据信息函数对同用户的所有提及进行排序,得到歧义最小的指称项,利用消歧算法消歧,并将输出的确认实体纳入消歧函数

11、,歧义较小的提及比较容易返回正确的结果,通过这种迭代策略让正确的结果正向传递给下一层更模糊的提及的消歧任务。如表1中用户50888543的第77条微博中Justin Verlander代表美国知名棒球选手,是一个歧义极小的指称项(维基百科中共出现139次“Justin Verlander”,均指向棒球运动员JustinVerlander(3616702),故首先将其链接到维基百科中编号为3616702的词条Justin Verlander,进而当对指称项Eagles、Yankee Stadium、AL等进行消歧的时候,会倾向于选择与Justin Verlander关系更近的候选实体,从而将他们

12、链接到Philadelphia Eagles、Yankee Stadium 和American League。方法框架如图1所示。表1微博中不规范的用语。Table 1 Irregular language usage in mieroblogs用户 编号 微博正文Opening Day at Yankee StadiumAmazing101935227 27 experience to w而五百广画丽http:tcojiEyl6kE4081481 4 E,van T“urnerspersonal war”ith theBullstront1ne ended wlth a t0U1I 11数据

13、预处理预处理主要面向两部分数据,其中微博数据作为测试集,需要进行数据清洗;知识库作为训练集需要进行数据清洗、实体页面特征提取以及提及一实体映射表的构建。首先去掉用户微博中的标点符号、“”及后面的用户名、超链接URL以及转发微博标志符RT,对非英文字符编码问题进行修正。测试集中部分人工标注的链接实体在知识库中不存在,或标注有误,同样在此阶段进行修正。本文使用2014年3月4日的维基百科作为训练集来训练算法模型。维基百科中每篇文章都对应唯一的实体,实体的不同名称经过超链接、重定向页面和歧义页面指向对应的实体本身。通过对实体页面文本的建模,可以得到丰富的语义信万方数据906 吉林大学学报(工学版)

14、第46卷否丝输H4NIL依次取出用户全部指称项信息函数捧序二二依次取出指标项l是冷启动消歧算法CEP为空7竖对该指称项消歧输出链接实体至圣I是图1层次化实体链接算法框架Fig1 Framework of HEL息,而通过对其中链接关系的梳理,可以进一步得到提及与实体的完整映射关系以及实体之间的关系。12特征提取根据本文模型的特点,选择实体流行度、上下文、邻近上下文、主题关联度作为主要消歧特征。其中实体流行度和上下文特征在独立消歧模型中被广泛用来刻画实体的先验概率及语义,主题关联度常用于协同消歧算法来描述实体间关系强度,此外,针对微博文本字数受限的问题,创新性引入邻近上下文以进一步挖掘实体的词性

15、特征。(1)流行度实验表明,超过70的指称项链接到流行度最高的候选实体。对于某待消歧的命名指称项O;,其备选实体集合为E,对于其中的备选实体ei伽E E,其实体流行程度定义如下:Pop(e;,。)=i竽坠冬 (1)count(P式中:count(彰,。)为0;对应实体P砌i的指向次数。(2)上下文相似度本文模型中利用上下文相似度来比较指称项与候选实体的语义相似性。通常在计算文本向量空间的相似度时采用向量之间的余弦夹角进行计算,但对于本研究课题,有些长尾实体在整个维基百科中出现的次数较少,上下文信息相对较少,在用余弦法计算其向量和命名指称项的文本向量相似度时,很容易出现相似度为零的情况,导致与其

16、他非主流的实体区分不明显。因此,本文使用文献17提出的一种基于朴素贝叶斯的加权相似度计算方法。对于某待消歧的命名指称项0;,其上下文向量空间表示为D(o;)一d。,d:,d。,d。,对于其中的备选实体ei。E E;,其实体的上下文相似度为:Sire。(g;,q)一一。gP(巩1 ei,q)logi tdkE et I。、可可厂一u式中:I E I为命名指称项0;的候选实体个数;t:d。e。1为实体集合E;中上下文词汇表中包含词语d。的实体个数;P(破f巧i,。)使用m一估计方法求得:P(dl Pi。)=生 (3)码广u式中:n为在备选实体g;。的上下文词汇表中词d。出现的次数;n,为备选实体e

17、;,。的上下文词汇表中词的总数(包括全部重复的词);副为整个文档集中无重复的词的个数。(3)邻近上下文相似度由于微博文本长度较短,传统的上下文相似度捕捉到的语义信息十分有限,甚至有的微博会出现无上下文的极端情况(如表1中第111条微博)。为了克服微博实体链接的这一问题,本文对邻近上下文特征进行建模。将命名实体或指称项的前一个词和后一个词分别称为邻近上、下文。通过观察发现这些与实体名词位置上紧密相连的词包含着丰富的能够反映名词性质的信息,比如微博中提到“How didwe get a New Benz?Ill show you”(UID35619,Index85),文中的指称项既可以表示人名Ka

18、rl Benz,也可能是汽车品牌MercedesBenz。显然文中提供的上下文并不足以支撑模型做出正确的判断,但直观上,“new”这个词更多用万方数据第3期 李禹恒,等:基于微博文本的层次化实体链接方法 。907来形容汽车而非人物,实际上“new”在“MercedesBenz”的上文词典中出现过23次,而从未在“Karl Benz”前使用过。基于知识库中的文本,为命名实体建立了邻近上下文词典,进而通过将待消歧的命名指称项O;的邻近上下文D(o;)一d。,d,与候选实体qi,。E的邻近上下文词典作比较,得到指称项与候选实体的邻近上下文相似度:Sire。(已;,。)一(109P(d。l 矗log器

19、2(4)(4)实体相关度维基百科中的超链接蕴含丰富的实体之间的关系信息。通过对维基百科进行文本挖掘,可以对这种实体相关性进行建模,得到关系矩阵以辅助完成实体链接任务。本文实体之间关联度计算方法使用Milne和Witten提出的维基百科概念之间的语义关联度计算方法WLM1 8|,这种方法基于维基百科的链接结构,其基本思想是:如果两个实体拥有更多的共享实体,那么这两个实体就越相关。对于两个实体e。和e。,其语义关联度计算公式如下:TR(Pl,e2)=1一log(max(I E1 l,I E2 I)一log(I E1 n E2 I)log(I WP I)一log(rain(I E1 J,I E2 J

20、)(5)式中:E。、E:分别为链接指向e。和e。的文档的集合;WP为全部知识库实体。式(5)为语义更相关的实体对赋予更高的值,TR(8。,e:)的取值范围为Eo0,1ol。13信息函数在人们试图去理解一篇微博中的不同指称项的含义时,如果遇到不能确定的模糊名称,会倾向于先去理解那些容易理解的名称,然后带着从确定实体中得到的先验知识去理解那些模糊的提及。如下微博:“Jordan is a super star in thefield of Machine Learning!”,指称项Jordan是一个十分常见的人名(根据对维基百科的学习,Jordan可以代282个不同的实体),然而MachineL

21、earning则是一个具体的学科,几乎没有歧义,因此认为这里的Jordan与Machine Learning领域关系密切。据此,本文提出信息函数的概念来衡量实体名词的模糊程度,并在接下来的消歧任务中,按照信息函数的打分对不同模糊程度的指称项进行层次化的链接。Info(。)=l。g国Le删n(o(;。):了) (6)式中:Len(o;)为提及0;字符串长度;Count(oj)为提及0:的候选实体数量。该函数的提出基于两点假设:候选实体少的提及信息量较高;字符串较长的提及信息量较高。14层次化实体消歧算法在对训练样本和测试样本提取特征之后,按照图1所描述的算法框架对候选实体进行消歧。(1)冷启动在

22、算法起始阶段,由于确定实体池(CEP)为空,消歧主要依赖数据的静态特征进行。将微博ti中的第J个指称项0;的第g个候选实体表示为Pi。首先对于该用户的全部指称项Q,根据信息函数利用指称项形式上的特征进行排序得到O,排在前面的指称项具有更清晰的表达和较低的歧义。针对每一个指称项的全部候选实体E,从概率层面上,其流行度能够有效地反应其被人们所熟知的概率;语义层面上,候选实体与指称项之间的上下文相似度可以捕捉其语义关联;词性层面上,二者的邻近上下文相似度可以为描述候选实体的属性提供更多的参考。这3项特征在候选实体间相互独立,因此可以作为静态独立特征来描述候选实体与指称项之间的亲疏程度。基于以上特征,

23、对每个候选实体ei,。E:;利用静态相似方程加权打分得到Pi。如下:户j,。=aPop(q,。)+芦im。(巧。)+筘im。(巧。)(7)式中:a、口、y、分别为各项系数,通过实验学习得到,口+口+y一1。(2)层次消歧微博文本与传统文档的不同之处在于具有用户属性,这里假设同一用户发布的微博具有一定的主题相关性,那么已经识别出的用户微博中的实体可以作为先验知识来辅助后继的消歧任务。为了保证确认实体池的效力,首先根据对数据的分析,制定流行度阈值0来限制哪些实体可以进入确定实体池,并设置实体池容量V,以在保证信息量充足的前提下降低算法复杂度。具体参见算法1(层次消歧算法)。万方数据908 吉林大学

24、学报(工学版) 第46卷算法1输入:用户u的待链接指称项OiO输出:每个指称项对应的实体eiiEInitialize the CEP CEPcount一0foreach oji in 0计算Info(oI)0k一0sort(info(oI) 排序得到0rankforeach O in O。kif(CEP!一0)foreaeh(can in E)Scored1。by式(9)elseforeach(can in E)scored;qby式(8)res=eI scoremax(score)If(respop0CEPcountV)CEPAdd(res)当确定实体池不为空的时候,如图1所示模型将选择使用

25、层次消歧算法。算法会根据式(6)逐一计算指称项的候选实体与确认实体池中每个实体的实体相关性,并返回其平均实体相关性TRi。作为特征补充进如下公式:d;,。一夕;。+卢TR,。 (8)式中:死。为指称项O;与其候选实体e。i的静态相似性得分;一TRj,。为该候选实体与确定实体池中实体相关性的平均值;tl为权重。2实验结果及分析21 实验数据根据调研,目前尚没有针对微博文本的统一公开数据集,本文使用清华大学沈玮提供的数据集进行实验。该数据集利用Twitter API从随机采样得到的71937名Twitter用户的微博中提取3200条最新微博,并进一步从中随机选择20名用户,每名用户200条微博(不

26、足200则全部纳入)进行人工标注,形成标准实验集。关于该数据集的详细情况如表2所示,从中可以看出3818条微博中有1721(4508)至少含有一个实体指称项。另有241条指称项难以对其作出准确判断,标记为uncertain;437条指称项被判定无任何知识库中的实体与之对应而链接到NIL。最终,过滤掉不确定指称项,保留不可链接指称项,得到总计2677条测试用指称项。本文下载了2014年3月4日的维基百科作为训练集(见11节),为12节提取流行度、上下文相似度等特征,并建立指称项到实体的映射表。表2数据集概况Table 2 Summary of the data set用户数 20 不确定指称项数

27、 241微博数 3818 测试用指称项总数 2677至少含有一个实体 可链接指称项总数2239指称项的微博数命名实体指称项总数 2918 不可链接指称项总数43822评测指标实体链接通常使用NIL准确率和InKB准确率分别衡量实体链接对于空实体的判别能力以及多候选实体的消歧能力。其中NIL准确率=被链接到NIL的不可链接指称项个数 ,0、不可链接指称项个数 “7InKB准确率一被链接到NIL的不可链接指称项个数 ,n、不可链接指称项个数 “”此外,算法效力的综合评价指标参考TACKBP实体链接评测任务的主要评测指标,使用Microaveraged accuracy,即所有链接结果的平均准确率:

28、 P一苎馨掣(11)Micro一垒坚譬安! (11)V式中:Q为所有query的集合;L(q)为实体链接系统给出的query q的目标实体ID;C(q)为query q的准确目标实体ID;盯(L(q)、C(q)用于判断L(g)、C(q)是否相同,相同为1,否则为0。23 实验结果采用21节所述数据集进行算法效果测试。由于本文所述方法基于用户特性,因此测试中以用户为单位进行实验。实验中分别比较引入不同特征时静态消歧算法的消歧效果以及引入层次化迭代策略后的影响。实验结果如表3所示,其中基于式(8)的独立特征消歧方法及层次消歧方法分别用LOCAL、HEL表示。试验中发现,对于微博文本,其上下文相似度

29、对算法准确度的提升不及邻近上下文相似度,这也符合12节中的假设。具体来看,表1第4个例子中指称项“Yankee Stadium”利用本文算法在不同特征下的打分如表4所示。在WikiPedia中指称项“Yankee Stadium”被指向电影“YankeeStadium(1923)”的次数要高于运动场“YankeeStadium”,同时微博文本较短,能够提供的上下文万方数据第3期 李禹恒,等:基于微博文本的层次化实体链接方法 909表3实验结果分析Table 3 Experimental results over the data set信息也十分有限,而且两个候选实体描述的对象实际上也很相似,

30、因此上下文相似性特征并未起到很强的区分作用。然而通过计算二者的邻近上下文相似度,发现介词“at”出现在地点名词Yankee Stadium前的概率大大高于出现在电影之前,因此通过这种词性层面的特征,本文算法可以对指称项链接成功。表4静态链接方程消岐分析Table 4 Analysis on static linking function disambiguation此外,确认实体池在一定程度上能够反映用户的特征,因为里面捕捉到那些用户切实关注到的、比较具体的实体,而通过计算这些实体与其他实体的相关性,又可以增强很多协同相关的长尾候选实体的打分,从而增强链接准确性。表5为通过本文方法得到的确认实

31、体池,可以看出其捕捉到了不同用户所关心的歧义很小的实体,显然用户14473492对科技主题更感兴趣,而用户4081481热衷于篮球赛事,结合12节中提到的实体相关性,那些同主题的模糊实体消歧效果可表5确认实体池举例Table 5 Example of certain entity pool以得到增强,如表1中4081481的第4条微博中的指称项“Bulls”会被链接到Chicago Bulls(篮球队)而非Bulls(rugby union)(橄榄球队)。信息函数准确率一覆盖度:利用信息函数计算13节中微博提及的信息量,结果如表6所示,实验结果符合预期:经过信息函数排序后,约前50的提及的链接

32、准确度可以达到95以上,这一点保障了后文中确认实体池的效力。例如用户347276428的所有命名指称项经过信息函数排序后,从熵最低的一条开始一次进行实体消歧,当累计链接准确率降至95时,其处理覆盖率达到6744,当累计链接准确率降至90时,其处理覆盖率达到7209,以此类推,当累计链接准确率降至79时,其处理覆盖率达到100。试验中将CEP大小设置为lo,即将排序后符合条件的前十个链接结果纳入CEP。表6命名指称项的信息量Table 6 Information of mentions3 结论针对传统方法在微博实体链接任务中存在的问题,提出一种层次化的实体链接方法,解决了微博上下文信息不足导致的

33、链接准确率不高的问题。主要通过邻近上下文捕捉指称项词性来补充上下文知识,并结合信息函数和层次化的实体消歧策略,产生确定实体池来支持下一轮的实体链接任务。通过在用户标注数据集上的实验表明,万方数据 910 吉林大学学报(工学版) 第46卷本文方法切实可行,并具有较高的链接准确率。然而本文算法能力倾向于InKB实体消歧,对于空实体判别问题仍有较大进步空间。此外,目前实体链接算法都是通过学习知识库来提取实体特征,然而微博文本与百科型知识库,无论遣词造句还是主题分布都会有很大的差别,知识库中的流行度并不可以完全表征微博词频。综上所述,下一步的研究将集中在生成优质候选集以及微博文本的特征提取。参考文献:

34、1Auer S,Bizer C,Kobilarov G,et a1DBpedia:ANucleus for a Web of Open DataMUSA:Springer,20072Suchanek F M,Kasneci G,Weikum GYAGO:acore of semantic knowledgeDBOL201412263http:www2007orgpaperspaper391pdf3Bollaeker K,Evans C,Paritosh P,et a1Freebase:a collaboratively created graph database for strueturin

35、g human knowledgeDBOLI20141226http:i14746216176wimages998SCl7pdf4Wu W,Li H,Wang H,et a1Probase:a probabilistic taxonomy for text understandingDBOL20150102http:researchmicrosoftcornpubs158737paperpdf5Chen J,Nairn R,Nelson L,et a1Short and tweet:experiments on recommending content from information str

36、eamsDBOLlE20150102http:WWW-userscsumneduechipapers2010CHIZerozer088一tweet-recommender-ASCPARCpdf6Weng J,Lim E P,Jiang J,et a1Twitterrank:finding topic-sensitive influential twitterersDBOL20150102http:WWWmysmuedustaffjswengpapersTwitterRank_WSDMpdf7Michelson M,Macskassy S ADiscovering users7topics of

37、 interest on twitter t a first lookCProceedings of the Fourth Workshop on Analytics forNoisy Unstructured Text Data,Toronto,Canada,2010:73808Xu Z,Lu R,Xiang L,et a1Discovering user intereston twitter with a modified author-topic modelC1Proceedings of the Web Intelligence and IntelligentAgent Technol

38、ogy(WIIAT),Lyon,201 1:4224299Chen J L,Nairn R,Nelson L,et a1Short andtweet:experiments on recommending content frominformation streamsDBOLEzolsOl一10http:www-userscsumneduechipapers2010CHIZerozer088一tweetrecommender-ASC-PARCpdfElOChen Kailong,Chen Tian-qi,Zheng Guoqing,eta1Collaborative personalized

39、tweet recommendationEDBOL20150110http:wwwcscmuedugzhengpapersp661一chenpdf1 1Bunescu R C,Pasca MUsing encyclopedic knowledge for named entity disambiguationDBOL2015一01103http:7嘲w嘲csutexaseduusersmlpapersencyc-eacl一06pdf1 2Cucerzan SLarge-scale named entity disambiguation based on wikipedia dataDB0L20

40、150112http tresearch。microsoftcomen-uspeoplesilviuemnlp07pdf13Han Xian-pei,Sun Le,Zhao JunCollective entitylinking in web text:a graph-based methodDBOL20150112http:wwwnlpriaaccn2011papersgjhyghl33pdf141 Hoffart J,Yosef M A,Bordino I,et a1Robust disambiguation of named entities in textDBOL 12015-0118

41、http:aclweborganth0109yDD1 1D1 11072pdf15Shen Wei,Wang Jian-yong,Luo Ping,et a1Linden:linking named entities with knowledge base viasemantic knowledgeCProceedings of the 21stInternational Conference on World Wide Web。Lyon,France,2012:449-45816Shen Wei,Wang Jian-yong,Luo Ping,et a1Linking named entit

42、ies in tweets with knowledge base viauser interest modelingCProceedings of the 1 9thACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Chicago,Illinois,2013:6876171唐博蓉基于维基百科的命名实体消歧研究D北京:北京理工大学计算机学院,2011Tang Bo-rongNamed entity disambiguation basedon wikipedia-D1Beijing:School of Computer Science,Beijing Institute of Technology,201118Witten I,Milne DAn effective,lowcost measureof semantic relatedness obtained from WikipedialinksECIProceeding of kKA Workshop on Wikipedia and Artificial Intelligence:an Evolving SynergY,Chicago,USA,2008:2530万方数据

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁