第四章 人工智能导论知识图谱.pdf

上传人:奉*** 文档编号:4060332 上传时间:2021-01-13 格式:PDF 页数:83 大小:3.94MB
返回 下载 相关 举报
第四章 人工智能导论知识图谱.pdf_第1页
第1页 / 共83页
第四章 人工智能导论知识图谱.pdf_第2页
第2页 / 共83页
点击查看更多>>
资源描述

《第四章 人工智能导论知识图谱.pdf》由会员分享,可在线阅读,更多相关《第四章 人工智能导论知识图谱.pdf(83页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、1 知识图谱的提出和概念 知识图谱这一名词最早由google公司于 2012 年提出,名为知识图谱这一名词最早由google公司于 2012 年提出,名为 “Knowledge Graph ”。应用于其搜索引擎,目的是增强信息检“Knowledge Graph ”。应用于其搜索引擎,目的是增强信息检 索能力,为用户提供更加智能的检索结果。索能力,为用户提供更加智能的检索结果。 经过短短几年时间,知识图谱得到几乎所有搜索引擎企业的关注,经过短短几年时间,知识图谱得到几乎所有搜索引擎企业的关注, 并纷纷投入大力研究,形成了多种多样的技术和应用方案。并纷纷投入大力研究,形成了多种多样的技术和应用方案

2、。 在现阶段,知识图谱并没有严格、绝对的学术概念,但从功能上在现阶段,知识图谱并没有严格、绝对的学术概念,但从功能上 看,目前的知识图谱具有类似的功能,它们都看,目前的知识图谱具有类似的功能,它们都以结构化形式,描以结构化形式,描 述客观世界中存在的概念、实体、以及实体之间关系。因此,知述客观世界中存在的概念、实体、以及实体之间关系。因此,知 识图谱是这样一类知识表示和应用技术的总称。识图谱是这样一类知识表示和应用技术的总称。 3 知识图谱表现形式 在典型的知识图谱中,每个实体或概念用一个 ID 来标识,称为在典型的知识图谱中,每个实体或概念用一个 ID 来标识,称为 标识符标识符。实体通过若

3、干。实体通过若干属性属性来刻画内在特性,实体之间通过多种来刻画内在特性,实体之间通过多种 关系关系来连接。所有实体相互关联,形成复杂的“图”。来连接。所有实体相互关联,形成复杂的“图”。 比如,有“山东省”、“济南市”两个实体,两者各有自己的属比如,有“山东省”、“济南市”两个实体,两者各有自己的属 性,两者之间则存在“provincial_capital”两种关系。性,两者之间则存在“provincial_capital”两种关系。 山东省济南市 面积:60,657 mi 人口:10005.83万 省会:济南 人口:870万 别名:泉城 市花:荷花 provincial_capital 4

4、1960s,符号主义知识表示 之前我们介绍过,在人工智 能的第一次发展浪潮中: 采用符号主义表示知识采用符号主义表示知识 应用于专业领域的自动推理应用于专业领域的自动推理 典型的应用即专家系统,一 般由事实库、规则库、推理 机构成。 事实库中,以条目形式罗列事事实库中,以条目形式罗列事 实性知识实性知识 规则库中,以条目形式罗列推规则库中,以条目形式罗列推 理规则理规则 控制器 规则库事实库推理机 5 1960,语义网络( Semantic Network ) 在接近同时代,在1960年,认知科学家Collins、Quillian等人在接近同时代,在1960年,认知科学家Collins、Qui

5、llian等人 提出了语义网络(Semantic Network)的概念,目的是以网络的方提出了语义网络(Semantic Network)的概念,目的是以网络的方 式来描述概念之间的语义关系。式来描述概念之间的语义关系。 在该设想中,语义网络将概念作为节点,边表示关系,可以用来在该设想中,语义网络将概念作为节点,边表示关系,可以用来 描述语义关系。如下图例子:描述语义关系。如下图例子: 6 语义网络形式简单,容易理解但节点和关 系没有固定规范概念和实体没有严格区分 比如:哺乳动物哺乳动物是个抽象概念,世界上并 没有一种动物名字就是哺乳动物。 专家知识 vs 语义网络 专家系统知识库与语义网络

6、 专家系统往往面向专业领域,专业度高、扩展性差专家系统往往面向专业领域,专业度高、扩展性差 语义网络则更多面向常识、普遍概念,用途更加广泛语义网络则更多面向常识、普遍概念,用途更加广泛 专家系统强调知识的推理能力,对概念的表达能力不强专家系统强调知识的推理能力,对概念的表达能力不强 语义网络强调概念及其关系的表达,不具备推理能力,语义网络强调概念及其关系的表达,不具备推理能力, 两者的建立都比较随意,没有严格的语义理论支撑。两者的建立都比较随意,没有严格的语义理论支撑。 是否可以将两者结合,定义完美的语义理论,同时又具有 推理能力? 7 1970s-1980s,描述逻辑 从1970s开始,许多

7、学者开始研究语义理论的问题,代表性的工从1970s开始,许多学者开始研究语义理论的问题,代表性的工 作是描述逻辑(description logic)作是描述逻辑(description logic) 描述逻辑尝试将知识表示能力和推理计算能力结合,具有很强的描述逻辑尝试将知识表示能力和推理计算能力结合,具有很强的 表达能力,并且能保证推理能力。表达能力,并且能保证推理能力。 早期的描述逻辑包括Brachman 1980s提出的KL-ONE语言,它可以早期的描述逻辑包括Brachman 1980s提出的KL-ONE语言,它可以 刻画概念、属性、个体、关系等知识要素。刻画概念、属性、个体、关系等知

8、识要素。 8 1990s Web1.0时代 1990s后,描述逻辑成为知识表示领域的重要分支。但它 是一个纯理论工作,没有数据和应用支撑。恰好此时, 互联网进入应用阶段,web1.0诞生。1989,Web之父Tim Berners Lee将超文本链接与因特网嫁接,使得用户可以 通过超链接浏览互联网上的各类资源,发布自己的信息。 Web1.0诞生后,互联网上的网页数量迅速增加,网页之 间相互关联形成网络,其中蕴含着大量知识。但这种知 识的设计思想是面向人类阅读和理解的,无法被计算机 理解和计算。比如我们很容易知道两个网页内容相关, 但计算机很难理解网页的内容。 9 Tim Berners Lee

9、 1998,语义web兴起和发展 在1998年, Tim Berners Lee提出了“语义网(semantic web)”的概念,为 了与语义网络区分,也常直接称为语义web。 语义web旨在对互联网内容进行语义化表示,通过对网页进行语义描述,得到 网页的语义信息,从而使计算机能够理解、推理互联网信息。 这是个庞大的构想,不是简单的标注web页面,而是需要新的知识表示手段。 这样的背景下,语义web相继提出了“RDF资源描述框架”和“OWL网络本体语 言”等新的框架。 10 1997,RDF RDF是一种描述资源信息的框架,资源可以是任何东西,包括文档、人、物理对象和抽象概 念。一个RDF陈

10、述描述两个资源之间的关系,主语(subject)和宾语(object)分别指两 个资源,“predicate”表达了这个资源之间的关系。因为每个RDF陈述包含三个元素,因 此RDF陈述也被称作RDF三元组(triples)。 如下面几个例子: 根据这样的一些三元组我们就可以根据这样的一些三元组我们就可以 画出类似右图的知识图画出类似右图的知识图 11 2001,OWL RDF本身是从实践出发的描述框架。 2001年,W3C组织开始将描述逻辑引入语义web,尝试构建完美的知识表现语言, 称之为OWL,网络本体语言。 OWL以描述逻辑为理论基础,比RDF,具有更强的表达能力和推理能力。比如, OW

11、L可以描述“中国所有湖泊”、“美国所有4000米以上的高山”这样的类。 但OWL复杂度非常高,在逻辑接近完美,但工程上实现却太过复杂。 12 语义web技术栈 从2001到2006,随着RDF和OWL的提出, 语义web技术突飞猛进,各种标准不 断升级和复杂化,层次不断加深,形 成了技术堆栈。 在这一时代,语义web仍然沿袭着符 号主义的核心理念,尝试建立完美的 符号体系来囊括所有知识。 该阶段是从“弱语义”到“强语义” 的探索。 13 2006,linked data 到了2006年,Tim Berners Lee 逐渐意识到语义web的发 展遇到了瓶颈,体系结构日益 复杂,而工程实现难度越

12、来越 大,成本越来越高,各家单位 都各自为政开发语义网。 Lee提出“linked data”设想, 号召各家单位分享自己的知识 库,合并起来形成开放的语义 网。目前,该设想最大的项目 Linked Open Data,LOD项目 中已经包含了1000多个数据集。 Linked open data 计划现状 14 2006,linked data 在技术层面上,从linked data开始,语义web开始弱化“语义推理”的部分, 而更强调“Web”部分。因此linked data可以看作是语义web的一个简化集合。 在实现层面,linked data鼓励使用RDF三元组形式描述知识,而理论更完

13、备的 OWL系列方法则很少使用。 从linkded data开始,语义web开始进入“弱语义”的阶段,也正是从此开始, 语义web的体系结构开始向现如今的“知识图谱”过渡发展。 15 2012,谷歌知识图谱 2012,谷歌在收购语义web公司Freebase之后,进一步将其中基于 RDF的知识表示形式简化,升华为图数据,大大提升其应用性,称 之为“知识图谱”。 至此,现代的知识图谱正式登上时代舞台。谷歌知识图谱进一步弱 化了语义,仅保留了RDF三元组的基本形式,但这种简单的形式非 常适合工程应用,以及知识的自动化生成。因此近年来展现出蓬勃 的生命力。 16 专家 知识 语义 网络 描述 逻辑

14、OWL Linked data Web 1.0 语义 web RDF Google 知识图谱 百度知识图谱 搜狗知识图谱 1960s 理论起源 2010s,知识图谱,弱语义 1990s 语义web,强语义 (实体,关系,实体) (实体,关系,实体) 小结 17 从“强语义”到“弱语义” 知识图谱的发展几经变革,大致可以划分为“强语义”和“弱语知识图谱的发展几经变革,大致可以划分为“强语义”和“弱语 义”阶段。义”阶段。 在“强语义”阶段,研究重点是如何建立语义表示体系,知识库在“强语义”阶段,研究重点是如何建立语义表示体系,知识库 的构建往往依赖于的构建往往依赖于人工编辑、合作开发人工编辑、合

15、作开发的模式。的模式。 进入互联网时代后,知识图谱规模不断增大,开始向着更加实际进入互联网时代后,知识图谱规模不断增大,开始向着更加实际 的“弱语义”方法发展,不再强调语义,而是强调如何的“弱语义”方法发展,不再强调语义,而是强调如何利用互联利用互联 网知识自动构建网知识自动构建大规模知识图谱。大规模知识图谱。 2010后,弱语义,自动构建 2010前:强语义,人工建立 19 1984,CYC知识库 第一个例子,叫做Cyc,是早期知识库项目的代表。也是目前持第一个例子,叫做Cyc,是早期知识库项目的代表。也是目前持 续时间最长的知识库项目。CYC最早由续时间最长的知识库项目。CYC最早由Dou

16、glas LenatDouglas Lenat在1984年创在1984年创 建,并延续至今。建,并延续至今。 Cyc最初的目标是要建设人类最大的常识知识库,它认为,常识Cyc最初的目标是要建设人类最大的常识知识库,它认为,常识 可以通过“可以通过“实体实体”和“”和“断言断言”来描述。类似于“”来描述。类似于“每棵树都是植每棵树都是植 物”、“植物最终都会死亡物”、“植物最终都会死亡”。”。 这些知识以一阶谓词逻辑形式存储。这些知识以一阶谓词逻辑形式存储。 Cyc设想,当用户提出“树是否会死亡”的问题时,CYC推理引擎Cyc设想,当用户提出“树是否会死亡”的问题时,CYC推理引擎 可以通过自动

17、推理得到正确的结论。可以通过自动推理得到正确的结论。 20 Cyc介绍 Cyc项目的知识事实主要通过手工添加到知识库中,类似定理库。Cyc项目的知识事实主要通过手工添加到知识库中,类似定理库。 这使得CYC的推理效率很高,可以支持复杂推理。但缺点同样突这使得CYC的推理效率很高,可以支持复杂推理。但缺点同样突 出:构建成本太高,知识更新慢,推理死板适应性差。出:构建成本太高,知识更新慢,推理死板适应性差。 近几年,Cyc也开始通过机器学习来自动获取知识。截至目前,近几年,Cyc也开始通过机器学习来自动获取知识。截至目前, 该知识库仍在运行,目前已经包含了700万条人类定义的断言,该知识库仍在运

18、行,目前已经包含了700万条人类定义的断言, 涉及50万个实体,15000个谓词。涉及50万个实体,15000个谓词。 目前在其官网上还提供了免费的版本openCYC。有兴趣的同学可目前在其官网上还提供了免费的版本openCYC。有兴趣的同学可 以关注一下。以关注一下。 21 Douglas Lenat 22 1985,WordNet 我们介绍的第二个知识库是WordNet,也是目前知名度最高的词我们介绍的第二个知识库是WordNet,也是目前知名度最高的词 典知识库,它最早于1985年,由普林斯顿大学的认知科学实验室典知识库,它最早于1985年,由普林斯顿大学的认知科学实验室 主持构建,最开

19、始的目的是针对主持构建,最开始的目的是针对多义词的词义消歧多义词的词义消歧。 Wordnet认为,每个Wordnet认为,每个词(word)词(word)可能有多个不同的可能有多个不同的语义(sense)语义(sense) 根据词去组织词典,则会忽略同义词信息。根据词去组织词典,则会忽略同义词信息。 同样,每个同样,每个语义(sense)语义(sense)也可能对应多个词。如果按照sense组也可能对应多个词。如果按照sense组 织词典,把语义近似相同的词打包放在一起,是否可以解决多义织词典,把语义近似相同的词打包放在一起,是否可以解决多义 词问题?据此,WordNet设计了词问题?据此,W

20、ordNet设计了同义词集合 (Synset),同义词集合 (Synset),作为基本作为基本 单位来组织词典。单位来组织词典。 23 Wordnet朴实的官网 24 在wordnet中,具有相同意思的多个词放在一个synset中,具有在wordnet中,具有相同意思的多个词放在一个synset中,具有 多种含义的词将会出现在多个synset中。多种含义的词将会出现在多个synset中。 在此基础上,WordNet进一步设计了“语义关系”,把synset中在此基础上,WordNet进一步设计了“语义关系”,把synset中 的词关联起来形成图,典型的语义关系如:的词关联起来形成图,典型的语义关

21、系如: 同义关系(synonymy)、反义关系(antonymy)、 上下位关系(hypernymy/hyponymy) “猫是动物” 整体和部分关系(meronymy) “轮子是汽车的一部分” 蕴含关系(entailment) “打鼾蕴含睡着” WordNet具有很强的生命力,其规模也在多年发展的基础上不断WordNet具有很强的生命力,其规模也在多年发展的基础上不断 增长,WordNet3.0中已经包括15万个word和20万条语义关系,已增长,WordNet3.0中已经包括15万个word和20万条语义关系,已 经成为目前的语义分析中重要的工具。经成为目前的语义分析中重要的工具。 25

22、Wordnet的缺点 WordNet的注意力不是在文本和话语水平上来描述词和概念的语WordNet的注意力不是在文本和话语水平上来描述词和概念的语 义,因此义,因此WordNet中没有考虑特定语境下的相关概念之间的联系WordNet中没有考虑特定语境下的相关概念之间的联系。 例如,WordNet中没有将网球拍、网球、球网等词语以联系到一例如,WordNet中没有将网球拍、网球、球网等词语以联系到一 起。这就是著名的起。这就是著名的“tennis problem”(网球问题)。“tennis problem”(网球问题)。 类似还有医生、医院之间的关系;教师、学生、学校之间的关系;类似还有医生、

23、医院之间的关系;教师、学生、学校之间的关系; 大海、沙滩之间的关系等等。大海、沙滩之间的关系等等。 网球问题涉及到许多世界知识的描述和关联,也是目前通用人工网球问题涉及到许多世界知识的描述和关联,也是目前通用人工 智能亟待解决的问题之一。智能亟待解决的问题之一。 26 1999,ConceptNet 我们要介绍的第三个知识库,是我们要介绍的第三个知识库,是ConceptNetConceptNet,它最早源于MIT媒,它最早源于MIT媒 体实验室的OpenMind commonsense 项目,该项目是由明斯基体实验室的OpenMind commonsense 项目,该项目是由明斯基 1999年

24、创建的(1999年创建的(这个明斯基就是达特茅斯会议的那个,神奇的老头这个明斯基就是达特茅斯会议的那个,神奇的老头)。)。 ConceptNet最初的目标是构建一个描述人类常识的大型语义web。ConceptNet最初的目标是构建一个描述人类常识的大型语义web。 在1999年,RDF技术已经成熟,因此Conceptnet直接采用三元组在1999年,RDF技术已经成熟,因此Conceptnet直接采用三元组 的形式来构建,而不是谓词逻辑。的形式来构建,而不是谓词逻辑。 27 在构建方法上, ConceptNet并不是完全由专家来制定结构、层级、语义体在构建方法上, ConceptNet并不是完

25、全由专家来制定结构、层级、语义体 系,而是系,而是通过“众包”方式,结合一定的通过“众包”方式,结合一定的文本抽取,半自动半人工地构建文本抽取,半自动半人工地构建。 在conceptnet中,在conceptnet中,所有的概念都来自于真实文本,概念之间的关系通过文所有的概念都来自于真实文本,概念之间的关系通过文 本的统计数据确定。本的统计数据确定。比如,在文本中多次出现“化妆 漂亮”则可比如,在文本中多次出现“化妆 漂亮”则可 以推断“化妆”和“漂亮”之间存在导致关系。以推断“化妆”和“漂亮”之间存在导致关系。 这种从文本中发现的关系,并不是由专家事先制定好的。这就意味着,这种从文本中发现的

26、关系,并不是由专家事先制定好的。这就意味着, conceptnet本身已经是一个“弱语义”的知识库,只强调词与词之间存在conceptnet本身已经是一个“弱语义”的知识库,只强调词与词之间存在 的关系,而不再强调知识库整体的语义完整性。的关系,而不再强调知识库整体的语义完整性。 经过多年发展,目前ConceptNet的主流版本已经升级到5.0,在经过多年发展,目前ConceptNet的主流版本已经升级到5.0,在 ConceptNet5.0中,一共定义了21种关系,包含约2800万三元组,支持多种ConceptNet5.0中,一共定义了21种关系,包含约2800万三元组,支持多种 语言。语言

27、。 28 ConceptNet 搜索basketball的例子 例如,我们在ConceptNet网站中查询basketball词条,会得到下例如,我们在ConceptNet网站中查询basketball词条,会得到下 面的结果:面的结果: 给出basketball的21种关系下的相关词列表 29 HowNet 以上介绍的知识库都以英文为主。近几年也开始扩展到中文,如以上介绍的知识库都以英文为主。近几年也开始扩展到中文,如 wordnet、conceptnet都已经加入了中文词汇。wordnet、conceptnet都已经加入了中文词汇。 下面我们要介绍的,是纯中文的知识库:HowNet下面我们

28、要介绍的,是纯中文的知识库:HowNet 知网(HowNet)是一个以汉语和英语的词语所代表的概念为描述 对象,以揭示概念与概念之间以及概念所具有的属性之间的关系 为基本内容的常识知识库。 30 HowNet的基本思想 HowNet最早的理念可以追溯到1988年,知网的作者董振东 先生曾在他的几篇文章中提出: 自然语言处理系统需要知识库。自然语言处理系统需要知识库。 知识库应包含概念、概念的属性、以及概念之间、属性之间的关知识库应包含概念、概念的属性、以及概念之间、属性之间的关 系系 应首先建立常识性知识库,描述通用概念应首先建立常识性知识库,描述通用概念 应由知识工程师来设计知识库的框架,并

29、建立知识库的原型。应由知识工程师来设计知识库的框架,并建立知识库的原型。 知网就是在这些理念的指导下,历经多年开发得到的中文 知识系统。 31 HowNet的构建 知网作为一个知识系统,是一个网状结构。知网的建设方 法的一个重要特点是自下而上的归纳的方法。 知网知识体系的最底层,是800多个“知网知识体系的最底层,是800多个“义元义元”,是“”,是“最基本的、最基本的、 不易于再分割的意义的最小单位不易于再分割的意义的最小单位”。义元由人工专家大量阅读文”。义元由人工专家大量阅读文 本,逐步精炼得到,是HowNet的精华。本,逐步精炼得到,是HowNet的精华。 有了义元,HowNet进一步

30、有了义元,HowNet进一步用义原来标注、解释事件和概念用义原来标注、解释事件和概念。然后然后 加入概念、属性之间的关系,构成网络。加入概念、属性之间的关系,构成网络。 32 HowNet中关于“医生”和“患者”的例子 33 openHowNet 目前,HowNet还在持续发展中,并且获得越来越多的关注。目前也已经有公开 版本OpenHowNet问世。 34 知识图谱规模化挑战 进入互联网时代后,尤其是进入互联网时代后,尤其是搜索引擎成为人们获取信息的主要手搜索引擎成为人们获取信息的主要手 段段以后,工业界对知识库的规模提出了越来越高的要求。以往以后,工业界对知识库的规模提出了越来越高的要求。

31、以往 “小而美”的知识库,已经无法满足智能应用的需求。“小而美”的知识库,已经无法满足智能应用的需求。 另一方面,以搜索引擎为例,人们更多关注的是“另一方面,以搜索引擎为例,人们更多关注的是“是否具有并且是否具有并且 找到某种知识找到某种知识”,而不是“”,而不是“是否可以理解、推理某种知识是否可以理解、推理某种知识”。显”。显 然这种需求,使得知识库越来越倾向于“弱语义、大规模”。然这种需求,使得知识库越来越倾向于“弱语义、大规模”。 因此,从2010年开始,许多学者开始尝试利用机器学习、信息抽因此,从2010年开始,许多学者开始尝试利用机器学习、信息抽 取等技术,自动从互联网获取词汇知识。

32、取等技术,自动从互联网获取词汇知识。 35 自动获取web知识:知识源瓶颈 在这方面,典型的例子包括 华盛顿大学的TextRunner(现改为OpenIE,开放信息抽取系统)。华盛顿大学的TextRunner(现改为OpenIE,开放信息抽取系统)。 卡内基梅隆大学的NELL(Never-Ending Language Learning)卡内基梅隆大学的NELL(Never-Ending Language Learning) 这两个系统,都是完全根据算法,以互联网网页上的文本为知识源, 试图自动分析、发现其中的概念以及概念之间的关系。 这样做的好处是很容易获得大量知识。缺点则在于开放互联网上的

33、 信息质量差别大,数量虽然庞大,但知识密度非常低,使得系统准 确率和知识获取效率都比较低。 36 另一条路:Wikipedia 因此,可以说:因此,可以说:自动构建知自动构建知 识库,前提是准备好知识密识库,前提是准备好知识密 集、格式统一、大规模的知集、格式统一、大规模的知 识源。识源。 在2010年前后,随着在线百在2010年前后,随着在线百 科网站的兴起,这种知识源科网站的兴起,这种知识源 逐渐成熟,其典型代表就是逐渐成熟,其典型代表就是 大名鼎鼎的维基百科,大名鼎鼎的维基百科, wikipedia。wikipedia。 37 在线百科全书wikipedia 维基百科是世界上最著名的在线

34、百维基百科是世界上最著名的在线百 科全书,它致力于向读者提供免费科全书,它致力于向读者提供免费 的百科全书知识。的百科全书知识。 在线百科全书的概念来自在线百科全书的概念来自理查理查 德斯托曼德斯托曼(同时他也是开源软件(同时他也是开源软件 的倡导者、精神领袖)的倡导者、精神领袖) Wikipedia始于2001年1月15日,目Wikipedia始于2001年1月15日,目 前发展为全球性的项目前发展为全球性的项目 特点:特点:众包、词条存储、累计有千众包、词条存储、累计有千 万级别的百科词条。万级别的百科词条。 38 基于在线百科的知识图谱 在wikipedia取得成功之后,大批在线百科网站

35、兴起,在维基百在wikipedia取得成功之后,大批在线百科网站兴起,在维基百 科的 “在线百科全书列表”词条中,记录的目前知名的在线百科的 “在线百科全书列表”词条中,记录的目前知名的在线百 科网站已经达到139个。科网站已经达到139个。 这些网站以基本相同的结构,存储了大量词条以及描述文本。其这些网站以基本相同的结构,存储了大量词条以及描述文本。其 中包含了方方面面的知识,为知识图谱自动构建奠定基础。中包含了方方面面的知识,为知识图谱自动构建奠定基础。 目前,大多数通用知识图谱,也都采用类似的方法,通过对在线目前,大多数通用知识图谱,也都采用类似的方法,通过对在线 百科网站进行自动分析,

36、构建知识图谱。百科网站进行自动分析,构建知识图谱。 39 部分在线百科网站 40 从FreeBase到Wikidata Freebase是较早期的开放共享知识库。由硅谷创业公司MetaWebFreebase是较早期的开放共享知识库。由硅谷创业公司MetaWeb 在2005年启动。其主要数据来源包括维基百科、世界名人数据库、在2005年启动。其主要数据来源包括维基百科、世界名人数据库、 开放音乐数据库,以及社区用户的贡献等。开放音乐数据库,以及社区用户的贡献等。 早期的FreeBase以人工转化为主,即,早期的FreeBase以人工转化为主,即,由社区成员协作,将知识由社区成员协作,将知识 源中

37、的知识提取,构建为Freebase格式的三元组源中的知识提取,构建为Freebase格式的三元组。 Freebase是典型的“弱语义”知识库,它对知识库中的实体和关Freebase是典型的“弱语义”知识库,它对知识库中的实体和关 系不做严格的控制,完全由用户来创建、编辑。系不做严格的控制,完全由用户来创建、编辑。 2010年,谷歌收购了Freebase作为其知识图谱数据来源,并于2010年,谷歌收购了Freebase作为其知识图谱数据来源,并于 2012年发布谷歌知识图谱。2012年发布谷歌知识图谱。 2016年,谷歌将Freebase的数据迁移至新的Wikidata,正式关闭2016年,谷歌

38、将Freebase的数据迁移至新的Wikidata,正式关闭 了Freebase。了Freebase。 41 从FreeBase到Wikidata 在关闭前,freebase大约包含了6800万个实体、约10亿条关系,在关闭前,freebase大约包含了6800万个实体、约10亿条关系, 超过24亿条三元组。超过24亿条三元组。 作为继任者,wikidata对freebase的结构进行了改进以提高质量,作为继任者,wikidata对freebase的结构进行了改进以提高质量, 并与wikipedia深度结合,到2017年底已经具有2500万个词条,并与wikipedia深度结合,到2017年底

39、已经具有2500万个词条, 是现代知识图谱的典型代表。是现代知识图谱的典型代表。 42 Wikidata的网站 43 DBpedia DBPedia是早期的基于维基百科的语义网项目。DBPedia的本意就DBPedia是早期的基于维基百科的语义网项目。DBPedia的本意就 是指数据库版本的Wikipedia,旨在将wikipedia的知识系统化、是指数据库版本的Wikipedia,旨在将wikipedia的知识系统化、 规范化、结构化。规范化、结构化。 与Freebase不同,与Freebase不同,DBPedia定义了一套较为严格的语义体系DBPedia定义了一套较为严格的语义体系,其,其

40、 中包含人、地点、音乐、电影、组织机构、物种、疾病等类定义。中包含人、地点、音乐、电影、组织机构、物种、疾病等类定义。 此外,DBPedia还是我们上节课提到的LOD计划的核心,与此外,DBPedia还是我们上节课提到的LOD计划的核心,与 Freebase,OpenCYC、Bio2RDF等多个数据集建立了数据链接。Freebase,OpenCYC、Bio2RDF等多个数据集建立了数据链接。 DBPedia采用RDF三元组模型,2016年的版本中,已经包括了660DBPedia采用RDF三元组模型,2016年的版本中,已经包括了660 万实体,130亿个三元组。万实体,130亿个三元组。 44

41、 DBPedia网站 45 YAGO YAGO是由德国马普研究所研制的知识图谱,主要集成了YAGO是由德国马普研究所研制的知识图谱,主要集成了 Wikipedia、WordNet和GeoNames三个来源的数据。Wikipedia、WordNet和GeoNames三个来源的数据。 YAGO的特点是YAGO的特点是将WordNet的词汇定义与Wikipedia的分类体系进行将WordNet的词汇定义与Wikipedia的分类体系进行 了知识融合了知识融合,使得YAGO具有更加丰富的实体分类体系。,使得YAGO具有更加丰富的实体分类体系。 YAGO还考虑了时间和空间知识,为很多知识条目YAGO还考

42、虑了时间和空间知识,为很多知识条目增加了时间和空增加了时间和空 间维度的属性描述。间维度的属性描述。 目前,YAGO包含1.2亿条三元组知识。目前,YAGO包含1.2亿条三元组知识。 值得一提的是,YAGO是IBM Watson的后端知识库之一。值得一提的是,YAGO是IBM Watson的后端知识库之一。 46 Yago网站 47 BabelNet BabelNet的功能类似于WordNet,是个词汇知识库。BabelNet的BabelNet的功能类似于WordNet,是个词汇知识库。BabelNet的 特点是将WordNet词典与Wikipedia多语言百科做知识融合,使得特点是将Word

43、Net词典与Wikipedia多语言百科做知识融合,使得 wordnet支持更多的语言,wordnet支持更多的语言,解决小语种wordnet数据缺乏的问题解决小语种wordnet数据缺乏的问题。 BabelNet的核心思想是:许多Wikipedia词条都具有多语言版本,BabelNet的核心思想是:许多Wikipedia词条都具有多语言版本, 因此如果wordnet中的词条可以与wikipedia中的条目匹配,则相因此如果wordnet中的词条可以与wikipedia中的条目匹配,则相 当于获得了多语言版本的wordnet。当于获得了多语言版本的wordnet。 目前,BabelNet3.7

44、包含了271种语言,包含1400万同义词组,目前,BabelNet3.7包含了271种语言,包含1400万同义词组, 36.4万词语关系,超过19亿的三元组,是目前最大规模的多语言36.4万词语关系,超过19亿的三元组,是目前最大规模的多语言 词典知识库。词典知识库。 48 49 哈工大:大词林 大词林是一个大词林是一个 实体知识库。它完实体知识库。它完 全自动构建,系统全自动构建,系统 从Web搜索结果、在从Web搜索结果、在 线百科和等多个信线百科和等多个信 息源挖掘实体的类息源挖掘实体的类 别、类别之间的层别、类别之间的层 次化关系,构成词次化关系,构成词 汇语义网。汇语义网。 大词林对

45、“篮球”的检索结果和图示 50 openKG.cn 中文开放知识图谱计划 中文开放知识图谱联盟旨在通过建设开放的社区来促进中文知识中文开放知识图谱联盟旨在通过建设开放的社区来促进中文知识 图谱数据的开放与互联,促进中文知识图谱工具的标准化和技术图谱数据的开放与互联,促进中文知识图谱工具的标准化和技术 普及。普及。 51 小结 至此,我们介绍了目前典型的知识图谱。 现代知识图谱由于要满足规模化需求,大多降低了对逻辑 表达能力的要求,以三元组作为知识表现形式。 这并不是说,我们现在不需要逻辑推理能力,而是经过近 年来的发展,越来越多的证据显示,简单的大规模三元组 配合可计算模型,同样可以在若干智能

46、任务上取得好的成 绩。 52 进入互联网时代后,知识图谱从形式上回归“弱语义”的三元组进入互联网时代后,知识图谱从形式上回归“弱语义”的三元组 表示形式,目的就是要实现知识的自动获取,自动构建。从而实表示形式,目的就是要实现知识的自动获取,自动构建。从而实 现大规模知识图谱。现大规模知识图谱。 此外,有了知识图谱,如何使用?用在什么地方?这都是新阶段此外,有了知识图谱,如何使用?用在什么地方?这都是新阶段 出现的新问题,必然催生一批新的技术。出现的新问题,必然催生一批新的技术。 本节课我们一起来综述一下知识图谱的技术和应用。我们的重点本节课我们一起来综述一下知识图谱的技术和应用。我们的重点 放

47、在讲解问题的来龙去脉。放在讲解问题的来龙去脉。 54 知识图谱技术概况 在现阶段,知识图谱技术大在现阶段,知识图谱技术大 致可以分为三类:致可以分为三类: 知识图谱的构建技术知识图谱的构建技术 知识图谱的推理技术知识图谱的推理技术 知识图谱的应用技术知识图谱的应用技术 知识图谱 技术 知识图谱构建技术 知识图谱推理技术 知识图谱应用 如何自动构建知识图谱 如何能够快速推理答案 如何在实际问题中应用 55 知识图谱构建技术 首先第一个问题,知识图谱的构建。首先第一个问题,知识图谱的构建。 我们知道,现代知识图谱通常以RDF三元组形式表示知识,如:我们知道,现代知识图谱通常以RDF三元组形式表示知

48、识,如: (Beijing,capital_of, China)分别称为(头实体,关系,(Beijing,capital_of, China)分别称为(头实体,关系, 尾实体)尾实体) 假设我们已经有了一个大规模的文本库,比如wikipeida的文本假设我们已经有了一个大规模的文本库,比如wikipeida的文本 库。那我们的任务,就是要依据该文本,自动挖掘三元组,建设库。那我们的任务,就是要依据该文本,自动挖掘三元组,建设 知识图谱。这个过程涉及到三个问题:知识图谱。这个过程涉及到三个问题: 实体识别问题:如何获取文本中实体?如何判断同义实体?实体识别问题:如何获取文本中实体?如何判断同义实

49、体? 实体关系学习:如何获取两个实体之间的关系?实体关系学习:如何获取两个实体之间的关系? 事件学习:如何获取特定事件中多个实体之间的关系?事件学习:如何获取特定事件中多个实体之间的关系? 56 知识图谱 技术 知识图谱构建技术 知识图谱推理技术 知识图谱应用 如何自动构建知识图谱 如何能够快速推理答案 如何在实际问题中应用 实体识别与链接 实体关系学习 事件学习 57 知识图谱构建技术:实体识别 实体是文本中承载信息的语言单位,文本的语义可以表述为实体及这些实体相 互之间的关联。 例如:例如:“26日下午,一架叙利亚空军L-39教练机在哈马省被HTS使用的肩携“26日下午,一架叙利亚空军L-39教练机在哈马省被HTS使用的肩携 式防空导弹击落”式防空导弹击落” 这段文本中,包含下面的实体: 时间实体“26号下午”,时间实体“26号下午”, 机构

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁