文化交流-淘文阁

资源描述

《知识图谱的数据来源、挖掘及更新维护,搜索引擎论文.docx》由会员分享，可在线阅读，更多相关《知识图谱的数据来源、挖掘及更新维护,搜索引擎论文.docx（7页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、知识图谱的数据来源、挖掘及更新维护,搜索引擎论文2001 年维基媒体基金开创建立了维基百科，访问量排名世界第六，2020 年 12 月到 2020 年 12 月期间，它损伤了近 10%即20 亿的页面访问量，华而不实英文版、德语版和日语版的阅读量分别下降了 12%、17%和 9%.固然维基百科的管理员以为这华而不实可能存在统计错误，但是其他专家以为是去年 Google推出的知识图谱功能导致了维基百科访问量下降。假如问题能在搜索页解决，那么就没必要去维基百科查找了。随着近两年，Linking Open Data 等项目的全面展开，数量激增的语义 Web 数据源，大量 RDF 数据发布，互联网从仅

2、包含网页和网页之间超链接的文档万维网转变成包含大量描绘叙述各种实体和实体之间丰富关系的数据万维网。谷歌、百度、搜狗搜索引擎公司以此为基础构建知识图谱，改良搜索质量，语义搜索的序幕就此拉开。什么是知识图谱？知识图谱的表示在搜索中的展现形式，知识图谱怎样构建，怎样在搜索中应用？知识图谱是谷歌在 2018 年收购的开放式数据库公司Metaweb 率先提出来的。知识图谱也被称为科学知识图谱，它是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方式方法与计量学引文分析、共现分析等方式方法结合，并利用可视化的图谱形象地展示学科的核心构造、发展历史、前沿领域以及整体知识架构到达多学科融合目的

3、的当代理论。知识图谱把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制展示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。搜索引擎中的知识图谱技术是以知识卡片 KnowledgeCard 的形式展现出来的。在搜索本文本文关键词语语时，知识卡片会为用户提供更多与本文本文关键词语语相关的构造化内容信息，也就是讲能够将搜索结果进行知识系统化，任何一个本文本文关键词语语都能获得完好的知识体系。比方搜索帕金森综合症是一种什么病，传统的搜索结果里面会有一些诸如 XX 近期得了帕金森综合症的新闻，或者是网友发帖提问帕金森综合症到底是什么帖子，又或者是一些治疗帕金森医院

4、的信息或广告，其实你逐一阅读这些网站对了解这个疾病帮助不大，这就大大降低了你获得知识的效率。知识图谱技术应用到搜索引擎中后，当搜索帕金森综合症后，点击下方出现的知识图谱，图谱上面会呈现有关帕金森综合症的权威信息，例如帕金森综合症的异常感觉和状态、易感人群、治疗方式方法，这就保证了获得知识的效率。固然各大搜索引擎在知识卡片的排版和内容展现上略有不同，但都能罗列出帕金森综合症的定义、疾病介绍、诊断重点、异常感觉和状态表现等。除此之外，各大搜索引擎还将搜索关键字其他用户还搜索了什么或其他与搜索关键字相关的信息展现出来，这样用户就能够方便快速的查询到自个想要了解的信息。各搜索引擎在其知

5、识卡片中展示相关图片，还展示了搜索本文本文关键词语语特有的专题搜索，百科、新闻、图片、贴吧、视频等，基本包容了用户基本需求。有的搜索引擎还会罗列出其他可能相关的查询目的对象。一、知识图谱的构建韩剧(来自星星的你日前火遍整个网络，该剧相关本文本文关键词语语一度雄霸各大搜索榜、话题榜。用百度搜索都教授 ,在搜索结果页面的右侧会出现金秀贤、都敏俊、全智贤，甚至李敏镐等相关度极高的搜索对象。这就是知识图谱技术应用到搜索引擎预知判定用户最有可能的信息需求。简单来讲，知识图谱技术就是一个不断完善计算机知识库的经过，进而帮助计算机能够理解人类的语言沟通形式。当下，知识图谱技术主要在百度搜索页面的右侧有所具

6、体表现出，在用户点击搜索键之后，百度会在呈现本文本文关键词语语搜索页面的同时，于右侧栏目向用户推荐与本文本文关键词语语相关的词条。同时，百度还会通过分析海量的搜索数据发现用户搜索习惯，并据此对搜索结果进行持续优化。知识图谱是面向全球的，相对于百度和搜狗主要针对中文搜索推出知识图谱，其知识库中的知识也主要以中文来描绘叙述，其规模略小于谷歌的。二、知识图谱的数据来源知识图谱为了提高搜索质量，提供例如对话搜索或复杂的问答搜索等新的搜索体验，不仅要包含大量高质量的常识性知识，还要能及时发现并添加新的知识。这样一来知识图谱通过收集来自百科类站点和各种垂直站点的构造化数据覆盖大部分常识性知识。百科类站点比

7、拟有名的是维基百科，中文有百度百科。另一方面知识图谱通过从各种半构造化数据中抽取相关实体的属性来丰富实体的描绘叙述。通过搜索日志发现新的实体或新的实体属性，进而不断扩展知识图谱的覆盖率。前者收集来的数据质量高但更新速度慢，后者质量较差但更新速度快。后者通过互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度，并通过人工审核参加到知识图谱中。这里不得不提到 Freebase,它是另一个重要的百科类数据源。它的开发公司是在 2018 年被谷歌收购的 MetaWeb 公司。Freebase 作为开放的知识管理平台独立运行，所以百度和是搜狗也将 Freebase 参加到其知识图谱中。Fre

8、ebase 不同于维基百科编辑各种词条，以文章的形式展现，需要通过事先制定的规则来抽取知识。Freebase 直接编辑知识，包括实体及其包含的属性和关系，以及实体所属的类型等构造化信息，因而，不需要通过任何抽取规则即可获得高质量的知识。三、知识图谱的挖掘挖掘知识图谱是为了增加图谱的知识覆盖率。基于知识图谱的重要挖掘技术有推理 Reasoning 或 Inference 、实体重要性排序、相关实体挖掘。知识图谱上的规则一般牵涉两大类，一是针对属性的，也就是通过数值计算来获取其属性值。另一类是针对关系的，也就是通过链式规则发现实体间的隐含关系。推理功能就是通过这些可扩展的规则引擎来完成的。实体重要

9、性排序能够理解为用户查询中提到的实体被搜索引擎辨别，然后通过知识卡片展现该实体的构造化内容内容摘要。当查询牵涉多个实体时，搜索引擎将选择与查询更相关并且更重要的实体来展示。实体的重要性是通过 Pag-eRank 算法计算出来的，由于不同的实体和语义关系的流行程度以及抽取的置信度均不同，而这些因素将影响实体重要性的最终计算结果，因而，各大搜索引擎公司嵌入这些因从来刻画实体和语义关系的初始重要性。相关实体是在一样查询现的实体或在同一个查询会话中被提到的其他实体称为相关实体。一个常用的做法是将这些查询或会话看做是虚拟文档，将华而不实出现的实体看作是文档中的词条，使用主题模型发现虚拟文档集中的主题分布

10、。一个或多个实体构成一个主题，同一主题中的实体互为相关实体。搜索引擎分析用户输入的查询主题分布，选出相关主题，并将其别人还搜了也就是与该主题相关的其他知识卡片所展现的实体展现出来。四、知识图谱的更新和维护知识图谱的更新与维护是由专业团队来操作的。搜索引擎公司通过自动化算法，从各种数据源中抽取新的类型信息，这些信息能够被长期保存的，发展到一定程度就由专业人员进行决策和命名并最终成为一种新的类型 Type ,有的可能今天保存第二天就被删除了。参加到知识图谱中的数据也不是一成不变的，搜索引擎公司利用其强大的计算通常保证图谱天天的更新都能在 3 小时内完成，时事热门、重大事件在发生 6 小时内在搜索结果中反响出来。知识图谱的更新和维护除了搜索引擎公司的专业团队，还能够依靠用户来帮助改善图谱。比拟有名 PX 词条被篡改为剧毒清华化工系学生还击事件就是用户修改图谱的典型案例。详细来讲就是用户对搜索结果中展现的知识卡片所列出的实体相关的事实进行纠错，当一定数量的用户都指出某一错误时，搜索引擎将采纳并修正。总之，知识图谱的构建是多学科的结合，需要知识库、自然语言理解，机器学习和数据挖掘等多方面知识的融合。当下，知识图谱技术还处于初期阶段，很多开放性的问题还需要学术界和业界一起解决，相信随着构造化数据的发展更新，更复杂的自然语言查询的崭露头角，各方的努力将会极大地促进知识图谱的发展。

展开阅读全文