《信息抽取及其应用.演示教学.ppt》由会员分享,可在线阅读,更多相关《信息抽取及其应用.演示教学.ppt(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、信息抽取及其应用信息抽取及其应用.一、信息抽取概述o信息抽取(信息抽取(Information Extraction:IE)是指)是指从一段文本中抽取指定的一类信息从一段文本中抽取指定的一类信息(例如事件、例如事件、事实事实),井将其形成结构化的表示形式,井将其形成结构化的表示形式(比如数比如数据库等据库等),以供用户查询使用的过程。,以供用户查询使用的过程。o它是把文本里包含的信息进行结构化处理,变它是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信是原始文本,输出的是固定格式的信息点
2、。信息点从各种各样的文档中被抽取出来,然后以息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。统一的形式集成在一起。http:/ Understanding conference,MUC)和自动内容抽取评测会议(Automatic Content Extraction,ACE)对推动信息抽取技术的发展起到重要作用。MUC由美国海军情报部门提出举行,主要目的也是处理大量海军军事情报,从1987年开始到1998年,MUC会议共举行了七届。ACE是由美国国家标准技术研究所(NIST)组织召开,该会议2001年5月首次举办,到2007年已经举办7次会议。http:/www-nlpir.ni
3、st.gov/related_projects/muc/http:/gate.ac.uk/http:/gate.ac.uk/download/index.html邓尚民,孙玉伟.国内外信息抽取研究的义献计量分析.图书情报工作,2006(12):92-94,108二、Web信息抽取Web信息抽取就是从信息抽取就是从Web页面所包含的无结构或半结构的页面所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为结构和语信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式义更为清晰的格式(XML、关系数据、面向对象的数据、关系数据、面向对象的数据等等)。整个抽取过程的工作过程主要包
4、括了如下几个步骤整个抽取过程的工作过程主要包括了如下几个步骤:将将Web网页进行预处理。网页进行预处理。用一组信息模式描述所需要抽取的信息。用一组信息模式描述所需要抽取的信息。对文本进行合理的词法、句法及语义分析。对文本进行合理的词法、句法及语义分析。使用模式匹配方法识别指定的信息模式的各个部分。使用模式匹配方法识别指定的信息模式的各个部分。进行上下文分析和推理,确定信息的最终形式。进行上下文分析和推理,确定信息的最终形式。将结果输出成结构化的描述形式以便由网络集成系统将结果输出成结构化的描述形式以便由网络集成系统进行查询分析。进行查询分析。Web信息抽取的中心包装器oWeb信息抽取工作主要由
5、包装器信息抽取工作主要由包装器(Wrapper)来完来完成。成。o包装器是一种软件过程,这个过程使用已经定义包装器是一种软件过程,这个过程使用已经定义好的信息抽取规则,将网络爬虫搜集到的好的信息抽取规则,将网络爬虫搜集到的Web页页面的信息数据抽取出来,转换为用特定的格式描面的信息数据抽取出来,转换为用特定的格式描述的信息。述的信息。o一个包装器被认为是一个程序或是理解某一具体一个包装器被认为是一个程序或是理解某一具体信息源的一种规则,并把信息转化为较为规则的信息源的一种规则,并把信息转化为较为规则的格式,如格式,如XML或关系表格。包装器是特定的对某或关系表格。包装器是特定的对某一个给定的网
6、站,紧密地与抽取的网页结构和标一个给定的网站,紧密地与抽取的网页结构和标记语言相联系的。包装器最具挑战性的方面就是记语言相联系的。包装器最具挑战性的方面就是能从许多不相关的文本中识别所要抽取的信息。能从许多不相关的文本中识别所要抽取的信息。研究内容oWeb信息抽取原理与方法n基于本体的信息抽取n基于位置的信息抽取oWeb信息抽取模型n基于归纳学习的信息抽取n基于ontology的信息抽取n基于HMM(隐马尔可夫模型)的信息抽取研究内容(续)oWeb信息抽取技术n模糊字符匹配技术n信息树技术n二相取样技术oWeb信息抽取的评价n信息抽取结果的评价n信息抽取系统的性能评价(信息抽取任务的难易程度、
7、系统所使用的技术、系统的自动程度)应用实例oAmorphic系统系统nAmorphic系统是一个集成了基于位置信息抽取、基系统是一个集成了基于位置信息抽取、基于本体的信息抽取和包装器能修复的特性的信息抽于本体的信息抽取和包装器能修复的特性的信息抽取系统。它能在学习领域知识和网页结构的基础取系统。它能在学习领域知识和网页结构的基础_卜定位感兴趣的数据,能自动地生成一个包装器,卜定位感兴趣的数据,能自动地生成一个包装器,能探测到网页结构的变化,然后能在了解变化的基能探测到网页结构的变化,然后能在了解变化的基础上获取想要的信息。础上获取想要的信息。oLixto系统系统nLixto系统能生成包装器将系
8、统能生成包装器将html转换为转换为xml格式,通格式,通过提供完全可视和交互的界面,利用侧向外延生长过提供完全可视和交互的界面,利用侧向外延生长法,半自动地帮助用户产生包装器。它提供两种基法,半自动地帮助用户产生包装器。它提供两种基本的数据抽取规则,字符抽取和信息树抽取。本的数据抽取规则,字符抽取和信息树抽取。郑彦宁,邓擘.信息抽取技术在情报学中的应用分析.情报理论与实践,2008(5):769-772o目前信息抽取的关键技术主要有实体识别、实体关系目前信息抽取的关键技术主要有实体识别、实体关系识别和事件模板构造识别和事件模板构造3个方面。个方面。n实体识别技术:实体是指在现实世界中具体或抽
9、实体识别技术:实体是指在现实世界中具体或抽象的对象,而识别出这些对象在文本中的表达形象的对象,而识别出这些对象在文本中的表达形式则为实体识别技术。在该技术中不仅要识别并式则为实体识别技术。在该技术中不仅要识别并标注出一般的命名实体,如人名、地名、机构名、标注出一般的命名实体,如人名、地名、机构名、产品名称等,还包括一些对实体解释性的描述以产品名称等,还包括一些对实体解释性的描述以及指代实体的代词等,有时在具体应用中有关时及指代实体的代词等,有时在具体应用中有关时间和数量表达式也被作为实体来识别间和数量表达式也被作为实体来识别。实体识别实体识别的方法主要分为基于统计与基于规则的方法。的方法主要分
10、为基于统计与基于规则的方法。信息抽取技术o实体关系识别技术实体关系识别技术n实体关系识别技术是识别句子中出现的成对实体间实体关系识别技术是识别句子中出现的成对实体间的关系。例如当句子中出现一个人名和一个组织实的关系。例如当句子中出现一个人名和一个组织实体名称时,那么这个人与组织之间是何种关系需要体名称时,那么这个人与组织之间是何种关系需要辨别辨别;当出现机构名称和地名时,这两者之间又具有当出现机构名称和地名时,这两者之间又具有何种关系何种关系;如果出现两个人名时,这两人之间具有何如果出现两个人名时,这两人之间具有何种社会关系等。种社会关系等。n在在ACE评测中,对这些关系进行了归纳,把所有关系
11、划评测中,对这些关系进行了归纳,把所有关系划分为角色关系、部分与整体的关系、位置关系、方位关分为角色关系、部分与整体的关系、位置关系、方位关系和社会关系这系和社会关系这5个基本类型。个基本类型。n在实体关系识别方面也有两种技术路线,一种是使用规在实体关系识别方面也有两种技术路线,一种是使用规则的方法,主要是基于模式匹配技术则的方法,主要是基于模式匹配技术;另一种是统计的方另一种是统计的方法,主要基于机器学习的技术。法,主要基于机器学习的技术。信息抽取技术o事件模板构造技术事件模板构造技术n在对具体领域内事件或事实进行抽取时,主要根据在对具体领域内事件或事实进行抽取时,主要根据事件的组成要素来定
12、义事件描述模板事件的组成要素来定义事件描述模板(Event Description Template)。事件描述模板是一个对事件。事件描述模板是一个对事件的要素进行综合概括的有组织的表达结构,它描述的要素进行综合概括的有组织的表达结构,它描述了需要抽取的概念及其相互关系,这些概念与关系了需要抽取的概念及其相互关系,这些概念与关系能够完整地描述事件。例如在公司发布新产品事件能够完整地描述事件。例如在公司发布新产品事件中,它一般需要包括公司名、产品名、发布时问、中,它一般需要包括公司名、产品名、发布时问、产品性能等一些事件要素。产品性能等一些事件要素。三、信息抽取的应用o信息抽取的信息搜集信息抽取
13、的信息搜集n使用信息抽取技术,按照预设的领域,对网页使用信息抽取技术,按照预设的领域,对网页等信息进行抽取,并自动组织成具有相关性的等信息进行抽取,并自动组织成具有相关性的整体数据,这些数据在保存到数据库后就可以整体数据,这些数据在保存到数据库后就可以形成所预设领域的比较全面的信息。例如跨语形成所预设领域的比较全面的信息。例如跨语言的信息抽取系统言的信息抽取系统TREE。如两种应用于分子生。如两种应用于分子生物学的信息抽取系统:物学的信息抽取系统:EMPathIE和和PASTA,分,分别从生物学期刊中抽取有关酶、新陈代谢方式别从生物学期刊中抽取有关酶、新陈代谢方式和蛋白质结构的信息和蛋白质结构
14、的信息。信息抽取的应用(续)oIE的信息组织n信息抽取技术从文本内容中抽取预先指定的实体和信息抽取技术从文本内容中抽取预先指定的实体和关系即信息片段,所抽取的信息片段从一个角度反关系即信息片段,所抽取的信息片段从一个角度反映了文本内容的内在特征,由于这些抽取的信息片映了文本内容的内在特征,由于这些抽取的信息片段是同类的,因此,本质上是通过这些同类信息片段是同类的,因此,本质上是通过这些同类信息片段对文本进行了组织,这种组织方法的价值在于这段对文本进行了组织,这种组织方法的价值在于这些信息片段是结构化信息,因此它可以作为知识服些信息片段是结构化信息,因此它可以作为知识服务技术的前端和基础,可以进
15、一步使用机器方法从务技术的前端和基础,可以进一步使用机器方法从中发现知识、挖掘知识,这就对人们寻找知识和利中发现知识、挖掘知识,这就对人们寻找知识和利用知识提供了有力的支持。用知识提供了有力的支持。信息抽取的应用(续)o信息检索与信息抽取信息检索与信息抽取nIE在应用中的主要目标是如何将用户需要的信在应用中的主要目标是如何将用户需要的信息从各种文本中提取出来并进行有效的组织,息从各种文本中提取出来并进行有效的组织,然后生成简洁明了的事件列表,从而提高信息然后生成简洁明了的事件列表,从而提高信息相关性,用户可以直接阅读抽取出的事件内容,相关性,用户可以直接阅读抽取出的事件内容,而不需要先阅读整篇
16、文献以进一步判断是否相而不需要先阅读整篇文献以进一步判断是否相关,当需要阅读整篇文献时再去详细阅读,用关,当需要阅读整篇文献时再去详细阅读,用户可节省阅读时间。户可节省阅读时间。刘鲁红,刘力强,胡亚军.信息抽取技术在数字图书馆中的应用研究.情报理论与实践,2005(3):321-324o信息抽取概念与技术简介信息抽取概念与技术简介:信息抽取概念、信息抽取与信息抽取概念、信息抽取与信息检索、信息抽取的类型、信息抽取的过程与方法。信息检索、信息抽取的类型、信息抽取的过程与方法。o信息抽取在数字图书馆中的应用信息抽取在数字图书馆中的应用n构建模板挖掘平台:自动建立数字文献的引文构建模板挖掘平台:自动
17、建立数字文献的引文数据库、自动抽取电子期刊新闻条目信息、自数据库、自动抽取电子期刊新闻条目信息、自动识别用于研究的资金动识别用于研究的资金/赞助机构、利用元数据赞助机构、利用元数据和模板挖掘进行信息抽取。和模板挖掘进行信息抽取。信息抽取在数字图书馆中的应用信息抽取在数字图书馆中的应用o构建情报自动搜集平台信息抽取在数字图书馆中的应用信息抽取在数字图书馆中的应用o构建问题解答系统信息抽取在数字图书馆中的应用信息抽取在数字图书馆中的应用o构建图书馆大型知识库、数值库余丰,朱东华.信息抽取技术在竞争情报研究中的应用.情报杂志,2006(3):25-26.29黄永文黄永文.信息抽取在竟争情报中的应用研
18、究信息抽取在竟争情报中的应用研究.图书情报工作图书情报工作,2006.50(11):17-20.90,2006.50(11):17-20.90o信息抽取的特点与类型信息抽取的特点与类型o信息抽取在信息抽取在CI中的应用中的应用o基于信息抽取技术的基于信息抽取技术的CI系统体系架构系统体系架构o国外基于信息抽取技术的国外基于信息抽取技术的CI系统的分析研究系统的分析研究n标准化和组件化标准化和组件化n不断扩大信息抽取的范围不断扩大信息抽取的范围n更加注重深层次的信息组织和加工更加注重深层次的信息组织和加工n利用智能技术提高自动化的程度利用智能技术提高自动化的程度n与特定领域相结合与特定领域相结合n运用各种相关技术,提高抽取的效果运用各种相关技术,提高抽取的效果结束结束