第八章自然语言理解课件.ppt-淘文阁

资源描述

《第八章自然语言理解课件.ppt》由会员分享，可在线阅读，更多相关《第八章自然语言理解课件.ppt（81页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、人工智能人工智能Artificial Intelligence自然语言理解自然语言理解本章主要内容自然语言理解的一般问题自然语言理解的一般问题词法分析词法分析句法分析句法分析语义分析语义分析大规模真实文本的处理大规模真实文本的处理 Web信息抽取自然语言理解的一般问题自然语言理解的一般问题(1)(1)自然语言自然语言自然语言：人类交流的语言自然语言：人类交流的语言,口语、书面语、手语、口语、书面语、手语、旗语等旗语等人造语言：机器语言，包括人造语言：机器语言，包括C+,BASICC+,BASIC等等世界语世界语到目前为止的人类知识有到目前为止的人类知识有80%80%以上使用自然语言文

2、字记载下来的。但以上使用自然语言文字记载下来的。但将来，可能用计算机语言形式记载的知识将会越来越多。因此说，将来，可能用计算机语言形式记载的知识将会越来越多。因此说，语言信息处理技术和每年所处理的信息总量已成为衡量一个国家现语言信息处理技术和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。代化水平的重要标志之一。相比较人工智能其它领域，自然语言理解是难度大，进展小的。至相比较人工智能其它领域，自然语言理解是难度大，进展小的。至今为止未能达到很高的水平。今为止未能达到很高的水平。自然语言理解的一般问题自然语言理解的一般问题(2)2)什么是“自然语言理解”？与“智能”一样，存在各种

3、各样的理解和解释。利用计算机对自然语言进行理解自然语言“理解”的准则：给计算机输入一段自然语言文本，如果计算机能问答(question-answering)机器能正确地回答输入文本中的有关问题；文摘生成(summarizing)机器有能力产生输入文本的摘要；释义(paraphrase)机器用不同的词语和语句复述输入文本；翻译(translation)机器把一种语言(源语言)翻译为另一种语言(目标语言)自然语言理解的一般问题自然语言理解的一般问题(3)3)自然语言理解自然语言理解自然语言理解是语言信息处理技术的一个高层次的重要自然语言理解是语言信息处理技术的一个高层次的重要方向。是人工智能

4、领域关注的核心问题之一。方向。是人工智能领域关注的核心问题之一。自然语言理解的困难原因：自然语言理解的困难原因：目标表示的复杂性目标表示的复杂性映射类型的多样性映射类型的多样性源表示中各元素间交互程度的差异性源表示中各元素间交互程度的差异性自然语言理解的一般问题自然语言理解的一般问题(4)4)语言学的研究语言学的研究自然语言理解是哲学自然语言理解是哲学(philosophy)philosophy)，语言学语言学(linguistics),linguistics),语言心理学语言心理学(psycholinguistics),psycholinguistics),认知科学认知科学(cogniti

5、ve cognitive science),science),计算机科学计算机科学(computer science)computer science)，数学数学(mathematics)mathematics)，逻辑学逻辑学(logic)logic)及相关学科发展和结合而及相关学科发展和结合而形成的一门交叉学科。形成的一门交叉学科。自然语言理解的一般问题自然语言理解的一般问题(5)5)语言学的研究语言学的研究语语言言学学家家：只只关关心心词词组组成成短短语语，短短语语组组成成句句子子，句句法法如如何何。即即语语言言理论理论哲学家：词怎么能表示万物万事。如何用词来描述。哲学家：词怎么能表示万物

6、万事。如何用词来描述。心理学家：语言产生的机制，人怎么能理解句子的意思。神经网络。心理学家：语言产生的机制，人怎么能理解句子的意思。神经网络。计计算算语语言言学学家家：用用数数据据结结构构、数数学学模模型型把把哲哲学学、心心理理学学、语语言言学学等等语语言言分分科科的的知知识识进进行行表表示示，用用恰恰当当的的算算法法识识别别句句子子的的结结构构，完完成成自自然语言相关的各项任务。然语言相关的各项任务。自然语言理解的一般问题自然语言理解的一般问题(6)6)语言学的研究理解的层次语言学的研究理解的层次语音分析：找出最小可独立的声音单元语音分析：找出最小可独立的声音单元-音素音素词词法法分分析析：

7、找找出出词词汇汇的的各各个个词词素素（词词根根），从从中中获获得得语语言学信息言学信息例：我们研究所有东西例：我们研究所有东西;把手放在桌上把手放在桌上我们我们-研究所研究所-有有-东西东西（交叉歧义）（交叉歧义）我们我们-研究研究-所有所有-东西东西把把-手手-放在放在-桌上桌上（组合歧义）（组合歧义）把手把手-放在放在-桌上桌上自然语言理解的一般问题自然语言理解的一般问题(7)7)语言学的研究理解的层次语言学的研究理解的层次句句法法分分析析：对对句句子子和和短短语语的的结结构构进进行行分分析析，找找出出词词、短短语语等等的的相相互互关关系系以以及及各各自自在在句句子子中中的的作作用用等等。

8、在在语语言言自自动动处处理理的的研研究究中中，句句法法分分析析的的研研究究是是最最为为集集中中的的，这这与与乔乔姆姆斯斯基基（ChomskyChomsky）的的贡贡献献是是分分不不开开的的。主主要要方方法法有有：短语结构语法、格语法、扩充转移网络、功能语法等。短语结构语法、格语法、扩充转移网络、功能语法等。语语法法分分析析：将将单单词词之之间间的的线线性性次次序序变变换换成成一一个个显显示示单单词词如何与其它单词相关联的结构。确定语句是否合乎语法如何与其它单词相关联的结构。确定语句是否合乎语法自然语言理解的一般问题自然语言理解的一般问题(8)8)语言学的研究理解的层次语言学的研究理解的层次语语

9、义义分分析析：通通过过分分析析找找出出词词义义，结结构构意意义义及及其其结结合合意意义义，从从而而确确定定语语言言所所表表达达的的真真正正（实实际际）含含义义或或概概念念。在在语语言言自自动动理理解解中中，语语义义越来越成为一个重要的研究内容。（尤其是对话系统）越来越成为一个重要的研究内容。（尤其是对话系统）你打我你打我我打你我打你语语用用分分析析：研研究究语语言言所所在在的的外外界界环环境境对对语语言言使使用用所所产产生生的的影影响响。描描述述语语言言的的环环境境知知识识、语语言言与与语语言言使使用用者者在在某某个个给给定定语语言言环环境境中中的的关关系。为确定真正含义，对表达的结构重新加以

10、解释。（故宫、一块）系。为确定真正含义，对表达的结构重新加以解释。（故宫、一块）自然语言理解的一般问题自然语言理解的一般问题(9)9)研究目标研究目标建立一个足够精确的语言数学模型使计算机通过编程来建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如：听、读、写、说，释义，完成自然语言的相关任务。如：听、读、写、说，释义，翻译，回答问题等。通过语言索取信息，由此能力则说翻译，回答问题等。通过语言索取信息，由此能力则说明该系统对语言已理解了明该系统对语言已理解了。自然语言理解的一般问题自然语言理解的一般问题(10)10)自然语言的层次划分及对应技术自然语言的层次划分及对应

11、技术理论理论层次结构层次结构实现技术实现技术模板匹配、基于规则模板匹配、基于规则语音语音模式匹配模式匹配基于词素、词汇基于词素、词汇词汇词汇词典结构词典结构转换生成、词汇功能语法转换生成、词汇功能语法语法语法扩扩展展转转移移网网络络(ATN),CFATN),CF规则规则格语法、语义基元理论、模型理论格语法、语义基元理论、模型理论语义语义产产生生式式规规则则、概概念念相相依依理理论论、脚脚本本、框框架架、语义网络、逻辑语义网络、逻辑基于记忆的推理、语言行为理论、基于记忆的推理、语言行为理论、篇章语法篇章语法语用语用自然语言理解的一般问题自然语言理解的一般问题(11)11)应用应用机

12、器翻译或机器辅助翻译。机器翻译或机器辅助翻译。文本理解：将输入文本转换成某种数据库格式。文本理解：将输入文本转换成某种数据库格式。文文本本生生成成：根根据据用用户户需需要要以以某某种种自自然然语语言言的的方方式式输输出出储储存存在在计计算算机机内内的各种信息。的各种信息。自自然然语语言言接接口口：人人类类直直接接用用自自然然语语言言与与数数据据库库、专专家家系系统统等等进进行行人人机机交互。交互。自然语言理解的一般问题自然语言理解的一般问题(12)12)应用应用网网络络方方面面：信信息息检检索索（information information retrievalretrieval）

13、,提提出出（extractionextraction）,过过滤滤（filteringfiltering）,分分类类（classificationclassification），汇汇总总（summarizationsummarization）等等如如：网网上上信信息息检检索索，电电子子图图书书馆馆（digital digital librarylibrary）,电电子子商商务务（e-commercee-commerce）等等例：例：和服和服|务务|于三日后裁制完毕。于三日后裁制完毕。(kimonomust)这个酒店的设施这个酒店的设施|和和|服务服务|是一流的。是一流的。(andservic

14、e)未登录词未登录词(unknownwordprocessing):如：高如：高海燕海燕(stormpetrel)自然语言理解的一般问题自然语言理解的一般问题(13)13)自然语言理解的研究大体上经历了三个时期萌芽时期萌芽时期发展时期发展时期早期:60年代以关键词匹配为主流中期:70年代以句法语义分析为主流近期:80年代以来开始走向实用化和工程化大规模真实文本处理时期大规模真实文本处理时期比较成功的系统处理都是受限的自然语言子集句法受限：句子结构的复杂性方面受到限制语义受限/领域受限：所表达的事物的数量方面受到限制自然语言理解的一般问题自然语言理解的一般问题(14)14)60年代以关键

15、词匹配为主流特点：没有真正意义上的语法分析，主要依靠关键词匹配技术来识别输入句子的意义在系统中事先存放了大量包含某些关键词的模式，每个模式与一个或多个解释(响应式)相对应。每当输入一个句子，系统便查找与之匹配的模式，一旦匹配成功，系统就输出相应的解释，不考虑其他成分对句子意义的影响是一种近似匹配技术，输入句子可以不准循语法，但是也容易导致错误自然语言理解的一般问题自然语言理解的一般问题(15)15)70年代句法语义分析为主流采用句法-语义分析技术典型例子LUNAR允许用普通英语和数据库对话的人机接口句法分析句法分析语义解释语义解释数据检索数据检索ATN语法语法词典词典语义规则语义规则数据库数

16、据库自然语言理解的一般问题自然语言理解的一般问题(16)16)80年代以来的实用化和工程化主要特点是开始走向实用化和工程化。其重要标志之一是有一批商品化的自然语言人机接口系统和机器翻译系统推向了市场。另一方面，人们已经开始对大规模真实文本进行理解句法语义分析为主的思想来自于规则的方法，而规则不可能把所有的知识表示出来自然语言在数量上浩瀚无际在性质上具有不确定性和模糊性。自然语言理解的一般问题自然语言理解的一般问题(17)17)语料库语言学(corpus linguistics)语言学知识的源泉是大规模活生生的语料，要想让计算机理解自然语言，首先要让计算机能从库存的大规模语料中自动或半自动地获取

17、语言理解所需的各种知识，对语言现象作出客观的、细致的描述。目前采用的主要手段是建立各种统计模型，可用于词类的自动标注，以及句法语义的更高层次的分析。该方法可以和规则方法相互补充。自然语言理解的一般问题自然语言理解的一般问题(18)18)在当今计算技术条件下，要想把处理自然语言所需在当今计算技术条件下，要想把处理自然语言所需要的知识都用现有的知识表示技术明确表达出来，要的知识都用现有的知识表示技术明确表达出来，是不可能的。这既是由于这种知识的是不可能的。这既是由于这种知识的“数量数量”巨大，巨大，有时由于它们在有时由于它们在“质质”的方面高度的不确定性和模的方面高度的不确定性和模糊性。糊性。最近

18、十几年来新提出的语料库语言学，它顺应了大最近十几年来新提出的语料库语言学，它顺应了大规模真实文本处理的需要，提出了以计算机语料库规模真实文本处理的需要，提出了以计算机语料库为基础的语言学研究及自然语言处理的新思想。为基础的语言学研究及自然语言处理的新思想。自然语言理解的一般问题自然语言理解的一般问题(19)19)基于语料库的处理思想能够在工程上、在宽广的语言覆盖基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这一极其艰巨的课题，对传面上解决大规模真实文本处理这一极其艰巨的课题，对传统的处理方法的一个强有了的补充。统的处理方法的一个强有了的补充。新型的智能计算机和多媒

19、体计算机均要求设计出更为友好新型的智能计算机和多媒体计算机均要求设计出更为友好的人机界面，使自然语言、文字、图像和声音等信号都能的人机界面，使自然语言、文字、图像和声音等信号都能直接输入计算机。要求计算机能以自然语言与人进行对话直接输入计算机。要求计算机能以自然语言与人进行对话交流，就需要计算机具有自然语言能力，尤其是口语理解交流，就需要计算机具有自然语言能力，尤其是口语理解和生成能力。和生成能力。自然语言理解的一般问题自然语言理解的一般问题(20)20)发展快的原因：发展快的原因：计算机的发展计算机的发展:高速、统计处理。高速、统计处理。需求需求:机器人能听懂人的话，与人交谈，自动学习。机器

20、人能听懂人的话，与人交谈，自动学习。但但是是，因因为为自自然然语语言言是是开开放放集集，每每天天都都有有新新词词产产生生，用用规规则描述马上可以找出反例。则描述马上可以找出反例。所以，很难。所以，很难。本章主要内容自然语言理解的一般问题自然语言理解的一般问题词法分析词法分析句法分析句法分析语义分析语义分析大规模真实文本的处理大规模真实文本的处理Web信息抽取词法分析词法分析(1)(1)词法分析是理解单词的基础，其主要目的是从句子中切分出单词，找出词汇的各个词素，从中获得单词的语言学信息并确定单词的词义例如unchangeable是由un-change-able构成的，其词义由这三个部

21、分构成。词法分析词法分析(2)2)语言构成语言构成语言词汇语法词熟语句法词素词法构形法构词法词组构造法造句法词法分析词法分析(3)3)在英语等语言中，因为单词之间是以空格自然分开的，切分一个单词很容易，所以找出句子的一个个词汇就很方便。但是由于英语单词有词性、数、时态、派生、变形等变化，要找出各个词素就复杂的多，需要对词尾或词头进行分析。如importable，它可以是im-port-able或import-able，这是因为im、port、able这三个都是词素。汉语中的每个字就是一个词素，所以要找出各个词素是相当容易的，但要切分出各个词就非常困难，不仅需要构词的知识，还需要解决可能遇到的切

22、分歧义。如“我们研究所有东西”。可以是“我们研究所有东西”，也可以是“我们研究所有东西”。本章主要内容自然语言理解的一般问题自然语言理解的一般问题词法分析词法分析句法分析句法分析语义分析语义分析大规模真实文本的处理大规模真实文本的处理Web信息抽取句法分析（1）句法分析的主要任务：确定输入句子的结构：识别句子的各个成分及其之间的关系句子结构的规范化：目的是简化后续处理分析自然语言的方法主要分为两类：基于规则的方法：如短语结构语法和Chomsky语法体系基于统计的方法短语结构语言（1）定义句子：一个符号串语言：句子的集合语法：对一个句集一种有限的形式化描述描述一般语言的方法：识别器：由

23、程序判断读入的符号串是不是一个句子短语结构语法：一种基于产生式的形式化工具，也称为产生式语法短语结构语言（2）定义：短语结构语法定义为：G(T，N，S，P）T是终结符集合，即被定义的语言的所有词汇（或符号）N是非终结符集合，这些符号用于描述语法成分，并不出现于句子中。则有：VTN，TN（空集），V是属于该语法的全部符号。S是起始符号，它是N中的一个成员。P是一个产生式规则集。ab(ab,aV+,bV*)短语结构语言（3）在短语结构语法中，基本运算是把一个符号串重写为另一个符号串，每条语法规则也叫重写规则一个句子的产生就是从S符号到词汇串的推导过程如果一个程序能够根据一个短语结构语法来确定一

24、个句子的推导，则它可称为一个句法分析器(parser)。语法G所定义的语言记为L(G):L(G)=W|WT*,S*GW短语结构语言（4）刻画语言的形式体系的强和弱递归可枚举语言：如果有一个程序，它能以某种顺序逐个地输出（即枚举）一种语言的句子，这种语言是递归可枚举的递归语言：如果有一个程序，它在读入一个符号串后能最终确定这个串是或不是某种语言的一个句子，这称该语言是递归短语结构语言（5）正则语法：正则语法有两种形式：左线性语法：如 A a|Ba 右线性语法：如 A a|aB可以表示如下的句子：a*b*语法例子：S a|S1|a SS1 b|b S1与有限状态机等价短语结构语言（6）上下文无关

25、语法：语法规则形式为：A x 即左边为一非终结符，右边没有限制可以表示的句子如：anbn语法例子：S a|S b S该文法应用于程序设计语言中短语结构语言（7）上下文有关语法：语法规则：规则右边的符号数不能少于左边符号数右边的符号可以是终止符也可以是非终止符上下文有关语言是递归的可以表示的语言：anbncn语法例子：AB BA短语结构语言（8）无约束短语结构语法：语法规则是没有限制的：左边可以是任意多个终止符或非终止符右边可以是任意多个终止符或非终止符该语言是递归可枚举的该语言与图灵机等价语法例子：A B C短语结构语言（9）Chomsky体系无约束语法无约束语法上下文有关语法上下文有关语法上

26、下文无关语法上下文无关语法正则语法正则语法CFG的分析算法（1）用一个短语结构语法对一个句子进行语法分析，意味着寻找一个从起始符到该句子的推导，这个推导一般可以表示为一棵句法树一般一棵句法树对应的推导不是唯一的，但是如果在推导过程中每次总是重写最左边的非终止符，则称该推导为最左推导。Mary Mary Mary eats Mary eats cheeseCFG的分析算法（2）:=:=John|Marry:=:=eats|drinks :=wine|cheeseSENTENCESUBJECTVERBPHRASEVERBOBJECTeatscheeseMaryCFG的分析算法（3）句法分析器分为：

27、从推导方向来分：自顶向下：从树顶的根结点开始推导建立句法树，方向是从起始符S到句子自底向上：从树底部的叶结点(词或词类)规约，建立句法树，方向是从句子到S从算法上分：回溯算法：每次只尝试一种推导，当这种推导失败时便返回以尝试另一种推导并行算法：同时进行所有的推导CFG的分析算法（4）自顶向下的回溯算法该方法逐个地枚举推导直到找到一个能生成句子的推导一般，对具有左递归的语法，该方法需要增加某些测试以避免陷入死循环对于”Mary eats cheese”的句法和推导为：SNP+VP (1)SNP+VP (1)NP N (2)N+VP (2)VP V (3)N+V+NP (4)VP V+NP (4)

28、N+V+N (2)转移网络转移网络（1）转移网络在自动机理论中用来表示语法。句法分析中的转移网络由结点和带有标记的弧组成，结点表示状态，弧对应于符号，基于该符号，可以实现从一个给定的状态转移到另一个状态。Dog bitesDog bites转移网络转移网络（2）扩充转移网络扩充转移网络ATNATNATNATN是是2020世纪世纪7070年代由年代由W.WoodsW.Woods提出来的提出来的ATNATN语法属于一种增强型的上下文无关语法，即用上下文无语法属于一种增强型的上下文无关语法，即用上下文无关文法描述句子文法结构，并同时提供有效的方式将各种关文法描述句子文法结构，并同时提供有效的方式将各

29、种理解语句所需要的知识加到分析系统中，以增强分析功能，理解语句所需要的知识加到分析系统中，以增强分析功能，从而使得应用从而使得应用ATNATN的句法分析程序具有分析上下文有关语言的句法分析程序具有分析上下文有关语言的能力。的能力。ATNATN主要是对转移网络中的弧附加了过程而得到的。当通过主要是对转移网络中的弧附加了过程而得到的。当通过一个弧的时候，附加在该弧上的过程就会被执行。这些过一个弧的时候，附加在该弧上的过程就会被执行。这些过程的主要功能是（程的主要功能是（I I）对文法特征进行赋值；对文法特征进行赋值；(II)II)检查数检查数（numbernumber）或人称（第一、二或三人称）条

30、件是否满足，或人称（第一、二或三人称）条件是否满足，并据此允许或不允许转移。并据此允许或不允许转移。转移网络转移网络（3）表示句子的框架表示句子的框架转移网络转移网络（4）表示句子的框架表示句子的框架转移网络转移网络（4）表示句子的框架表示句子的框架非确定性算法与确定性算法非确定性算法与确定性算法（1）上面介绍的算法是非确定性的，分析过程中常常要进行回溯。上面介绍的算法是非确定性的，分析过程中常常要进行回溯。这就降低了算法的效率。这就降低了算法的效率。实际上，在特定的上下文中，除了某些固有的歧义外，自然语实际上，在特定的上下文中，除了某些固有的歧义外，自然语言的句法分析绝大多数都是确定的。言的

31、句法分析绝大多数都是确定的。1977年年MIT的的Marcus提出了句法分析的确定性提出了句法分析的确定性算法。算法。该算法的最大特点是确保在任何情况下，一旦一个输入句子的该算法的最大特点是确保在任何情况下，一旦一个输入句子的部分结构被分析出来，便不再更改，一直保持到最后成为句子部分结构被分析出来，便不再更改，一直保持到最后成为句子最终分析的一部分。最终分析的一部分。非确定性算法与确定性算法非确定性算法与确定性算法（2）Marcus的确定性算法的确定性算法该句法分析系统具有如下三个特点：该句法分析系统具有如下三个特点：(1)由数据驱动由数据驱动(2)已分析出来的部分结构可以成为对后继分析已分析

32、出来的部分结构可以成为对后继分析过程的预过程的预期期(3)通过通过“向前看向前看”(look-ahead)来代替回溯来代替回溯特点特点(1)和和(2)反映了自底向上和自顶向下分析相结合的策略。反映了自底向上和自顶向下分析相结合的策略。特点特点(3)则是要通过引入句子中的上下文约束来决定分析规则是要通过引入句子中的上下文约束来决定分析规则，保证句法分析器则，保证句法分析器“看准了看准了”以后再操作，从而避免了以后再操作，从而避免了回溯回溯非确定性算法与确定性算法非确定性算法与确定性算法（3）汉语的特点汉语的特点汉语的词类缺乏形式标注汉语的词类缺乏形式标注汉语词类跟句法成分之间不存在简单的一一对应

33、关系汉语词类跟句法成分之间不存在简单的一一对应关系.汉语的句子的构造原则跟短语的构造原则基本一致汉语的句子的构造原则跟短语的构造原则基本一致汉语的这两个特点的表现形式就是普遍存在的词类兼类现象和汉语的这两个特点的表现形式就是普遍存在的词类兼类现象和句法结构的递归嵌套性。这些必然要导致大量的回溯，增加计句法结构的递归嵌套性。这些必然要导致大量的回溯，增加计算的开销算的开销采用确定性分析策略则可以解决这种问题。采用确定性分析策略则可以解决这种问题。本章主要内容自然语言理解的一般问题自然语言理解的一般问题词法分析词法分析句法分析句法分析语义分析语义分析大规模真实文本的处理大规模真实文本的处理

34、Web信息抽取语义分析（1）语义分析的任务：输入句子的句法结构和句子中每个实词的词义推导出能反映该句子意义的某种形式化表示对语义现象作形式化处理要比句法现象困难得多，主要原因有语义和句法系统的界限很难划清楚语义及其他认知系统的界限也难以划清楚。用于计算机语义处理的计算语义学还远未成熟语义分析（2）格文法格语法是格语法是Filmore于于1968年提出来的，曾年提出来的，曾经对自然语言理解经对自然语言理解技术的发展产生过较技术的发展产生过较大的影响，直到现在不少研究仍在使用大的影响，直到现在不少研究仍在使用格语法。因为人们认识到格关系确实是格语法。因为人们认识到格关系确实是描述语言语义描述语言语

35、义(包括和包括和语法的关系语法的关系)的一种很好的形式，当然在实际应用过程中不的一种很好的形式，当然在实际应用过程中不可可避免地要有些修改。避免地要有些修改。语义分析（3）格文法格文法的特点是允许以动词为中心构造分析结果，尽管文法规则只描述句法，但分析结果产生的结构却相应于语义关系，而非严格的句法关系如句子：Mary hit Bill 的格文法分析结果可以表示为 (hit (Agent Mary)(Dative Bill)在格文法中，格表示的语义方面的关系，反映的是句子中包含的思想、观念等，称为深层格。和短语结构语法相比，格文法对于句子的深层语义有着更好的描述。语义分析（3）如果两个句子的底

36、层的语义关系一致，各名词成分所代表的格关系不会发生相应的变化。例如，被动句“Bill was hit by Mary”与上述主动句具有不同的句法分析树，但格表示完全相同。本章主要内容自然语言理解的一般问题自然语言理解的一般问题词法分析词法分析句法分析句法分析语义分析语义分析大规模真实文本的处理大规模真实文本的处理Web信息抽取大规模真实文本的处理（大规模真实文本的处理（1 1）语料库语言学及其特点语料库语言学及其特点传统的句法传统的句法-语义分析技术，所采取的主要研究方法是基于规则的方法语义分析技术，所采取的主要研究方法是基于规则的方法由于自然语言理解的复杂性，各种知识的由于自然语

37、言理解的复杂性，各种知识的“数量数量”浩瀚无际，而且具有高度的浩瀚无际，而且具有高度的不确定性和模糊性，利用规则不可能完全准确地表达理解自然语言所需的各种不确定性和模糊性，利用规则不可能完全准确地表达理解自然语言所需的各种知识，而且，规则实际上面向语言的使用者人的，将它面向机器则分析结果始知识，而且，规则实际上面向语言的使用者人的，将它面向机器则分析结果始终不尽如人意。终不尽如人意。研究语言知识所用的真实文本称为语料，大量的真实文本即构成语料库研究语言知识所用的真实文本称为语料，大量的真实文本即构成语料库大规模真实文本的处理（大规模真实文本的处理（2 2）传统的词典通常是把各类不同的信息放入

38、一个词汇单元中加以解释，包括拼音、读传统的词典通常是把各类不同的信息放入一个词汇单元中加以解释，包括拼音、读音、词形变化及派生词、词根、短语、时态变换的定义及说明、同义词、反义词、音、词形变化及派生词、词根、短语、时态变换的定义及说明、同义词、反义词、特殊用法注释，偶尔还有图示或插图，包含着相当可观的信息存储。但是，它还有特殊用法注释，偶尔还有图示或插图，包含着相当可观的信息存储。但是，它还有一些不足，特别是用在自然语言理解时更显得不够一些不足，特别是用在自然语言理解时更显得不够例如，对于名词例如，对于名词“树树”，传统的词典一般解释为：一种大型的、木制的、多年生长，传统的词典一般解释为：一

39、种大型的、木制的、多年生长的、具有明显树干的植物。基本上是上位词加上辨别特征。但是，这还不够，还缺的、具有明显树干的植物。基本上是上位词加上辨别特征。但是，这还不够，还缺少一些信息少一些信息第一，它没有谈到树有根，有植物纤维壁组成的细胞，甚至也没有提及它们是生命第一，它没有谈到树有根，有植物纤维壁组成的细胞，甚至也没有提及它们是生命的组织形式。但是在的组织形式。但是在WordNetWordNet中，只要查一下它的上位词中，只要查一下它的上位词“植物植物”，就可以找到这，就可以找到这些信息。些信息。第二，树的定义没有包括对等词的信息，不能推测其他种类的植物存在的可能性。第二，树的定义没有包括对

40、等词的信息，不能推测其他种类的植物存在的可能性。第三，对于各种树都感兴趣的读者，除了查遍词典，没有别的办法。第三，对于各种树都感兴趣的读者，除了查遍词典，没有别的办法。第四，每个人对树都有自己的认识，而词典的编撰者又没有将其写在树的定义中。第四，每个人对树都有自己的认识，而词典的编撰者又没有将其写在树的定义中。如树包括树皮、树枝；树由种子生长而成，等等。如树包括树皮、树枝；树由种子生长而成，等等。可以看出，普通词典中遗漏的信息中大部分是关于构造性信息而不是事实性的信息可以看出，普通词典中遗漏的信息中大部分是关于构造性信息而不是事实性的信息大规模真实文本的处理（大规模真实文本的处理（3 3）Wo

41、rdNetWordNet是按一定结构组织起来的义类词典，主要特征表现在是按一定结构组织起来的义类词典，主要特征表现在第一，整个名词组成一个继承关系。第一，整个名词组成一个继承关系。WordNetWordNet有有着着严严格格的的层层次次关关系系，这这样样一一个个单单词词可可以以把把它它所所有有的的前前辈辈的的一一般般性性的的上上位位词词的的信信息息都都继继承承下下来来，可可以以提提供供全全局局性性的的语语义义关关系系，具具有有IS-AIS-A关关系系第二、动词是一个语义网第二、动词是一个语义网动动词词大大概概是是最最难难以以研研究究的的词词汇汇，在在动动词词词词典典中中，很很少少有有真真

42、正正的的同同义义动动词词。表表达达动动词词的的意意义义对对任任何何词词汇汇语语言言学学来来说说都都是是困困难难的的。WordNetWordNet不不做做成成分分分分析析，而而是是进进行行关关系系分分析析。这这一一点点是是计计算算语语言言学学界界所所热热衷衷的的课课题题，与与以以往往的的语语义义分析方法不同。这种关系讨论的是动词间的纵向关系，即词汇蕴涵关系分析方法不同。这种关系讨论的是动词间的纵向关系，即词汇蕴涵关系 WordNetWordNet基基于于名名词词和和动动词词以以及及其其他他词词性性的的关关系系进进行行词词类类间间的的纵纵向向分分析析，在在国国际际计计算算语语言言学学界界有有很很大

43、大的的影影响响。但但是是，它它也也有有不不足足之之处处，如如对对横横向向关关系系还还没没有考虑。有考虑。大规模真实文本的处理（大规模真实文本的处理（4 4）大规模真实文本处理的数学方法主要是统计方法大规模真实文本处理的数学方法主要是统计方法基于语料库的统计模型（如基于语料库的统计模型（如MarkovMarkov模型、向量空间模型）不模型、向量空间模型）不仅能胜任词类的自动标注任务，而且也能够应用到句法和语义仅能胜任词类的自动标注任务，而且也能够应用到句法和语义等更高层次的分析上来。等更高层次的分析上来。大规模真实文本的处理（大规模真实文本的处理（5 5）汉语自动分词汉语自动分词由于汉语句子的

44、最小构成单位是字，有由于汉语句子的最小构成单位是字，有意义的最小单位却是词，意义的最小单位却是词，而汉语词与词而汉语词与词之间又没有分割符号（英语词和词之间之间又没有分割符号（英语词和词之间是空格）是空格）。因此，汉语理解首先要进行。因此，汉语理解首先要进行汉语自动分词。汉语自动分词。可以概括为两大类方法，可以概括为两大类方法，无词典分词，它完全依靠整段文章中汉字之间的搭配的频率算出成词可无词典分词，它完全依靠整段文章中汉字之间的搭配的频率算出成词可能能有词典分词，是一种更有普遍意义的分词方法。有词典分词主要有最大有词典分词，是一种更有普遍意义的分词方法。有词典分词主要有最大匹配法，逆向最大匹

45、配法，逐词遍历匹配法，设立切分标志法，以及正匹配法，逆向最大匹配法，逐词遍历匹配法，设立切分标志法，以及正向最佳匹配和逆向最佳匹配法，而这些方法的一个基本思想都是要依次向最佳匹配和逆向最佳匹配法，而这些方法的一个基本思想都是要依次分出待切分串的可能最长成词分出待切分串的可能最长成词大规模真实文本的处理（大规模真实文本的处理（6 6）基于统计结果的分词算法基于统计结果的分词算法首先，根据汉语词典首先，根据汉语词典(有有56800条词汇条词汇)进进行统计，发现：虽然行统计，发现：虽然词典中的最长词可词典中的最长词可以达到为以达到为20多个字节（十几个汉字），多个字节（十几个汉字），但但是大多数汉语

46、词都可以由前两字唯一是大多数汉语词都可以由前两字唯一确定，这样的词占绝大确定，这样的词占绝大多数多数(如在上述词典中占总词汇量的如在上述词典中占总词汇量的85以上以上)。大规模真实文本的处理（大规模真实文本的处理（7 7）两个首字相同的词的个数的统计两个首字相同的词的个数的统计根据前两字可确定的词个数根据前两字可确定的词个数词总数词总数所占百分比所占百分比()14843185.22228012 9.86351432.71411840.8354650.4063060.3271670.208680.089890.13105100.09142140.05153150.08181180.03大规模真实

47、文本的处理（大规模真实文本的处理（8 8）机械分词机械分词主要是在字典索引的支持下进行的，索引结构可以分为两级。主要是在字典索引的支持下进行的，索引结构可以分为两级。一级索引就用汉字内码，查找算法用散一级索引就用汉字内码，查找算法用散列方法。列方法。而二级索引采用整个词长。而二级索引采用整个词长。大规模真实文本的处理（大规模真实文本的处理（8 8）最最大大匹匹配配法法。最最大大匹匹配配法法简简称称MMMM方方法法。其其思思想想是是：在在计计算算机机磁磁盘盘中中存存放放一一个个分分词词用用词词典典，从从待待切切分分的的文文本本中中按按自自左左到到右右的的顺顺序序截截取取一一个个定定长长的的汉汉字

48、字串串，通通常常为为为为词词典典中中的的最最大大词词长长，这这个个字字符符串串的的长长度度称称作作最最大大词词长长。将将这这个个具具有有最最大大词词长长的的字字符符串串与与词词典典中中的的词词进进行行匹匹配配，若若匹匹配配成成功功，则则可可确确定定这这个个字字符符串串为为词词，计计算算机机程程序序的的指指针针向向后后移移动动与与给给定定最最大大词词长长相相应应个个数数的的汉汉字字，继继续续进进行行匹匹配配；否否则则，把把该该字字符符串串从从右右边边逐逐次次减减去去一一个个汉汉字字，再再与与词典中的词进行匹配，直到成功为止。词典中的词进行匹配，直到成功为止。逆逆向向最最大大匹匹配配法法。逆逆向向

49、最最大大匹匹配配法法简简称称RMMRMM法法。这这种种方方法法的的基基本本原原理理与与MMMM法法相相同同，所所不不同同的的是是分分词词时时对对待待切切分分文文本本的的扫扫描描方方向向。MMMM方方法法从从待待切切分分文文本本中中截截取取字字符符串串的的方方向向是是从从左左到到右右，而而RMMRMM方方法法则则是是从从右右向向左左。在在与与词词典典匹匹配配不不成成功功时时，将将所所截截取取的的汉汉字字串串从从左左至至右右逐逐次次减减去去一一个个汉汉字字，再再与与词词典典中中的的词词进进行行匹匹配配，直直到到匹匹配配成成功功为为上上。实实验验表表明明，RMMRMM法法的的切切词词正正确确率率要要

50、比比MMMM法法高高大规模真实文本的处理（大规模真实文本的处理（9 9）汉语分词的其他难点主要有汉语分词的其他难点主要有分词过程中的歧义问题。歧义字段在中文文本中是普遍存在的，歧义切分分词过程中的歧义问题。歧义字段在中文文本中是普遍存在的，歧义切分是自动分词中不可避免的现象，是自动分词中的一个比较棘手的问题。对是自动分词中不可避免的现象，是自动分词中的一个比较棘手的问题。对歧义字段的处理水平，直接影响着自动分词系统的分词准确率。歧义字段的处理水平，直接影响着自动分词系统的分词准确率。未登录词的识别问题。未登录词是指没有在词典中出现、在汉语文本中又未登录词的识别问题。未登录词是指没有在词典中

展开阅读全文