第十章自然语言理解课件.ppt

上传人:石*** 文档编号:49690416 上传时间:2022-10-09 格式:PPT 页数:60 大小:3.58MB
返回 下载 相关 举报
第十章自然语言理解课件.ppt_第1页
第1页 / 共60页
第十章自然语言理解课件.ppt_第2页
第2页 / 共60页
点击查看更多>>
资源描述

《第十章自然语言理解课件.ppt》由会员分享,可在线阅读,更多相关《第十章自然语言理解课件.ppt(60页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第十章自然语言理解第1页,此课件共60页哦10.1 自然语言理解概述语言理解概述什什么么是是语语言言和和语语言言理理解解?自自然然语语言言理理解解与与人人类类的的哪哪些些智智能能有有关关?自自然然语语言言理理解解的的系系统统如如何何组组成成?等等等等。这这些些问问题题是是我我们们开开始始研研究究自自然然语语言言理解时感兴趣的。理解时感兴趣的。10.1.1 语言和语言理解语语言言是是用用于于传传递递信信息息的的表表示示方方法法、约约定定和和规规则则的的集集合合,它它由由语语句句组组成成,每每个个语语句句又又由由单单词词组组成成;组组成成语语句句和和语语言言时时,应应遵遵循循一一定定的的语语法法与

2、与语语义义规规则则。如如果果没没有有各各种种口口语语和和书书面面语语,如如英英语语、华华语语、法法语语和和德德语语等等,人人类类之之间间思思想想、感感情情和和技技术术交交流流就就难难以以想想象象。语语言言是是随随着着人人类社会和人类自身的发展而不断进化的。类社会和人类自身的发展而不断进化的。研究自然语言理解,必须对自然语言构成有基本认识。研究自然语言理解,必须对自然语言构成有基本认识。第2页,此课件共60页哦语语言言是是音音义义结结合合的的词词汇汇和和语语法法体体系系,是是实实现现思思维维活活动动的的物物质质形形式式。语语言言是是一一个个符符号号体体系系,但但与与其其他他符符号号体体系系又又有

3、所区别。有所区别。语语言言是是以以词词为为基基本本单单位位的的,词词汇汇又又受受到到语语法法的的支支配配才才可可构构成成有有意意义义的的句句子子,句句子子按按一一定定的的形形式式再再构构成成篇篇章章等等。词词汇汇又又可可分分为为词词和和熟熟语语。熟熟语语就就是是一一些些词词的的固固定定组组合合,如如汉汉语语中中的的成成语语。词词又又由由词词素素构构成成,“教教师师”是是由由“教教”和和“师师”这这两两个个词词素素所所构构成成的的。词词素素是是构构成成词词的的最最小小的的有有意意义义的的单单位位。“教教”这这个个词词素素本本身身有有教教育育和和指指导导的的意意义义,“师师”则包含了则包含了“人人

4、”的意义。的意义。第3页,此课件共60页哦语语法法是是语语言言的的组组织织规规律律。语语法法规规则则制制约约着着如如何何把把词词素素构构成成词词,词词构构成成词词组组和和句句子子。语语言言正正是是在在这这种种严严密密的的制制约约关关系系中中构构成成的的。用用词词素素构构成成词词的的规规则则叫叫构构词词法法,如如教教+师师教教师师。一一个个词词又又有有不不同同的的词词形形、单单数数、复复数数、阴阴性性、阳阳性性等等等等。这这种种构构造造词词形形的的规规则则称称为为构构形形法法,如如教教师师+们们教教师师们们。这这里里只只是是在在原原来来的的词词后后面面加加上上一一个个复复数数意意义义的的词词素素

5、,所所构构成成的的并并不不是是一一个个新新的的词词,而而是同一词的复数形式。是同一词的复数形式。构形法和构词法称为词法构形法和构词法称为词法。第4页,此课件共60页哦语语法法中中的的另另一一部部分分就就是是句句法法。句句法法也也可可分分成成两两部部分分:词词组组构构造造法法和和造造句句法法。词词组组构构造造法法是是词词搭搭配配成成词词组组的的规规则则,如如红红+铅铅笔笔红红铅铅笔笔。这这里里“红红”是是一一个个修修饰饰铅铅笔笔的的形形容容词词,它它与与名名词词“铅铅笔笔”组组合合成成了了一一个个新新的的名名词词。造造句句法法则则是是用用词词或或词词组组造造句句的的规规则则,“我我是是计计算算机

6、机科科学学系系的的学学生生”,这这是是按按照照汉汉语语造造句句法法构构造造的的句子。下图就是上述语法构造的一个完整的图解。句子。下图就是上述语法构造的一个完整的图解。另另一一方方面面,语语言言是是音音义义结结合合的的,每每个个词词汇汇有有其其语语音音形形式式。一一个个词词的的发发音音由由一一个个或或多多个个音音节节组组合合而而成成,音音节节又又由由音音素素构构成成,音音素素分分为为元元音音音音素素和和辅辅音音音音素素。音音素素是是指指一一个个发发音音动动作作所所构构成成的的最小的语音单位最小的语音单位。第5页,此课件共60页哦 语言语言 词汇词汇语法语法 词词熟语熟语词法词法句法句法词素词素构

7、词法构词法 词组构词组构 造法造法造句法造句法构形法构形法语言的构成图第6页,此课件共60页哦从从微微观观上上讲讲,语语言言理理解解是是指指从从自自然然语语言言到到计计算算机机系系统统内内部部之之间间的的一一种种映映射射。从从宏宏观观上上看看,语语言言理理解解是是指指机机器器能能够够执执行行人人类类所所期望的某些语言功能。这些功能包括:期望的某些语言功能。这些功能包括:(1)(1)回答有关提问;回答有关提问;(2)(2)提取材料摘要;提取材料摘要;(3)(3)文本释义;文本释义;(4)(4)不同语言翻译。不同语言翻译。自自然然语语言言理理解解是是语语言言学学、逻逻辑辑学学、生生理理学学、心心理

8、理学学、计计算算机机科科学学和和数数学学等等相相关关学学科科发发展展和和结结合合而而形形成成的的一一门门交交叉叉学学科科;它它能能够够理理解解口头语言口头语言或或书面语言书面语言。语言交流实际上是一种基于知识的通信。语言交流实际上是一种基于知识的通信。第7页,此课件共60页哦对对自自然然语语言言的的理理解解是是一一个个十十分分艰艰难难的的任任务务,即即使使建建立立一一个个只只能能理理解解片片言言断断语语的的计计算算机机系系统统,也也是是很很不不容容易易的的。这这中中间间有有大大量量的的极极为为复复杂杂的的编编码码和和解解码码问问题题。一一个个能能够够理理解解自自然然语语言言的的计计算算机机系系

9、统统就就像像一一个个人人那那样样需需要要上上下下文文知知识识以以及及根根据据这这些些知知识识和和信信息息进进行行推推理理的的过过程程。自自然然语语言言不不仅仅有有语语义义、语语法法和和语语音音问问题题,而而且且还还存存在在模模糊糊性性等等问问题题。具具体体地地说说,自自然然语语言言理理解解的的困困难难是是由由下下列列3 3个个因因素素引引起起的:的:(1)(1)目标表示的复杂性;目标表示的复杂性;(2)(2)映射类型的多样性;映射类型的多样性;(3)(3)源表达中各元素间交互程度的差异性。源表达中各元素间交互程度的差异性。第8页,此课件共60页哦第9页,此课件共60页哦第10页,此课件共60页

10、哦第11页,此课件共60页哦第12页,此课件共60页哦10.1.4 自然语言理解研究的进展机器翻译是自然语言理解最早的研究领域机器翻译是自然语言理解最早的研究领域。70年代初期,年代初期,语言理解对话系统的研究语言理解对话系统的研究取得进展。伍兹的取得进展。伍兹的LUNAR系统、威诺甘德的系统、威诺甘德的SHRDLU系统和香农的系统和香农的MARGIE系统等是系统等是语语言理解对话系统言理解对话系统的典型实例。的典型实例。新型的智能计算机要求设计出更为友好的人机界面,使自然语言、文新型的智能计算机要求设计出更为友好的人机界面,使自然语言、文字、图象和声音等信号能直接输入计算机。字、图象和声音等

11、信号能直接输入计算机。口语理解研究促进人机对话系统走向实用化口语理解研究促进人机对话系统走向实用化。自然语言是表示知识最自然语言是表示知识最为直接的方法。因此,自然语言理解的研究也为专家系统的知识获取提为直接的方法。因此,自然语言理解的研究也为专家系统的知识获取提供了新的途径。供了新的途径。此外,自然语言理解的研究已促进计算机辅助语言教学此外,自然语言理解的研究已促进计算机辅助语言教学(CALI)和和计算机语言设计计算机语言设计(CLD)等的发展。等的发展。第13页,此课件共60页哦10.1.5 自然语言理解过程的层次语语言言虽虽然然表表示示成成一一连连串串的的文文字字符符号号或或者者一一串串

12、声声音音流流,但但其其内内部部事事实实上上是是一一个个层层次次化化的的结结构构,从从语语言言的的构构成成中中就就可可以以清清楚楚的的看看到到这这种种层层次次性性。一一个个文文字字表表达达的的句句子子是是由由词词素素词词或或词词形形词词组组或或句句子子,而而用用声声音音表表达达的的句句子子则则是是由由音音素素音音节节音音词词音音句句,其其中中每每个个层层次次都都是是受受到到语语法法规规则则的的制制约约。因因此此,语语言言的的分分析析和和理理解解过过程程也也应应当当是是一一个个层层次次化化的的过过程程。许许多多现现代代语语言言学学家家把把这这一一过过程程分分为为5 5个个层层次次:语语音音分分析析

13、、词词法法分分析析、句句法法分分析析和和语语义义分分析析和和语语用用分分析析。虽虽然然这这种种层层次次之之间间并并非非是是完完全全隔隔离离的的,但但是是这这种种层层次次化化的的划划分分的的确确有有助助于于更好地体现语言本身的构成。更好地体现语言本身的构成。第14页,此课件共60页哦1 1、语音分析、语音分析在在有有声声语语言言中中,最最小小可可独独立立的的声声音音单单元元是是音音素素,音音素素是是一一个个或或一一组组音音,它它可可与与其其他他音音素素相相区区别别。语语音音分分析析则则是是根根据据音音位位规规则则,从从语语音音流流中中区区分分出出一一个个个个独独立立的的音音素素,再再根根据据音音

14、位位形形态态规规则则找找出出一一个个个个音音节节及及其其对对应应的的词词素或词素或词。2 2、词法分析、词法分析其其主主要要目目的的是是找找出出词词汇汇的的各各个个词词素素。如如unchangeableunchangeable是是由由un-un-change-ablechange-able构构成成的的。在在英英语语语语言言中中,找找出出句句子子中中的的词词汇汇是是一一件件很很容容易易的的事事,因因为为词词与与词词之之间间是是由由空空格格来来分分隔隔的的。但但要要找找出出各各个个词词素素就就复复杂杂得得多多,如如importableimportable,它它可可以以是是im-port-ablei

15、m-port-able或或improt-ableimprot-able。而而在在汉汉语语中中要要找找出出一一个个个个词词素素则则是是很很容容易易的的,每每个个字字就就是是一一个个词词素素。但但要要切切分分出出各各个个词词就就远远不不是是那那么么容容易易。如如“我我们们研研究究所所有有东东西西”,可可以以是是“我我们们研研究究所所有有东西东西”也可以是也可以是“我们我们研究研究所有所有东西东西”。第15页,此课件共60页哦3 3、句法分析、句法分析是是对对句句子子和和短短语语的的结结构构进进行行分分析析。自自动动句句法法分分析析的的方方法法很很多多,有有短短语语结结构构语语法法、格格语语法法、扩

16、扩充充转转移移网网络络、功功能能语语法法等等等等。句句法法分分析析的的目目的的就就是是找找出出词词、短短语语等等的的相相互互关关系系以以及及各各自自在在句句子子中中的的作作用用等等,并并以以一一种种层层次次结结构构来来加加以以表表达达。这这种种层层次次结结构构可可为为反反映映从从属属关关系系,直直接接成成分分关关系系,也也可可是语法功能关系。是语法功能关系。4 4、语义分析、语义分析通通过过分分析析找找出出词词义义、结结构构意意义义及及其其结结合合意意义义,从从而而确确定定语语言言所所表表达达的的真真正正含含义义或或概概念念。在在语语言言自自动动理理解解中中,语语义义愈愈来来愈愈成成为为一一个

17、个重重要要的的研研究究内容。内容。5 5、语用分析、语用分析研研究究所所在在外外界界环环境境对对语语言言使使用用所所产产生生的的影影响响。描描述述了了语语言言的的环环境境知知识识、语言与语言使用者在某个给定语言环境中的关系。语言与语言使用者在某个给定语言环境中的关系。第16页,此课件共60页哦词词法法分分析析的的主主要要目目的的是是从从句句子子中中切切分分出出单单词词,找找出出词词汇汇的的各各个个词词素素,从中获得单词的语言学信息并确定单词的词义。从中获得单词的语言学信息并确定单词的词义。不不同同的的语语言言对对词词法法分分析析有有不不同同的的要要求求,例例如如英英语语和和汉汉语语就就有有较较

18、大大的的差差别别。汉汉语语中中每每个个字字就就是是一一个个词词素素,找找出出各各个个词词素素相相当当容容易易,但但要要切切分分出出各各个个词词就就非非常常困困难难。在在英英语语中中单单词词之之间间用用空空格格自自然然分分开开,很很容容易易找找出出句句子子的的每每个个词词汇汇,但但英英语语单单词词有有词词性性、数数、时时态态、派派生生、变变形形等等,要要找出各个词素就复杂得多。找出各个词素就复杂得多。例例如如program可可变变化化出出programming,programmable,programmed,programs和和programmer等等。如如果果把把某某些些词词素素的的派派生生、

19、变变形形、数数、时时态态等等变变化化都都收收入入词词典典将将是是非非常常庞庞大大,但但它它们们的的词词根根只只有有一一个个。支支持持词词素素分分析析,可以极大地压缩自然语言理解系统中电子词典的规模。可以极大地压缩自然语言理解系统中电子词典的规模。第17页,此课件共60页哦第18页,此课件共60页哦 10.3 句法分析句法分析句法分析目的就是找出词、短语等的相互关系以及各自在句子中目的就是找出词、短语等的相互关系以及各自在句子中的作用,并以一种层次结构来加以表达的作用,并以一种层次结构来加以表达。下面介绍基于规则的句法分。下面介绍基于规则的句法分析方法:析方法:第19页,此课件共60页哦一一部部

20、短短语语结结构构语语法法定定义义的的语语言言L(G)就就是是从从起起始始符符S推推导导出出终终结结符符号号串串W的的集集合合,是是由由一一系系列列产产生生式式规规则则组组成成的的。下下面面给给出出一一个个简简单单的的短短语语结结构构语语法。法。例例10.1 G=(T,N,S,P)T=the,man,killed,a,deer,likes N=S,NP,VP,N,ART,V,Prep,PP S=S P:(1)SNP+VP (2)NP N (3)NP ART+N (4)VP V (5)VP V+NP (6)ART the|a (7)N man|deer (8)V killed|likes第20页,

21、此课件共60页哦10.3.3 句法模式匹配和转移网络 句句法法分分析析最最为为简简单单、直直观观的的方方法法也也许许就就是是模模式式匹匹配配。句句法法模模式式匹匹配配就就是是采采用用句句法法模模式式来来对对语语言言的的句句子子进进行行匹匹配配从从而而进进行行的的句句法法分分析析。例例如如:bears bears love love honeyhoney可可用用句句法法模模式式noun+verb+nounnoun+verb+noun来来匹匹配配;句句子子的的 主主 语语 有有 许许 多多 模模 式式nounnoun,adj.+nounadj.+noun,adj.+adj.+nounadj.+ad

22、j.+noun,adj.+adj.+adj+nounadj.+adj.+adj+noun,,对对此此可可采采用用形形式式化化的的表表达达方方式式(adj.*nounadj.*noun),其中其中*表示可有可无且可重复出现。一个句子可以表示成:表示可有可无且可重复出现。一个句子可以表示成:(pronounpronoun(adj.*nounadj.*noun)verbverb(pronounpronoun(adj.*nounadj.*noun)第21页,此课件共60页哦转移网络(TN)q0nounpron.q2q1adjq3qTverbverbpron.nounq4q5adj但但是是自自然然语语言

23、言是是非非常常多多样样化化的的,因因而而需需要要有有许许多多模模式式。这这些些模模式式可可用用状状态态转转移移图图来来表表示示,这这种种用用状状态态转转移移图图来来表表示示的的表表达达方方式式称称之之为为转转移移网网络络(TNTN,transition transition networknetwork)。如如下下图图所所示示,图图中中,q q0 0,q,q1 1,,q qT T是是状状态态,q q0 0是是初初态态,q qT T是是终终态态。弧弧上上给给出出了了状状态态转转移移的的条条件件以以及及转转移的方向移的方向。该网络可用于分析句子也可用于生成句子。该网络可用于分析句子也可用于生成句子

24、。第22页,此课件共60页哦用用TNTN来来识识别别句句子子The The little little orange orange ducks ducks swallow swallow flies flies 的的过过程程如表如表10.110.1。(这里忽略了词法分析,网络如图所示)。(这里忽略了词法分析,网络如图所示)表表 10.1 10.1 句子识别过程句子识别过程 第23页,此课件共60页哦识识别别过过程程到到达达f f状状态态(终终态态),所所以以该该句句子子被被成成功功地地识识别别了了。分分析析结结果果如如下下图图所所示示。从从上上述述过过程程中中可可以以看看出出,这这个个句句子子

25、还还可可以以在在网网络络中中走走其其他他弧弧,如如词词ducksducks也也可可以以走走弧弧,但但接接下下来来的的swallowswallow就就找找不不到到合合适适的的弧弧了了。此此时时对对应应于于这这个个路路径径,该该句句子子就就被被拒拒识识了了。由由此此看看出出,网网络络识识别别的的过过程程中中应应找找出出各各种种可可能能的的路路径径,因因此此算算法法要要采采用用并行或回溯机制。并行或回溯机制。转移网络实例图转移网络实例图第24页,此课件共60页哦1.1.并行算法并行算法并并行行算算法法的的关关键键是是在在任任何何一一个个状状态态都都要要选选择择所所有有可可以以到到达达下下一一个个状状

26、态态的弧,同时进行试验。的弧,同时进行试验。2.2.回溯算法回溯算法 回回溯溯算算法法则则是是在在所所有有可可以以通通过过的的弧弧中中选选出出一一条条往往下下走走,并并保保留留其其他他的的可能性,以便必要时可回过来选择之。这种方式需要一个堆栈结构。可能性,以便必要时可回过来选择之。这种方式需要一个堆栈结构。转移网络实例图转移网络实例图第25页,此课件共60页哦10.3.4 扩充转移网络 扩扩充充转转移移网网络络ATNATN是是由由伍伍兹兹(Woods)(Woods)在在19701970年年提提出出的的,之之后后卡卡普普兰兰(Kaplan)Kaplan)等等人人对对其其作作了了一一些些改改进进。

27、ATNATN是是由由一一组组网网络络所所构构成成的的,每每个个网网络络都都有有一一个个网网络络名名,每每条条弧弧上上的的条条件件扩扩展展为为条条件件加加上上操操作作。这这种种条条件件和和操操作作采采用用寄寄存存器器的的方方法法来来实实现现,在在分分析析树树的的各各个个成成分分结结构构上上都都放放上上寄寄存存器器,用用来来存存放放句句法法功功能能和和句句法法特特征征,条条件件和和操操作作将将对对它它们们不不断断地地进进行行访访问问和和设设置置。ATNATN弧弧上上的的标标记记也也可可以以是是其其他他网网络络的的标标记记名名,因因此此ATNATN是是一一种种递递归归网网络络(任任何何一一个个网网络

28、络都都可可以以调调用用包包括括它它自自己己在在内内的的任任何何其其他他网网络络)。在在ATNATN中中还还有有一一种种空空弧弧jumpjump,它它不不对对应应一个句法成分也不对应一个输入词汇。一个句法成分也不对应一个输入词汇。第26页,此课件共60页哦ATNATN的的每每个个寄寄存存器器由由两两部部分分构构成成:句句法法特特征征寄寄存存器器和和句句法法功功能能寄寄存存器器。在在特特征征寄寄存存器器中中,每每一一维维特特征征都都有有一一个个特特征征名名和和一一组组特特征征值值,以以及及一一个个缺缺省省值值来来表表示示。如如“数数”的的特特征征维维可可有有两两个个特特征征值值“单单数数”和和“复

29、复数数”,缺缺省省值值可可以以是是空空值值。英英语语中中动动词词的的形形式式可可以以用用一一维维特征特征来表示:来表示:FormForm:present,past,present-participle,past-present,past,present-participle,past-participle.Default:present.participle.Default:present.功能寄存器则反映了句法成分之间的关系和功能功能寄存器则反映了句法成分之间的关系和功能。分分析析树树的的每每个个节节点点都都有有一一个个寄寄存存器器,寄寄存存器器的的上上半半部部分分是是特特征征寄寄存存器器,

30、下下半半部部分分是是功功能能寄寄存存器器。图图10.510.5所所示示是是一一个个简简单单的的名名词短语词短语(NP)(NP)的扩充转移网络,的扩充转移网络,网络中弧上的条件和操作网络中弧上的条件和操作如下:如下:第27页,此课件共60页哦NP-1NP-1:f g f g A:Number *.NumberNP-4NP-4:g h g h C C:Number=*.Number or Number=*.Number or A A:Number Number *.Number NP-5NP-5:f hf h A A:Number Number *.NumberNP-6:f hf h A A:Nu

31、mber=*.NumberNumber=*.Number ghfNP7:pp8:send3:adj4:noun2:jump1:det5:pron.6:prop.名词短语(NP)的扩充转移网络第28页,此课件共60页哦该该网网络络主主要要是是用用来来检检查查NPNP中中的的数数的的一一致致值值问问题题。其其中中用用到到的的特特征征是是Number(Number(数数),它它有有两两个个值值Singular(Singular(单单数数)和和plural(plural(复复数数),缺缺省省值值是是(空空)。C C是是弧弧上上的的条条件件,A A是是弧弧上上的的操操作作,*是是当当前前词词,prope

32、rproper是是专专用用名名词词,DetDet是是限限定定词词,PPPP是是介介词词短短语语,*.Number.Number当当前前词词的的“数数”。该该扩扩充充转转移移网络有一个网络名网络有一个网络名NPNP。弧弧NP-1NP-1将将当当前前词词的的NumberNumber放放入入当当前前NPNP的的NumberNumber中中,而而弧弧NP-4NP-4则则要要求求当当前前nounnoun的的NumberNumber与与NPNP的的NumberNumber是是相相同同时时,或或者者NPNP的的NumberNumber为为空空时时,将将nounnoun作作为为NPNP的的NumberNumb

33、er,这这就就要要求求detdet的的数数和和nounnoun的的数数是是一一致致的的。因因此此,this this bookbook,the the bookbook,the the booksbooks,these these booksbooks都都可可顺顺利利通通过过这这一一网网络络,但但是是this this booksbooks,或或these these bookbook就就无无法法通通过过。如如果果当当前前NPNP是是一一个个代代词词(Pron.)(Pron.)或或者者专专用用名名词词(Proper)(Proper),则则网网络络就就从从NP-5NP-5或或NP-6NP-6通通

34、过过,这这时时NPNP的的数数就就是是代代词词或或专专用用名名词词的的数数。PPPP是是修修饰饰前前面面名名词词的的介介词词短短语语,一一旦旦到到达达PPPP弧就马上转入子网络弧就马上转入子网络PPPP。第29页,此课件共60页哦S S网络中所涉及的功能名和特征维包括:网络中所涉及的功能名和特征维包括:功功能能名名:Subject(Subject(主主语语),Direct Direct ObjObj(直直接接宾宾语语),Main-VerbMain-Verb(谓语动词),(谓语动词),AuxsAuxs(助动词),(助动词),ModifiersModifiers(修饰语)(修饰语)。VoiceVo

35、ice(语语态态)特特征征维维:ActiveActive(主主动动态态),PassivePassive(被被动动态态),缺缺省值是省值是ActireActire;TypeType(动动词词类类型型):Be,Do,Have,Modal,Non-Aux,Be,Do,Have,Modal,Non-Aux,缺缺省省值值是是Non-AuxNon-Aux;FormForm(动动词词式式):InfInf(不不定定式式),PresentPresent(现现在在式式),PastPast(过过去去式式),pres-partpres-part(现现在在分分词词),Past-Part(Past-Part(过过去去分分

36、词词),缺缺省省值值是是PresentPresent下下图图是是一一个个句句子子的的ATNATN,主主要要用用来来识识别别主主、被被动动态态的的句句子子,从从中中可以看到功能寄存器的应用可以看到功能寄存器的应用 第30页,此课件共60页哦网络描述如下网络描述如下:S-1S-1:a ba bA A:Subject *.Subject *.S-2S-2:b cb cA A:Main-Verb *.Main-Verb *.S-3S-3:c cc c(判断谓词动词类型)(判断谓词动词类型)C C:Main-Verb.Type=BeMain-Verb.Type=Be,DoDo,Have or Modal

37、Have or ModalA A:Auxs=Main-VerbAuxs=Main-Verb,Main-VerbMain-Verb*.S-4S-4:c d c d C C:*.Form=Past-part and Main-Verb.Type=Be.Form=Past-part and Main-Verb.Type=BeA A:VoicePassiveVoicePassive,Auxs=Main-Verb,Auxs=Main-Verb,Main-Verb*.,*.Direct-ObjSubject,Main-Verb*.,*.Direct-ObjSubject,Subjectdummy-NPSu

38、bjectdummy-NP(形式主语,可能暂时为空节点)(形式主语,可能暂时为空节点)第31页,此课件共60页哦S-5:c dS-5:c d A A:Direct-Obj *.Direct-Obj *.S-6:d dS-6:d d A A:Modifiers=*.Modifiers=*.S-7S-7:d dd d C C:Voice=Passive and Subject=dummy-NP and*.Prep=“by”Voice=Passive and Subject=dummy-NP and*.Prep=“by”A A:Subject *.Prep-ObjectSubject *.Prep-

39、ObjectS-8S-8:d No Conditions,actions or initializations.d No Conditions,actions or initializations.S-8S-8是赋值操作是赋值操作 Subject Subject *即即把把当当前前成成分分放放入入名名为为SubjectSubject的的功功能能寄寄存存器器。=是是一一种种添添加加操操作作,Auxs=Auxs=Main-VerbMain-Verb就就是是将将当当前前的的谓谓语语动动词词添添加加到到AuxsAuxs功功能能寄寄存器中存器中(原来原来AuxsAuxs可能已有内容可能已有内容)。第32

40、页,此课件共60页哦S S网络中,当弧网络中,当弧S-2S-2遇到第一个动词时,就把它置入遇到第一个动词时,就把它置入Main-VerbMain-Verb,但是在接下来的弧但是在接下来的弧S-3S-3中发现中发现Main-VerbMain-Verb中刚才被置入的是助动词,中刚才被置入的是助动词,网络操作就把网络操作就把Main-VerbMain-Verb中的内容添加到中的内容添加到AuxsAuxs寄存器的尾部。若寄存器的尾部。若AuxsAuxs是空时,添加操作与赋值是相同的,但是当是空时,添加操作与赋值是相同的,但是当AuxsAuxs非空时非空时(有几个有几个助动词助动词)这是一个添加操作。这

41、是一个添加操作。另另外外,网网络络中中有有一一种种dummydummy节节点点,这这是是一一种种空空节节点点,用用来来表表示示一一种种形形式式上上的的或或者者预预示示的的成成分分,如如形形式式上上的的主主语语等等。弧弧S-4S-4和和S-7S-7就就是是对对于于被被动动态态句句子子的的分分析析和和处处理理。弧弧S-4S-4主主要要是是识识别别被被动动态态的的谓谓语语动动词词,一一旦旦确确认认是是被被动动态态,则则将将当当前前的的主主语语作作为为直直接接宾宾语语,弧弧S-7S-7是是处处理理被被动态句子中动态句子中byby所引导的介词短语,该介词的宾语就是实际上的主语。所引导的介词短语,该介词的

42、宾语就是实际上的主语。第33页,此课件共60页哦一一完完整整的的ATNATN是是相相当当复复杂杂的的,在在实实现现过过程程中中还还必必须须解解决决许许多多问问题题,如如非非确确定定性性分分析析、弧弧的的顺顺序序、等等等等。ATNATN方方法法在在自自然然语语言言理理解解的的研研究究中中得得到到了广泛的应用了广泛的应用。10.3.5 词汇功能语法(LFG)词词汇汇功功能能语语法法是是由由卡卡普普兰兰和和布布鲁鲁斯斯南南在在19821982年年提提出出的的,它它是是一一种种功功能能语语法法,但但是是更更加加强强调调词词汇汇的的作作用用。LFGLFG用用一一种种结结构构来来表表达达特特征征、功功能能

43、、词词汇汇和和成成分分的的顺顺序序。ATNATN语语法法和和转转换换语语法法都都是是有有方方向向性性的的,ATNATN语语法法的的条条件件和和操操作作要要求求语语法法的的使使用用是是有有方方向向的的,因因为为寄寄存存器器只只有有在在被被设设置置过过之之后后才才可可被被访访问问。LFGLFG的的一一个个重重要要工工作作就就是是通通过过互互不不矛矛盾盾的多层描述来消除这种有序性限制的多层描述来消除这种有序性限制。第34页,此课件共60页哦LFGLFG对对 句句 子子 的的 描描 述述 分分 为为 两两 部部 分分:直直 接接 成成 分分 结结 构构(Constituent(Constituent

44、structure)structure)和和功功能能结结构构(Functional(Functional structure)structure)。C-structureC-structure是是由由上上下下文文无无关关语语法法产产生生的的表表层层分分析析结结果果,结结点点采采用用名名词词短短语语标标记记来来标标注注。通通过过附附加加到到语语法法规规则则和和词词条条定定义义上上的的功功能能方方程程式式经经过过一一系系列列代代数数变变换换产产生生F-F-structurestructure。LFGLFG采采用用两两种种规规则则:加加入入下下标标的的上上下下文文无无关关的的语语法法规规则则和和词词

45、条条信信息息。下下表给出了一些词汇功能语法的规则和词条信息。表给出了一些词汇功能语法的规则和词条信息。其其中中表表示示规规则则左左侧侧的的那那个个结结点点,如如规规则则中中NPNP的的就就是是S S,VPVP的的也也是是S S;则则表表示示当当前前结结点点结结点点本本身身。因因此此,(Subject)=(Subject)=就就表表示示S S的的主主语语是是当当前前NPNP。方方程程式式=说说明明VPVP的的全全部部属属性性都都应应转转移移给给支支配配它它的的S S结结点点。“”中中表表达达的的是是句句法法模模式式,Hand=Hand=(Subject),(Object)(Subject),(O

46、bject),(Object-2)(Object-2),表表示示谓谓语语动动词词handhand要要有有一一个个主主语语、一一个个直直接接宾宾语语和和一一个间接宾语。个间接宾语。例如,对于句子:例如,对于句子:A girl handed the baby the toys.A girl handed the baby the toys.第35页,此课件共60页哦LFGLFG语法规则与词条语法规则与词条语法规则语法规则第36页,此课件共60页哦首首先先利利用用句句法法规规则则可可以以推推导导出出它它的的C-structureC-structure直直接接成成分分结结构构如下图所示如下图所示:句句

47、法法树树中中带带标标号号的的非非叶叶结结点点,用用具具体体的的变变量量x xi i替替代代,并并建建立立功功能能描描述述方方程程。方方程程的的建建立立只只要要将将语语法法规规则则和和词词条条规规则则中中的的用用父父节节点点变变量量来替代来替代,用当前节点变量来代替即可用当前节点变量来代替即可。第37页,此课件共60页哦规则规则SNP VPSNP VP的下标有两组方程:的下标有两组方程:一个是一个是(Subject)=(Subject)=,替换得到,替换得到(x(x1 1Subject)=xSubject)=x2 2;另一个是另一个是=,即,即x x1 1=x=x3 3。在词汇规则中,词在词汇规

48、则中,词a a对应了两条规则对应了两条规则(Definiteness)=Indefinite(Definiteness)=Indefinite,(Number)=Singular(Number)=Singular,词词a a的父节点是的父节点是NPNP,即,即x x2 2,所以得到方程式,所以得到方程式(x(x2 2Definiteness)=Indefinite,(xDefiniteness)=Indefinite,(x2 2Number)=SingularNumber)=Singular其他功能描述方程如下表所示:其他功能描述方程如下表所示:第38页,此课件共60页哦上上述述方方程程式式通

49、通过过合合并并和和变变量量替替代代求求得得这这个个方方程程组组的的解解,获获得得的的解解即句子的功能结构(即句子的功能结构(F-structureF-structure),如下图所示。),如下图所示。第39页,此课件共60页哦上上述述过过程程如如果果能能够够得得到到一一组组以以上上解解,则则句句子子就就是是可可识识别别的的,并并获获得得一一个个以以上上分分析析结结果果。分分析析获获得得多多个个解解则则说明原句子中存在着歧义现象,无解则说明无法识别说明原句子中存在着歧义现象,无解则说明无法识别。LFGLFG同同样样也也可可以以用用于于句句子子的的生生成成。分分析析和和生生成成的的区区别别仅仅在在

50、于于第第一一步步,分分析析是是由由句句子子到到C-structure,C-structure,而而生生成成则则是是由由上上下下文文无无关关语语法法直直接接产产生生C-structureC-structure和和句句子子。同同样样如如果果通通过过求解最终可有一个以上的解,则该句子就是正确的。求解最终可有一个以上的解,则该句子就是正确的。第40页,此课件共60页哦句句子子一一般般有有简简单单句句和和复复合合句句之之分分。简简单单句句的的理理解解比比复复合合句句要要容容易易,又又是是理理解解复复合合句句的的基基础础。因因此此,我我们们首首先先讨讨论论简简单单句句的的理理解解,然然后后讨讨论论复复合句

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁