《自然语言处理优秀PPT.ppt》由会员分享,可在线阅读,更多相关《自然语言处理优秀PPT.ppt(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 自然语言理解自然语言理解8.1 语言及其理解的基本概念语言及其理解的基本概念 8.2 词法分析词法分析 8.3 语法分析语法分析8.4 语义分析语义分析 自然语言是指人类日常沟通所运用的语言。自然语言理解主要自然语言是指人类日常沟通所运用的语言。自然语言理解主要探讨如何使计算机能够理解和生成自然语言。自然语言理解既是探讨如何使计算机能够理解和生成自然语言。自然语言理解既是人工智能探讨较早的一个领域,同时也是现代计算机的一个必备人工智能探讨较早的一个领域,同时也是现代计算机的一个必备特征。特征。18.1 语言及其理解的基本概念语言及其理解的基本概念 自然语言是音义结合的词汇和语法体系。词汇是语
2、言的基本单位,它在语自然语言是音义结合的词汇和语法体系。词汇是语言的基本单位,它在语法的支配下可构成有意义和可理解的句子,句子再按确定的形式构成篇章等。法的支配下可构成有意义和可理解的句子,句子再按确定的形式构成篇章等。其结构如图其结构如图8.1所示:所示:语言词汇语法词熟语词法句法词素构形法构词法词组构造法造句法 词汇词汇是语言的基本单位。是语言的基本单位。熟语熟语是指一些词的固定组合,如汉语中的成语。是指一些词的固定组合,如汉语中的成语。词又由词素构成,词又由词素构成,词素词素是构成词的最小有意义的单位。如是构成词的最小有意义的单位。如“学生学生”是由是由“学学”和和“生生”这两个词素构成
3、的。这两个词素构成的。语法语法是语言的组织规律。是语言的组织规律。词法词法是用词素或熟语构成词的规则,可分为构形是用词素或熟语构成词的规则,可分为构形法和构词法。法和构词法。构形法构形法是指单数复数等。是指单数复数等。造句法造句法是用词和词组构造句子的规则。是用词和词组构造句子的规则。语言词汇语法词熟语词法词素句法构形法构词法词组构造法语言词汇语法词熟语词法词素造句法句法构形法构词法词组构造法语言词汇语法词熟语词法词素2 其主要任务是要找出词汇的各个词素,从中获得语言学信息,并确定单词其主要任务是要找出词汇的各个词素,从中获得语言学信息,并确定单词的词义。以英语为例,其词法分析的基本算法如下:
4、的词义。以英语为例,其词法分析的基本算法如下:repeat look for word in dictionary if not found then modify the word until word is found or no further modification possible其中,其中,word是一个变量,其初始值就是当前词。是一个变量,其初始值就是当前词。例例8.1 用上述算法分析用上述算法分析catches。解:其分析过程如下:解:其分析过程如下:catches 词典中查不到词典中查不到 catche 修改修改1:去掉:去掉s catch 修改修改2:去掉:去掉e 可以看
5、出,在修改可以看出,在修改2时就查到了时就查到了catch。当然,这只是一个很简洁的例子,。当然,这只是一个很简洁的例子,完整的词法分析还应当包括复合词的切分等。完整的词法分析还应当包括复合词的切分等。8.2 词法分析词法分析38.3 句法分析句法分析 句法分析是对句子和短语的结构进行分析,其最大单位是一个句子。分析句法分析是对句子和短语的结构进行分析,其最大单位是一个句子。分析的目的是要找出词、短语等的相互关系,以及他们在句子中的作用等,并用的目的是要找出词、短语等的相互关系,以及他们在句子中的作用等,并用一种层次结构加以表达。这种层次结构可以是句子的成分关系、,也可以是一种层次结构加以表达
6、。这种层次结构可以是句子的成分关系、,也可以是语法功能关系。语法功能关系。8.3.1 句法规则的表示方法句法规则的表示方法8.3.2 自顶向下与自底向上分析自顶向下与自底向上分析48.3.1 句法规则的表示方法句法规则的表示方法句子结构的表示句子结构的表示 一个句子是由各种不同的句子成分组成的。这些成分可以是单词、词组或一个句子是由各种不同的句子成分组成的。这些成分可以是单词、词组或从句。句子成分还可以按其作用分为主语、谓语、宾语、宾语补语、定语、从句。句子成分还可以按其作用分为主语、谓语、宾语、宾语补语、定语、状语、表语等。这种关系可用一棵树来表示,如对句子:状语、表语等。这种关系可用一棵树
7、来表示,如对句子:He wrote a book可用图可用图8.2所示的树形结构来表示所示的树形结构来表示 一个句子又是由若干个词类构成的,如名词、动词、代词、形容词等。若一个句子又是由若干个词类构成的,如名词、动词、代词、形容词等。若从句子的词类来考虑,一个句子也可用一棵树来表示,这种树称为句子的分从句子的词类来考虑,一个句子也可用一棵树来表示,这种树称为句子的分析树,如图析树,如图8.3所示。所示。句子句子主语主语谓语谓语动词动词宾语宾语Hewroteabook句子句子代词代词动词短语动词短语动词动词名词短语名词短语Hewroteabook5 上下文无关文法上下文无关文法(Context-
8、free Grammars)是乔姆斯基提出的一种对自然是乔姆斯基提出的一种对自然语言语法学问进行形式化描述的方法。在这种文法中,语法学问是用重写规语言语法学问进行形式化描述的方法。在这种文法中,语法学问是用重写规则表示的。作为例子,下面给出了一个英语的很小的子集(图则表示的。作为例子,下面给出了一个英语的很小的子集(图8.4)。)。语句语句 句子句子 终标符终标符 句子句子 名词短语名词短语 动词短语动词短语 动词短语动词短语 动词动词 名词短语名词短语 名词短语名词短语 冠词冠词 名词名词 名词短语名词短语 专用名词专用名词 冠词冠词 the 名词名词 professor 动词动词 wrot
9、e 名词名词 book 动词动词 trains 专用名词专用名词 Jack 终标符终标符.这就是一个英语子集的上下文无关文法这就是一个英语子集的上下文无关文法 在该文法中,在该文法中,“语句语句”是一个特殊的非终极符,称为起始符。是一个特殊的非终极符,称为起始符。8.3.1 句法规则的表示方法句法规则的表示方法上下文无关文法上下文无关文法(1/2)68.3.1 句法规则的表示方法句法规则的表示方法上下文无关文法上下文无关文法(2/2)例例8.2 利用上述上下文无关文法,给出如下语句的分析树。利用上述上下文无关文法,给出如下语句的分析树。The professor trains Jack.语句语
10、句句子句子终标符终标符动词短语动词短语名词短语名词短语Theprofessor.trains冠词冠词名词名词动词动词专用名词专用名词名词短语名词短语Jack解:解:如图如图8.578.3.1 句法规则的表示方法句法规则的表示方法变换文法变换文法(1/2)上下文无关文法反映的仅是一个句子本身的层次结构和生成过程,而自然上下文无关文法反映的仅是一个句子本身的层次结构和生成过程,而自然语言是上下文有关的。为此,乔姆斯基又提出了变换文法语言是上下文有关的。为此,乔姆斯基又提出了变换文法(Transformational Grammar)。该文法认为,句子的结构有深层和表层两个层次。例如:。该文法认为,
11、句子的结构有深层和表层两个层次。例如:She read me a story 和和 She read a story to me的表层结构不一样,但它们的深层结构则是一样的。再如,主动句和被动句的表层结构不一样,但它们的深层结构则是一样的。再如,主动句和被动句也只是表层结构不同,其深层结构则是相同的。也只是表层结构不同,其深层结构则是相同的。在变换文法中,句子深层结构和表层结构之间的变换是通过变换规则实现在变换文法中,句子深层结构和表层结构之间的变换是通过变换规则实现的,如图的,如图8.6给出了一条把主动句变换为被动句的变换规则。给出了一条把主动句变换为被动句的变换规则。句子句子介词短语介词短
12、语1句子句子名词短语名词短语1动词短语动词短语动词动词名词短语名词短语2名词短语名词短语2动词被动语态动词被动语态动词动词介词介词动词的过去分词动词的过去分词名词短语名词短语1句子句子介词短语介词短语句子句子名词短语名词短语1动词短语动词短语动词动词名词短语名词短语2名词短语名词短语2动词被动语态动词被动语态88.3.1 句法规则的表示方法句法规则的表示方法变换文法变换文法(2/2)助动词助动词介词介词动词的过去分词动词的过去分词名词短语名词短语1句子句子介词短语介词短语句子句子名词短语名词短语1动词短语动词短语动词动词名词短语名词短语2名词短语名词短语2动词被动语态动词被动语态冠词冠词名词名
13、词专用名词专用名词上下文无上下文无关文法关文法变换规则变换规则冠词冠词名词名词TheprofessorJacktrainsJack专用名词专用名词istrainedbytheprofessorprofessor 例例8.3 利用变换文法,将前述主动句变为被动句。利用变换文法,将前述主动句变为被动句。解:其变换过程是:先从非终极符解:其变换过程是:先从非终极符“句子句子”起先产生一个主动句:起先产生一个主动句:The professor trains Jack然后再应用图然后再应用图8.6所示的变换规则把它变为被动句所示的变换规则把它变为被动句(图图8.6):Jack is trained by
14、 the professor动词动词冠词冠词名词名词Theprofessor名词短语名词短语2专用名词专用名词trains动词动词冠词冠词名词名词TheprofessorJack名词短语名词短语2专用名词专用名词trains动词动词冠词冠词名词名词Theprofessor98.3.2 自顶向下与自底向上分析自顶向下与自底向上分析自顶向下分析法自顶向下分析法 自顶向下分析,是指从起始符起先应用文法规则,一层一层地向下产生分析树的各自顶向下分析,是指从起始符起先应用文法规则,一层一层地向下产生分析树的各个分支,直至生成与输入语句相匹配的完整的句子结构为止。个分支,直至生成与输入语句相匹配的完整的句
15、子结构为止。例如,图例如,图8-4所示的上下文无关文法,接受自顶向下分析方法对语句:所示的上下文无关文法,接受自顶向下分析方法对语句:The professor trains Jack.进行分析的过程是:进行分析的过程是:首先从起始符首先从起始符“语句语句”起先,正向运用规则:起先,正向运用规则:语句语句 句子句子 终标符终标符把分析树的根节点把分析树的根节点“语句语句”替换为它的两个子节点替换为它的两个子节点“句子句子”和和“终标符终标符”。然后再对新生成的节点然后再对新生成的节点“句子句子”运用规则:运用规则:句子句子 名词短语名词短语 动词短语动词短语将其替换为两个子节点将其替换为两个子
16、节点“名词短语名词短语”与与“动词短语动词短语”。对于对于“名词短语名词短语”,有两条规则可用,若按规则的排列依次,则选用,有两条规则可用,若按规则的排列依次,则选用 名词短语名词短语 冠词冠词 名词名词将将“名词短语名词短语”被替换为被替换为“冠词冠词”和和“名词名词”,生成两个新节点。对,生成两个新节点。对“冠词冠词”运用规运用规则:则:冠词冠词 The对名词运用规则:对名词运用规则:名词名词 professor 以此进行以此进行,得到如图,得到如图8.8所示的自顶向下的分析树(略)。所示的自顶向下的分析树(略)。108.3.2 自顶向下与自底向上分析自顶向下与自底向上分析自底向上分析法自
17、底向上分析法 自底向上分析,是以输入语句的单词为基础,首先按重写规则的箭头指向,自底向上分析,是以输入语句的单词为基础,首先按重写规则的箭头指向,反方向运用那些最具体的重写规则,把单词归并成较大的结构成分,如短语反方向运用那些最具体的重写规则,把单词归并成较大的结构成分,如短语等,然后对这些成分接着逆向运用规则,直到分析树的根节点为止。等,然后对这些成分接着逆向运用规则,直到分析树的根节点为止。仍以语句仍以语句 The professor trains Jack为例,逆向运用图为例,逆向运用图8.4中的那些具体规则后,可得到图中的那些具体规则后,可得到图8.9所示的所示的 部分分析树。部分分析
18、树。接着逆向运用规则,一步步归并,直到根节点接着逆向运用规则,一步步归并,直到根节点“语句语句”为止,最终即可生成为止,最终即可生成如图如图8.5所示的完整的分析树。所示的完整的分析树。自顶向下分析方法与自底向上分析方法虽然思路清晰,但分析效率不高。自顶向下分析方法与自底向上分析方法虽然思路清晰,但分析效率不高。为了提高分析效率,可接受自顶向下与自底向上相结合的分析方法。为了提高分析效率,可接受自顶向下与自底向上相结合的分析方法。Jack名词短语名词短语专用名词专用名词trains动词动词冠词冠词名词名词Theprofessor终标符终标符.118.4 句义分析句义分析 语义分析就是要识别一句
19、话所表达的实际意义。即弄清晰语义分析就是要识别一句话所表达的实际意义。即弄清晰“干什么了干什么了”,“谁干的谁干的”,“这个行为的缘由和结果是什么这个行为的缘由和结果是什么”以及以及“这个行为发生的时间、这个行为发生的时间、地点及其所用的工具或方法地点及其所用的工具或方法”等。等。缘由是语法分析,仅是在句法范围内依据词性信息来分析自然语言中句子缘由是语法分析,仅是在句法范围内依据词性信息来分析自然语言中句子的文法结构的。由于它没有考虑句子本身的含义,也就不能解除像的文法结构的。由于它没有考虑句子本身的含义,也就不能解除像 The paper received the professor这种在语
20、法结构上正确,但实际意义上错误的句子。这种在语法结构上正确,但实际意义上错误的句子。目前,用于语义分析的技术比较多,本节仅简洁介绍语义文法和格文法。目前,用于语义分析的技术比较多,本节仅简洁介绍语义文法和格文法。8.4.1 语义文法语义文法 8.4.2 格文法格文法128.4.1 语义文法语义文法 语义文法是在上下文无关文法的基础上,将语义文法是在上下文无关文法的基础上,将“名词短语名词短语”、“动词短语动词短语”、“名词名词”等这些不含有语义信息的纯语法类别,用所探讨领域的特地信息,等这些不含有语义信息的纯语法类别,用所探讨领域的特地信息,像像“山山”、“水水”、“动物动物”、等这些具有很强
21、语义约束的语义类别来代替。、等这些具有很强语义约束的语义类别来代替。利用语义文法进行语义分析,就可以解除像利用语义文法进行语义分析,就可以解除像“论文收到教授论文收到教授”这类无意义的这类无意义的句子。句子。例如,下面是一个关于舰船信息的语义文法的例子:例如,下面是一个关于舰船信息的语义文法的例子:S PRESENT the ATTRIBUTE of SHIP PRESENT what is|can you tell me ATTRIBUTE length|class SHIP the SHIPNAME|CLASSNAME class ship SHIPNAME Huanghe|Changji
22、ang CLASSNAME carrier|submarine 在上述重写规则中,用大写英文字母的单词表示非终极符,小写英文字母在上述重写规则中,用大写英文字母的单词表示非终极符,小写英文字母表示终极符,竖线表示表示终极符,竖线表示“或或”的意思。的意思。利用上述语义文法进行语义分析,可以从语义上识别以下的输入:利用上述语义文法进行语义分析,可以从语义上识别以下的输入:what is the length of the Huanghe?Can you tell me the class of the Changjiang?138.4.2 格文法格文法格和格框架格和格框架(1/3)格文法是以句子
23、的中心动词为主导,并用格来表示其它成分与此中心动词格文法是以句子的中心动词为主导,并用格来表示其它成分与此中心动词之间的语义关系的一种描述方法。之间的语义关系的一种描述方法。“格格”这个词来源于传统语法,但它与传统语法中的格有着本质不同。在传这个词来源于传统语法,但它与传统语法中的格有着本质不同。在传统语法中,格仅表示一个词或短语在句子中的功能,如主格、宾格、等,反统语法中,格仅表示一个词或短语在句子中的功能,如主格、宾格、等,反映的也只是词尾的变更规则,故称为表层格。在格文法中,格表示的是语义映的也只是词尾的变更规则,故称为表层格。在格文法中,格表示的是语义方面的关系,反映的是句子中所包含的
24、思想、观念等,故称为深层格。方面的关系,反映的是句子中所包含的思想、观念等,故称为深层格。“格格”是一个一般的概念,相对于中心动词的不同语义关系,格可以分为很是一个一般的概念,相对于中心动词的不同语义关系,格可以分为很多种。例如,在句子多种。例如,在句子 John gave the book to Sally中,相对于中心动词中,相对于中心动词gave,John是这个行为的发出者,称为动作格;是这个行为的发出者,称为动作格;the book是行为作用的对象,称为受动格;是行为作用的对象,称为受动格;Sally是行为作用对象所到达的目标,称为目标格。是行为作用对象所到达的目标,称为目标格。148
25、.4.2 格文法格文法格和格框架格和格框架(2/3)一套正确的深层格原委应包括多少个格,以及这些格的明确含义是什么,一套正确的深层格原委应包括多少个格,以及这些格的明确含义是什么,目前尚无定论。目前尚无定论。下面给出一个描述行为的句子,它所涉及的深层格主要有:下面给出一个描述行为的句子,它所涉及的深层格主要有:Agent(施事),(施事),动作主格,指行为的施动者;动作主格,指行为的施动者;Object(受事),受动者格,指行为作用的对象;(受事),受动者格,指行为作用的对象;Co-Agent(共施事),帮助者格,指行为施动者的合作者;(共施事),帮助者格,指行为施动者的合作者;Instrum
26、ent(工具),工具格,指施事者或共施事者实现行为中所运用(工具),工具格,指施事者或共施事者实现行为中所运用的对象;的对象;Time(时间),(时间),时间格,指行为发生的时间;时间格,指行为发生的时间;Source(来源),来源格,指行为作用对象移出的位置;(来源),来源格,指行为作用对象移出的位置;Goal(目标),(目标),目标格,指行为作用对象到达的位置;目标格,指行为作用对象到达的位置;Trajectory(轨迹),轨迹格,指从来源到目标所经过的路径。(轨迹),轨迹格,指从来源到目标所经过的路径。15 格框架是一种用来描述句子深层格的框架。格框架是一种用来描述句子深层格的框架。在格
27、文法中,每个句子都联系着一个格框架。其中,框架名可以是相应句在格文法中,每个句子都联系着一个格框架。其中,框架名可以是相应句子的中心动词,框架的槽可分别对应于相应句子的各个深层格,每个槽的槽子的中心动词,框架的槽可分别对应于相应句子的各个深层格,每个槽的槽值为该深层格在相应句子中所代表的语义成分。值为该深层格在相应句子中所代表的语义成分。例如,前述句子分析结束时所得到的实际格框架为:例如,前述句子分析结束时所得到的实际格框架为:GAVE Agent:John Object:the book Source:John Goal:Sally 8.4.2 格文法格文法格和格框架格和格框架(3/3)16作作 业业 题题 8.2 对下列每个语句给出文法分析树:对下列每个语句给出文法分析树:(1)John wanted to go the movie with Sally.(2)John wanted to go to the movie with Robert Redford.(3)I heard the story listening to the radio.(4)I heard the kids listening to the radio.17