《09-语义分析.pptx》由会员分享,可在线阅读,更多相关《09-语义分析.pptx(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、课程主讲人:09-语义分析2第第9章章 语义分析语义分析教材:教材: 刘挺等刘挺等自然语言处理自然语言处理 高等教育出版社,高等教育出版社,2021自然语言处理自然语言处理目录o 语义的形式化表示o 词义消歧o 语义角色标注o 基于图表征的语义分析o 延伸阅读目录o 语义的形式化表示o 词义消歧o 语义角色标注o 基于图表征的语义分析o 延伸阅读导读o 语义分析任务:n 将语言所蕴含的意义进行精确的数据抽象进而进行有效的自动计算o 语义表示的粒度:n 词汇语义n 事件语义n 整句语义词汇语义词汇“放”的不同语义 再将采来的嫩茶放太阳下晒 把对自己孩子的关心与爱放在最高点 这些浓缩铀现在掩埋在瓦
2、砾中,没有放出任何辐射线词汇“放”与“摆”具有相同语义 再将采来的嫩茶放太阳下晒 再将采来的嫩茶摆太阳下晒构建语义分析系统语言知识库标注语料库WordNetSemCor获取语义的方法: 查词典 构建语义分析系统WordNet:本体知识库所有词按照词性划分为名词、动词、形容词、 副词4大类词根据其语义聚类为同义词集,每个词集表达 一个词汇概念同义词集通过概念语义和词汇关系进行关联概念关系:(以名词为例)上下位关系,IS-A,IS-A-KIND-OF部分整体关系:组件-对象,成员-集合, 材料-对象WordNet的应用:作为语义标注语料库的标注目标语义相似度计算语义消歧信息检索知识工程当然,中文上
3、也有中文词汇网络Chinese WordNetSemCor:最具代表性的语义标注语料词的候选义项遵从WordNetSemCor包含两部分:SemCor-All: 包括186个文本,超过19万词例(word token)SemCor-Verbs: 只对动词进行语义标注,超4万个动词词形 (word type) 和31万个词例(word token)事件语义o 句子中的事件语义体现了整个句子的核心语义o 关注以动词为中心的事件语义,将周围的名词性成分抽象成论元,并对其分类。如动作发出者的施事(agent),动作承受者的受事(patient)等,在自然语言处理领域,称为语义角色o 语义角色的标注资源
4、:中文动词词汇语义网和汉语命题库(MVN和CPB)中文动词词汇语义网(MVN)MVN沿袭了Fillmore提出的框架主义思路,即将动词语义看作是一个包含元素(frame elements)和元素间关系的框架(frame),对元素的角色进行了标注。除此之外,中文动词词汇语义网也对句子中出现的结构标记(construction marker),如被、把、体标记等做了标注动词框架词典汉语命题库: 动词框架词典 语义角色标注语料库汉语命题库标记集详解整句语义o 利用图来表征更为丰富的语义信息n 语义依存图n 抽象语义表示o 语义依存:词与词之间的二元关系o 概念语义:节点是抽象的概念,不再是具体的to
5、ken语义依存图The dog is eating a bone抽象语义表示目录o 语义的形式化表示o 词义消歧o 语义角色标注o 基于图表征的语义分析o 延伸阅读9.2 词义消歧o任务目标:通过对文本中多义词的语言环境加以甄 别,明确具体词义o词义消歧是一个中间任务,服务于大多数的自然 语言处理相关的技术o词义消歧分为:单一词消歧和全文本消歧序列w1, w2, . . . , wnsenseD(wi)词典DA(wi)词义消歧-难点o 如何对词义进行表示?o 某个词的词义总集是一个有限的集合吗?o 如何处理临时用的词义或者新义?o 词义区分的粒度如何?o 词义消歧严重依赖语言知识词义消歧-方法
6、o 基于词向量的方法见右图o 基于特征工程的方法词汇特征:如wi 的上下文的uni-gram、 bi-gram, wi 的词性等等。 句法特征:如wi 的句法中心词和依赖词等。 语义特征:如wi 前后词的词义等。目录o 语义的形式化表示o 词义消歧o 语义角色标注o 基于图表征的语义分析o 延伸阅读9.3 语义角色标注任务定义:n 给定一个句子,分析该句中特定动词的论元结构,找出和特定动词搭配的论元并分析出它们的语义角色n 给定谓词后,需要找到所搭配的论元,并对论元进行语义分类n 浅层语义分析的一个子任务BIO标注体系 通过BIO标签将语义角色 标注问题转化为类似词性 标注的序列标注问题 附属
7、标签B表示一个论元 的开头 I表示一个论元的中间 O表示非论元语义角色标注-模型o 基于词的序列标注问题很容易通过深度学习技术进行求解语义角色标注语义依存分析句法依存分析是否整句否是是关系谓词-论元中心词-依赖词树/图树(不一定连通)连通树基于短语/词短语词词对比分析目录o 语义的形式化表示o 词义消歧o 语义角色标注o 基于图表征的语义分析o 延伸阅读9.4 基于图表征的语义分析o 基于因子分解(factorization-based) 的方法o 基于组合(composition-based)的方法o 基于状态转移(transition-based) 的方法o 基于翻译(translatio
8、n-based)的方法9.4 基于图表征的语义分析-因子分解o 借鉴了基于图的句法依存分析方法,核心是定义一个有效的打分函数o 基于因子的分析模型遍历所有的可行语义图,对其打分,输出得分最高的语义图o 以语义依存分析为例,该问题可看作为一个最大子图问题。因子分解例子o基于因子分解的方法目前可以简化针对可行依存边的分类问题o 可以用深度学习来学习打分函数9.4 基于图表征的语义分析-基于组合的方法o 组合性原则是形式语义学的核心基础之一o 数理逻辑学家Frege最先对组合性原则进行表述o 组合性原则认为复杂的语义表示是由简单模式拼接而来o 依据组合型原则,提出了对语义图推导过程进行建模,其中需要
9、形式化的图文法和对语义推导的打分函数。The meaning of an expression is a function of the meanings of its parts and of the way they are syntactically combined. B. Partee9.4 基于图表征的语义分析-基于状态转移的方法o 把语义图的构造视为一个包含数个步骤的推导过程o 建模焦点是对语义分析器的状态进行向量表示,根据向量表示来判断语义分析器该执行什么动作o 两个核心模块:符号系统和打分函数 符号系统:用来精确地对图产生的推导过程进行定义, 特别是语义分析的状态以及状态转移
10、的方式 打分函数:在给定语义分析器的状态下,判断应该进行 哪一种状态转移,从而更新分析器的状态9.4 基于图表征的语义分析-基于翻译的方法o 针对机器翻译开发了各种序列到序列(seq2seq)的方法o 输出结构进行序列化o 语义图的序列化可采用深度优先遍历来“拍扁”一张语义图o 这种方法构建的语义图分析能力显著低于基于因子分解和基于组合的方法目录o 语义的形式化表示o 词义消歧o 语义角色标注o 基于图表征的语义分析o 延伸阅读9.5 延伸阅读本章小结o 语义的形式化表示:介绍基于词,事件,整句的语义表示o 词义消歧:介绍了词义消歧的概念、难点和方法o 语义角色标注:从任务目标、标注体系、模型分别介绍了相关内容o 基于图表征的语义分析:介绍了图表征的四种分析方法o 延伸阅读