语言信息处理-机器翻译II.ppt

上传人:wuy****n92 文档编号:78994603 上传时间:2023-03-19 格式:PPT 页数:64 大小:378.50KB
返回 下载 相关 举报
语言信息处理-机器翻译II.ppt_第1页
第1页 / 共64页
语言信息处理-机器翻译II.ppt_第2页
第2页 / 共64页
点击查看更多>>
资源描述

《语言信息处理-机器翻译II.ppt》由会员分享,可在线阅读,更多相关《语言信息处理-机器翻译II.ppt(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、机器翻译IIMachine Translation II张宇哈尔滨工业大学计算机科学与技术学院哈尔滨工业大学计算机科学与技术学院12/18/202212/18/20221 1语言信息处理语言信息处理-机器翻译机器翻译II II大纲基于翻译记忆的机器翻译方法基于模板(模式)的机器翻译方法双语语料库对齐技术句子对齐句子对齐词语对齐词语对齐机器翻译的评价12/18/202212/18/20222 2语言信息处理语言信息处理-机器翻译机器翻译II II翻译记忆方法1翻译记忆方法(翻译记忆方法(Translation MemoryTranslation Memory)是基于实)是基于实例方法的特例;例方

2、法的特例;也可以把基于实例的方法理解为广义的翻译记忆也可以把基于实例的方法理解为广义的翻译记忆方法;方法;翻译记忆的基本思想:翻译记忆的基本思想:把已经翻译过的句子保存起来把已经翻译过的句子保存起来 翻译新句子时,直接到语料库中去查找翻译新句子时,直接到语料库中去查找如果发现相同的句子,直接输出译文如果发现相同的句子,直接输出译文否则交给人去翻译,但可以提供相似的句子的参考译文否则交给人去翻译,但可以提供相似的句子的参考译文12/18/202212/18/20223 3语言信息处理语言信息处理-机器翻译机器翻译II II翻译记忆方法2翻译记忆方法主要被应用于计算机辅助翻译(CAT)软件中翻译记

3、忆方法的优缺点翻译质量有保证翻译质量有保证随着使用时间匹配成功率逐步提高随着使用时间匹配成功率逐步提高特别适用于重复率高的文本翻译,例如公司的特别适用于重复率高的文本翻译,例如公司的产品说明书的新版本翻译产品说明书的新版本翻译与语言无关,适用于各种语言对与语言无关,适用于各种语言对缺点是匹配成功率不高,特别是刚开始使用时缺点是匹配成功率不高,特别是刚开始使用时12/18/202212/18/20224 4语言信息处理语言信息处理-机器翻译机器翻译II II翻译记忆方法3计算机辅助翻译(计算机辅助翻译(CATCAT)软件已经形成了比较成熟的产业)软件已经形成了比较成熟的产业 TRADOSTRAD

4、OS号称占有国际号称占有国际CATCAT市场的市场的70%70%MicrosoftMicrosoft、SiemensSiemens、SAPSAP等国际大公司和一些著名的国际组织都是等国际大公司和一些著名的国际组织都是其用户其用户 雅信雅信CATCAT适合中国人的习惯适合中国人的习惯产品已比较成熟产品已比较成熟 国际组织:国际组织:LISA LISA(Localisation Industry Standards AssociationLocalisation Industry Standards Association)面向用户:专业翻译人员面向用户:专业翻译人员数据交换:数据交换:LISAL

5、ISA制定了制定了TMXTMX(Translation Memory Translation Memory eXchangeeXchange)标准。)标准。12/18/202212/18/20225 5语言信息处理语言信息处理-机器翻译机器翻译II II翻译记忆方法4完整的计算机辅助翻译软件除了包括翻译记忆功能以外,还应该包括以下功能多种文件格式的分解与合成多种文件格式的分解与合成术语库管理功能术语库管理功能语料库的句子对齐(历史资料的重复利用)语料库的句子对齐(历史资料的重复利用)项目管理:项目管理:翻译任务的分解与合并翻译任务的分解与合并翻译工作量的估计翻译工作量的估计数据共享和数据交换数

6、据共享和数据交换12/18/202212/18/20226 6语言信息处理语言信息处理-机器翻译机器翻译II II翻译记忆方法512/18/202212/18/20227 7语言信息处理语言信息处理-机器翻译机器翻译II II基于模板(模式)的机器翻译方法1基于模板(基于模板(TemplateTemplate)或者模式()或者模式(PatternPattern)的机器翻译方)的机器翻译方法通常也被看做基于实例的机器翻译方法的一种延伸法通常也被看做基于实例的机器翻译方法的一种延伸所谓所谓“翻译模板翻译模板”或者或者“翻译模式翻译模式”可以认为是一种颗粒可以认为是一种颗粒度介于度介于“翻译规则翻译

7、规则”和和“翻译实例翻译实例”之间的翻译知识表示之间的翻译知识表示形式形式 翻译规则:颗粒度大,匹配可能性大,但过于抽象,容易出错翻译规则:颗粒度大,匹配可能性大,但过于抽象,容易出错 翻译实例:颗粒度小,不易出错,但过于具体,匹配可能性小翻译实例:颗粒度小,不易出错,但过于具体,匹配可能性小 翻译模板(模式):介于二者之间,是一种比较合适的知识表示翻译模板(模式):介于二者之间,是一种比较合适的知识表示形式形式一般而言,单语模板(或模式)是一个常量和变量组成的一般而言,单语模板(或模式)是一个常量和变量组成的字符串,翻译模板(或模式)是两个对应的单语模板(或字符串,翻译模板(或模式)是两个对

8、应的单语模板(或模式),两个模板之间的变量存在意义对应关系模式),两个模板之间的变量存在意义对应关系12/18/202212/18/20228 8语言信息处理语言信息处理-机器翻译机器翻译II II基于模板(模式)的机器翻译方法2模板举例:这个这个X X 比比Y Y 更更Z Z。The X is more Z than Y.The X is more Z than Y.模板方法的主要问题对模板中变量的约束对模板中变量的约束模板抽取模板抽取模板的冲突消解模板的冲突消解12/18/202212/18/20229 9语言信息处理语言信息处理-机器翻译机器翻译II IIPattern-Based CF

9、G for MT 1Koichi Takeda,Pattern-Based Context-Free Grammars for Machine Translation,Proc.of 34th ACL,pp.144-151,June 1996给出了翻译模式的一种形式化定义,并给出了相应的翻译算法以及算法复杂性的理论证明12/18/202212/18/20221010语言信息处理语言信息处理-机器翻译机器翻译II IIPattern-Based CFG for MT 2每个翻译模板由一个源语言上下文无关规则和一个目标每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则(这两个规则称

10、为翻译模板的骨架)语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约束和链接约束构成;,以及对这两个规则的中心词约束和链接约束构成;中心词约束:对于上下文无关语法规则中右部(子结点)中心词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等于其右部的某个以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词;非终结符的中心词;链接约束:源语言骨架

11、和目标语言骨架的非终结符子结链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系,具有对应关系的点通过使用相同的序号建立对应关系,具有对应关系的非终结符互为翻译。非终结符互为翻译。12/18/202212/18/20221111语言信息处理语言信息处理-机器翻译机器翻译II IIPattern-Based CFG for MT 312/18/202212/18/20221212语言信息处理语言信息处理-机器翻译机器翻译II IIPattern-Based CFG for MT 3翻译的过程分为三步:翻译的过程分为三步:使用源语言使用源语言CFGCFG骨架分析输入句子

12、骨架分析输入句子s s 应用源语言到目标语言的应用源语言到目标语言的CFGCFG骨架的链接约束,生成一个译文骨架的链接约束,生成一个译文CFGCFG推导序列推导序列 根据译文根据译文CFGCFG推导序列产生译文推导序列产生译文模板排序的启发式原则:模板排序的启发式原则:对于源文对于源文CFGCFG骨架相同的模板,有中心词约束的模板优先于没有骨架相同的模板,有中心词约束的模板优先于没有中心词约束的模板;中心词约束的模板;对于同一跨度上的两个结点,比较其对应的模板的源文对于同一跨度上的两个结点,比较其对应的模板的源文CFGCFG骨架,骨架,非终结符少的模板优先于非终结符多的模板;非终结符少的模板优

13、先于非终结符多的模板;中心词约束被满足的结点优先于中心词约束不被满足的结点;中心词约束被满足的结点优先于中心词约束不被满足的结点;对于一个输入串而言,分析步骤越短(推导序列越短)越优先。对于一个输入串而言,分析步骤越短(推导序列越短)越优先。12/18/202212/18/20221313语言信息处理语言信息处理-机器翻译机器翻译II IIPattern-Based CFG for MT 4模板库的获取:假设模板库的获取:假设T T是一组翻译模板,是一组翻译模板,B B是双语是双语语料库,语料库,是一对互为翻译的句子是一对互为翻译的句子 如果如果T T能够翻译句子能够翻译句子s s为为t t,

14、那么,那么do nothingdo nothing;如果如果T T将将s s译为译为t t(不等于(不等于t t),那么:),那么:如果如果T T中存在中存在的推导的推导QQ,但这个推导不是最优,但这个推导不是最优解,那么给解,那么给QQ中的模板进行实例化;中的模板进行实例化;如果不存在这种推导,那么加入适当的模板,使如果不存在这种推导,那么加入适当的模板,使得推导成立;得推导成立;如果根本无法翻译如果根本无法翻译s s(分析失败),那么将(分析失败),那么将直接加直接加入到模板库中。入到模板库中。12/18/202212/18/20221414语言信息处理语言信息处理-机器翻译机器翻译II

15、II模板的自动提取利用一对实例进行泛化利用一对实例进行泛化 Jaime G.Carbonell,Ralf D.Brown,Generalized Jaime G.Carbonell,Ralf D.Brown,Generalized Example-Based Machine TranslationExample-Based Machine Translation http:/Research/GEBMT/http:/Research/GEBMT/利用两对实例进行比较利用两对实例进行比较 H.Altay Guvenir,Ilyas Cicekli,Learning Translation H.A

16、ltay Guvenir,Ilyas Cicekli,Learning Translation Templates from Examples Information Systems,1998Templates from Examples Information Systems,1998 张健,基于实例的机器翻译的泛化方法研究,中科院张健,基于实例的机器翻译的泛化方法研究,中科院计算所硕士论文,计算所硕士论文,2001200112/18/202212/18/20221515语言信息处理语言信息处理-机器翻译机器翻译II II通过泛化实例得到翻译模板已有实例:已有实例:Karl Marx was

17、 born in Trier,Germany in May 5,1818.Karl Marx was born in Trier,Germany in May 5,1818.卡尔卡尔 马克思于马克思于18181818年年5 5月月5 5日出生在德国特里尔城。日出生在德国特里尔城。泛化:泛化:was born in in was born in in 于于出生在出生在对齐对齐 12/18/202212/18/20221616语言信息处理语言信息处理-机器翻译机器翻译II II通过比较实例得到翻译模板已有两对翻译实例:我给玛丽一支笔我给玛丽一支笔 I gave Mary a pen.I gave

18、Mary a pen.我给汤姆一本书我给汤姆一本书 I gave Tom a book.I gave Tom a book.双侧单语句子分别比较,得到:我给我给#X#X 一一#Y#Z#Y#Z I give#W a#U.I give#W a#U.查找变量的对应关系:#X#X#W#W#Y#Y#Z#Z#U#U12/18/202212/18/20221717语言信息处理语言信息处理-机器翻译机器翻译II II实例库的匹配1实例匹配的目的是将输入句子分解成语料库中实实例匹配的目的是将输入句子分解成语料库中实例片断的组合,这是基于实例的机器翻译的关键例片断的组合,这是基于实例的机器翻译的关键问题之一,实例

19、匹配的各种方法有很大的差异,问题之一,实例匹配的各种方法有很大的差异,还没有那种做法显示出明显的优势;还没有那种做法显示出明显的优势;实例库匹配的效率问题:由于实例库规模较大,实例库匹配的效率问题:由于实例库规模较大,通常需要建立倒排索引;通常需要建立倒排索引;实例库匹配的其他问题:实例库匹配的其他问题:实例片断的分解:实例片断的分解:实例片断的组合:实例片断的组合:12/18/202212/18/20221818语言信息处理语言信息处理-机器翻译机器翻译II II实例库的匹配2实例片断的分解实例库中的句子往往太长,直接匹配成功率太实例库中的句子往往太长,直接匹配成功率太低,为了提高实例的重用

20、性,需要将实例库中低,为了提高实例的重用性,需要将实例库中的句子分解为片断的句子分解为片断几种通常的做法:几种通常的做法:按标点符号分解按标点符号分解任意分解任意分解通过组块分析进行分解通过组块分析进行分解12/18/202212/18/20221919语言信息处理语言信息处理-机器翻译机器翻译II II实例库的匹配3实例片断的组合一个被翻译的句子,往往可以通过各种不同的一个被翻译的句子,往往可以通过各种不同的实例片断进行组合,如何选择一个最好的组合实例片断进行组合,如何选择一个最好的组合?简单的做法:简单的做法:最大匹配最大匹配最大概率法:选择概率乘积最大的片断组合最大概率法:选择概率乘积最

21、大的片断组合有点像汉语词语切分问题有点像汉语词语切分问题12/18/202212/18/20222020语言信息处理语言信息处理-机器翻译机器翻译II II片断译文的选择由于语料库中一个片断可能有多种翻译方法,因此存在片断译文的选择问题;常用的方法:根据片断上下文进行排歧;根据片断上下文进行排歧;根据译文的语言模型选择概率最大的译文片断根据译文的语言模型选择概率最大的译文片断组合组合12/18/202212/18/20222121语言信息处理语言信息处理-机器翻译机器翻译II II实例库的对齐实例库又称双语语料库(实例库又称双语语料库(Bilingual CorpusBilingual Cor

22、pus)或平)或平行语料库(行语料库(Parallel CorpusParallel Corpus)双语语料库对齐的级别双语语料库对齐的级别 篇章对齐篇章对齐 段落对齐段落对齐 句子对齐句子对齐 词语对齐词语对齐 短语块对齐短语块对齐 句法结构对齐句法结构对齐基于实例的机器翻译中实例库必须至少做到句子基于实例的机器翻译中实例库必须至少做到句子级别的对齐级别的对齐12/18/202212/18/20222222语言信息处理语言信息处理-机器翻译机器翻译II II不同对齐级别的差异段落对齐和句子对齐要求保持顺序(允许局部顺序的调整)要求保持顺序(允许局部顺序的调整)只有一个层次只有一个层次词语对齐

23、和短语块对齐不要求保持顺序不要求保持顺序只有一个层次只有一个层次句法结构对齐不要求保持顺序不要求保持顺序多层次对齐多层次对齐12/18/202212/18/20222323语言信息处理语言信息处理-机器翻译机器翻译II II句子对齐1汉语汉语汉语汉语英语英语英语英语模式模式模式模式19951995年初我来成都的那天,年初我来成都的那天,没想到会是在一个冬季的没想到会是在一个冬季的漆黑的日子。漆黑的日子。I little thought when I arrived inI little thought when I arrived inChengdu in the dark,dark days

24、 ofChengdu in the dark,dark days ofwinter,early in 1995,that I would still be winter,early in 1995,that I would still be here more than five years later.here more than five years later.1 1:1 1那时我也根本没有想到会那时我也根本没有想到会在这儿呆上五年,也不知在这儿呆上五年,也不知道我会遇到一位成都的女道我会遇到一位成都的女儿,并且后来还娶她为妻。儿,并且后来还娶她为妻。一个完全陌生的家庭接纳一个完全陌生的

25、家庭接纳了我,我也因此成为成都了我,我也因此成为成都的一部分。的一部分。I little knew that I would meet one ofI little knew that I would meet one ofChengdus daughters,and later marryChengdus daughters,and later marryher,thus acquiring a whole newher,thus acquiring a whole newfamily who embraced me as one offamily who embraced me as on

26、e ofthem,and thus I became part of thisthem,and thus I became part of thisplace.place.2 2:1 112/18/202212/18/20222424语言信息处理语言信息处理-机器翻译机器翻译II II句子对齐212/18/202212/18/20222525语言信息处理语言信息处理-机器翻译机器翻译II II基于长度的句子对齐1基本思想:源语言和目标语言的句子长度存在一定的比例关系用两个因素来估计一个句珠的概率源语言和目标语言中句子的长度源语言和目标语言中句子的长度源语言和目标语言中的句子数(对齐模式)源语言

27、和目标语言中的句子数(对齐模式)12/18/202212/18/20222626语言信息处理语言信息处理-机器翻译机器翻译II II基于长度的句子对齐2根据统计,随机变量X=lTi/lSi服从正态分布12/18/202212/18/20222727语言信息处理语言信息处理-机器翻译机器翻译II II基于长度的句子对齐3设通过语料库统计得到X的期望为c,方差为v2,那么随机变量将服从0,1正态分布:根据正态分布公式可以计算出(直接查表):12/18/202212/18/20222828语言信息处理语言信息处理-机器翻译机器翻译II II基于长度的句子对齐4对齐模式的概率P(mS,mT)可以通过对

28、语料库的统计得到。下面是Gale&Church根据UBS语料库的统计结果:12/18/202212/18/20222929语言信息处理语言信息处理-机器翻译机器翻译II II基于长度的句子对齐5l l最优路径的搜索:采用动态规划算法最优路径的搜索:采用动态规划算法l l定义定义P(i,j)=P(sP(i,j)=P(s1 1ssi i,t,t1 1ttj j)l l最优对齐为最优对齐为P(m,n)P(m,n)所对应的路径所对应的路径12/18/202212/18/20223030语言信息处理语言信息处理-机器翻译机器翻译II II基于长度的句子对齐6优点优点 不依赖于具体的语言;不依赖于具体的语

29、言;速度快;速度快;效果好效果好缺点缺点 由于没有考虑词语信息,有时会产生一些明显的错误由于没有考虑词语信息,有时会产生一些明显的错误讨论讨论 长度计算可以采用词数或者字节数,没有明显的优劣长度计算可以采用词数或者字节数,没有明显的优劣之分之分12/18/202212/18/20223131语言信息处理语言信息处理-机器翻译机器翻译II II基于词的句子对齐1基本思想:互为翻译的句子对中,含有互为翻译的词语对的概率,大大高于随机的句子对用两个因素来估计一个句珠的概率源语言和目标语言中互译词语的个数源语言和目标语言中互译词语的个数源语言和目标语言中的句子数(对齐模式)源语言和目标语言中的句子数(

30、对齐模式)12/18/202212/18/20223232语言信息处理语言信息处理-机器翻译机器翻译II II基于词的句子对齐2优点可以充分利用词语互译信息,提高正确率可以充分利用词语互译信息,提高正确率缺点单独使用时,正确率有时低于基于长度的方法单独使用时,正确率有时低于基于长度的方法(取决于词典的规模质量等)(取决于词典的规模质量等)时空开销大时空开销大讨论对于同源的语言(英语和法语,汉语和日语)对于同源的语言(英语和法语,汉语和日语)可以利用词语同源信息而不使用词典可以利用词语同源信息而不使用词典12/18/202212/18/20223333语言信息处理语言信息处理-机器翻译机器翻译I

31、I II句子对齐小结句子对齐的语料库是基于语料库的机器翻译的基础;综合采用基于长度的方法和基于词汇的方法可以取得较好的效果;句子对齐可以取得很高的正确率,已经达到实用水平。12/18/202212/18/20223434语言信息处理语言信息处理-机器翻译机器翻译II II词语对齐1特点:保序性不再满足保序性不再满足对齐模式复杂:一对多、多对一、多对多都非对齐模式复杂:一对多、多对一、多对多都非常普遍常普遍12/18/202212/18/20223535语言信息处理语言信息处理-机器翻译机器翻译II II词语对齐2困难:翻译歧义:一个词出现两个以上的译词翻译歧义:一个词出现两个以上的译词双语词典

32、覆盖率有限:非常普遍的现象双语词典覆盖率有限:非常普遍的现象位置歧义:出现两个以上相同的词位置歧义:出现两个以上相同的词汉语词语切分问题汉语词语切分问题虚词问题:虚词的翻译非常灵活,或没有对译虚词问题:虚词的翻译非常灵活,或没有对译词词意译问题:根本找不到对译的词意译问题:根本找不到对译的词12/18/202212/18/20223636语言信息处理语言信息处理-机器翻译机器翻译II II词语对齐3一般而言,一个单词对齐的模型可以表述为两个模型的乘积:词语相似度模型词语相似度模型(word similarity model)(word similarity model)位置扭曲模型位置扭曲模型

33、(word distortion model)(word distortion model)用公式表示如下:12/18/202212/18/20223737语言信息处理语言信息处理-机器翻译机器翻译II II词语相似度模型1翻译概率:翻译概率:IBM Model 1IBM Model 1T-ScoreT-Score:N Nc c:语料库中单词:语料库中单词c c出现的词数出现的词数 N Ne e:语料库中单词:语料库中单词e e出现的词数出现的词数 N Necec:语料库中单词:语料库中单词e e和单词和单词c c互译的词数互译的词数12/18/202212/18/20223838语言信息处理

34、语言信息处理-机器翻译机器翻译II II词语相似度模型2戴斯系数(戴斯系数(dice coefficientdice coefficient)设设S S1 1和和S S2 2分别是两个集合,则这两个集合的戴斯系数可以分别是两个集合,则这两个集合的戴斯系数可以通过如下公式计算通过如下公式计算把汉语词理解为汉字的集合,戴斯系数就是两个词中相同把汉语词理解为汉字的集合,戴斯系数就是两个词中相同的汉字占两个词汉字总数的比例。考虑到汉字表意性,这的汉字占两个词汉字总数的比例。考虑到汉字表意性,这种方法在计算汉语词相似度时有较好的效果种方法在计算汉语词相似度时有较好的效果计算汉语词计算汉语词c c和英语词

35、和英语词e e的相似度:的相似度:先用英语词先用英语词e e查英汉词典,得到所有的汉语对译词;查英汉词典,得到所有的汉语对译词;计算所有对译词和计算所有对译词和c c的戴斯系数,取其中的最大值。的戴斯系数,取其中的最大值。12/18/202212/18/20223939语言信息处理语言信息处理-机器翻译机器翻译II II词语相似度模型3互信息(互信息(mutual informationmutual information)通过两个事件通过两个事件X X和和Y Y各自出现的概率为各自出现的概率为p(X)p(X)和和p(Y)p(Y),他们联,他们联合出现的概率为合出现的概率为p(X,Yp(X,Y

36、),这两个事件之间共同的互信息),这两个事件之间共同的互信息量定义为:量定义为:当两个事件相互独立时,互信息量为当两个事件相互独立时,互信息量为0 0;当两个事件倾向于同时出现时,互信息量为正;当两个事件倾向于同时出现时,互信息量为正;当两个事件倾向于互相排斥时,互信息量为负;当两个事件倾向于互相排斥时,互信息量为负;利用互信息作词语相似度计算效果较差。利用互信息作词语相似度计算效果较差。12/18/202212/18/20224040语言信息处理语言信息处理-机器翻译机器翻译II II词语相似度模型42方法:利用联立表(contingency table)2方法的效果比较好Wt+Wt+Wt-

37、Wt-Ws+Ws+31,950(a)31,950(a)12,004(b)12,004(b)Ws-Ws-4,793(c)4,793(c)848,330(d)848,330(d)12/18/202212/18/20224141语言信息处理语言信息处理-机器翻译机器翻译II II词语相似度模型5对数似然比(Log Likelihood Ratio,LLR)对数似然比在使用中比较有效,在训练语料库对数似然比在使用中比较有效,在训练语料库规模较小时尤为明显规模较小时尤为明显12/18/202212/18/20224242语言信息处理语言信息处理-机器翻译机器翻译II II词语相似度模型6概念相似度 利用

38、某种形式的义类词典(Thesaurus),计算两个词语对应的概念之间的相似度 其中d是概念p1、p2之间的距离,一般用概念层次体系中两个结点之间的距离来计算是一个可条件的参数12/18/202212/18/20224343语言信息处理语言信息处理-机器翻译机器翻译II II词语相似度模型7同义词词林的概念层次体系同义词词林的概念层次体系 虚线用于标识某上层结点到下层结点的路径虚线用于标识某上层结点到下层结点的路径12/18/202212/18/20224444语言信息处理语言信息处理-机器翻译机器翻译II II位置扭曲模型1绝对扭曲模型:IBM Model 2 l:源语言句子长度 m:目标语言

39、句子长度 i:源语言词语位置 j:目标语言词语位置12/18/202212/18/20224545语言信息处理语言信息处理-机器翻译机器翻译II II位置扭曲模型2相对偏移模型12/18/202212/18/20224646语言信息处理语言信息处理-机器翻译机器翻译II II位置扭曲模型3基于HMM的扭曲模型将每个对齐看作状态,对齐位置之间的转移是将每个对齐看作状态,对齐位置之间的转移是状态的转移,该对齐处的单词对作为输出。这状态的转移,该对齐处的单词对作为输出。这样就可以将对齐问题映射到样就可以将对齐问题映射到HMMHMM上上12/18/202212/18/20224747语言信息处理语言信

40、息处理-机器翻译机器翻译II II词语对齐小结词语对齐比句子对齐困难得多;词语对齐主要使用一个词语相似度模型和一个位置扭曲模型;词语对齐的副产品:双语词典抽取贪心算法:每次抽取可能性最高的词对;贪心算法:每次抽取可能性最高的词对;词语抽取和词语对齐反复迭代词语抽取和词语对齐反复迭代可以抽取多词单元(可以抽取多词单元(n n元组)元组)12/18/202212/18/20224848语言信息处理语言信息处理-机器翻译机器翻译II II机器翻译评价1最早的机器翻译评价:ALPAC报告机器翻译评价的常用指标忠实度(忠实度(AdequacyAdequacy):译文在多大程度上传递):译文在多大程度上传

41、递了源文的内容;了源文的内容;流利度(流利度(FluencyFluency):译文是否符合目标语言的):译文是否符合目标语言的语法和表达习惯;语法和表达习惯;信息度(信息度(InformativeInformative):用户可以从译文中获):用户可以从译文中获得信息的程度(通过选择题评分)得信息的程度(通过选择题评分)绝对评价和相对评价12/18/202212/18/20224949语言信息处理语言信息处理-机器翻译机器翻译II II机器翻译评价2人工评价准确准确成本极高成本极高不能反复使用不能反复使用自动评价准确率低准确率低成本低成本低可以反复使用可以反复使用12/18/202212/18

42、/20225050语言信息处理语言信息处理-机器翻译机器翻译II II机器翻译评价3机器翻译的评价一直是机器翻译研究领域中一个备受关注的问题;机器翻译的自动评价越来越引起重视“评测驱动评测驱动”成为自然语言处理研究的一个主成为自然语言处理研究的一个主要动力要动力大规模语料库的出现、各种机器翻译算法的提大规模语料库的出现、各种机器翻译算法的提出,使得开发过程中频繁的评测成为必需出,使得开发过程中频繁的评测成为必需开发过程中频繁的评测只能通过采用自动评测开发过程中频繁的评测只能通过采用自动评测方法方法12/18/202212/18/20225151语言信息处理语言信息处理-机器翻译机器翻译II I

43、I机器翻译的自动评测完全匹配方法与参考译文完全相同的译文才被认为是正确的与参考译文完全相同的译文才被认为是正确的显然该标准过于严格,不适用显然该标准过于严格,不适用编辑距离方法基于测试点的方法基于N元语法的方法12/18/202212/18/20225252语言信息处理语言信息处理-机器翻译机器翻译II II基于编辑距离的机器翻译评测1编辑距离定义:编辑距离定义:从候选译文到参考译文,所需要进行的插入、删除、从候选译文到参考译文,所需要进行的插入、删除、替换操作的次数替换操作的次数举例说明:举例说明:源文:源文:She is a star with the theatre company.Sh

44、e is a star with the theatre company.机器译文:她是与剧院公司的一颗星。机器译文:她是与剧院公司的一颗星。参考译文:她是剧团的明星。参考译文:她是剧团的明星。编辑距离:编辑距离:6 6插入:与插入:与 公司公司 一颗一颗替换:剧团替换:剧团剧院剧院 明星明星星星12/18/202212/18/20225353语言信息处理语言信息处理-机器翻译机器翻译II II基于编辑距离的机器翻译评测2单词错误率:编辑距离除以参考译文中单词数单词错误率:编辑距离除以参考译文中单词数 这个指标是从语音识别中借鉴过来的。这个指标是从语音识别中借鉴过来的。由于语音识别的结果语序是

45、不可变的,而机器翻译的由于语音识别的结果语序是不可变的,而机器翻译的结果语序是可变的,显然这个指标存在一定的缺陷。结果语序是可变的,显然这个指标存在一定的缺陷。与位置无关的单词错误率:计算编辑距离时,不与位置无关的单词错误率:计算编辑距离时,不考虑插入、删除、替换操作的顺序考虑插入、删除、替换操作的顺序 也就是说,候选译文与参考译文相比,多出或不够的也就是说,候选译文与参考译文相比,多出或不够的词进行删除或插入操作,其余不同的词进行替换操作。词进行删除或插入操作,其余不同的词进行替换操作。这个指标与单词错误率相比,允许语序的变化,不过这个指标与单词错误率相比,允许语序的变化,不过又过于灵活。又

46、过于灵活。12/18/202212/18/20225454语言信息处理语言信息处理-机器翻译机器翻译II II基于测试点的机器翻译评测1俞士汶等,机器翻译译文质量自动评估系统,中国中文信息学会1991年论文集,pp.314319基本思想对于每一个句子,孤立测试点,简化测试目标对于每一个句子,孤立测试点,简化测试目标(模拟人类标准化考试的办法)(模拟人类标准化考试的办法)对于每一个句子,采用一种对于每一个句子,采用一种TDLTDL语言描述的语言描述的BNFBNF去与译文匹配,匹配成功则正确,否则错去与译文匹配,匹配成功则正确,否则错误误大批量出题,全面评价机器翻译译文质量大批量出题,全面评价机器

47、翻译译文质量12/18/202212/18/20225555语言信息处理语言信息处理-机器翻译机器翻译II II基于测试点的机器翻译评测2测试点分组:单词、词组、词法、语法(初、中、高级)单词、词组、词法、语法(初、中、高级)测试点示例:源文:源文:I am a student.I am a student.测试:译文中出现测试:译文中出现“学生学生/大学生大学生”为正确为正确源文:源文:I bought a table with three dollars.I bought a table with three dollars.测试:测试:“买买”出现在出现在“美元美元”之后为正确之后为正确

48、源文:源文:I bought a table with three legs.I bought a table with three legs.测试:测试:“买买”出现在出现在“腿腿”之前为正确之前为正确12/18/202212/18/20225656语言信息处理语言信息处理-机器翻译机器翻译II II基于测试点的机器翻译评测3优点:全自动全自动实验证明,评价结果是可信的实验证明,评价结果是可信的可以按照人类专家的要求进行单项评测可以按照人类专家的要求进行单项评测缺点题库的构造需要具有专门知识的专家,并且成题库的构造需要具有专门知识的专家,并且成本较高本较高12/18/202212/18/20

49、225757语言信息处理语言信息处理-机器翻译机器翻译II II基于N元语法的机器翻译评测1Kishore Papineni,Salim Roukos,Todd Ward,Wei-Jing Zhu,Bleu:a Method for Automatic Evaluation of Machine Translation,IBM Research,RC22176(W0109-022)September 17,2001基本思想用译文中出现的用译文中出现的N N元组和参考译文中出现的元组和参考译文中出现的N N元元组相比,计算匹配的组相比,计算匹配的N N元组个数与候选译文的元组个数与候选译文的N

50、N元组总个数的比例元组总个数的比例允许一个源文有多个参考译文,综合评分允许一个源文有多个参考译文,综合评分12/18/202212/18/20225858语言信息处理语言信息处理-机器翻译机器翻译II II基于N元语法的机器翻译评测2源文:党指挥枪是我党的行动指南。源文:党指挥枪是我党的行动指南。候选译文:候选译文:It is a guide to action which ensures that the military always It is a guide to action which ensures that the military always obeys the comma

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁