《基于词语对齐融合提高统计机器翻译质量-PowerPoin.pptx》由会员分享,可在线阅读,更多相关《基于词语对齐融合提高统计机器翻译质量-PowerPoin.pptx(21页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、基于词语对齐融合提高统计机器翻译质量 张春越 哈尔滨工业大学机器智能与翻译研究室提纲 研究动机 两种词对齐结果分析 词对齐结果融合策略 实验设置与结果分析 结论与未来工作研究动机 词对齐是当前主流机器翻译技术的基础 目前广泛使用的是Giza+实现的IBM Model4 对齐模型 近年来,研究者也相继提出不少其他的词对齐方法 不同的词对齐工具并没有绝对意义上的优劣之分 目前学术界对词对齐质量和机器翻译性能之间的关系还没有一个明确的共识 本文切入点 给定两种差异较大的词对齐工具 ,在同一语料上进行词对齐获取 利用这两组不同词对齐的语料共同训练机器翻译模型,是否可以提高机器翻译性能?提纲 研究动机
2、两种词对齐结果分析 词对齐结果融合策略 实验设置与结果分析 结论与未来工作两种词对齐工具 IBM词对齐模型 GIZA+ 两个方向 “grow-diag-final” 合并为 n-to-m对齐 HIT-MITLAB词对齐模型 统计和词典相结合 贪心算法实现 SSMT07语料上对齐结果差异度分析 Step1: 分别进行GIZA+词对齐(GIZA+双向一对多词对齐,然后采用“grow-diag-final”启发式策略获得双向词对齐,下文用 “G” 代称)和HIT-MITLAB词对齐(下文用 “H” 代称); Step2: 对两组词对齐结果计算其并集(HG)、交集(HG)、差集(H-G, G-H);
3、Step3: 合并两组词对齐语料成为合并语料; Step4: 基于合并语料获取词汇概率表(lex.f2n, lex.n2f) ; Step5: 根据词汇概率表lex.f2n,lex.n2f,计算各个集合的词对齐关系的平均翻译分值。 Step6: 统计各种数据,分析两种词对齐信息是否具有明显差异。H、G词对齐集合统计词对齐集合统计 GIZA+获取了超过1千万的词对齐个数 而HIT-MITLAB只获得7百多万词对齐个数 H和G相同的词对齐数只占G本身的44.8%,占H本身67% 其他数据同样显示出,两者的差异非常明显 词对齐集合 H G HG HG H-G G-H词对齐数7,089,06110,6
4、75,7404,787,38112,977,4202,301,6805,888,359各个集合的词对齐翻译平均分数(1) 假设S为一个词对齐集合,(f,e)为任意一个词对齐,Plex_f2n和Plex_n2f为词汇翻译概率表,则有 2(, )f2n( |)AvgScore(S)=( )fnf eSPlexe fsizeof S2(, )n2f(| )AvgScore(S)=( )nff eSPlexf esizeof S各个集合的词对齐翻译平均分数(2) 两个均分都满足: HG H G HG G-HH-G 融合两者有希望获得性能上的改善 词对齐集合 H G HG HG H-G G-H0.227
5、4340.1940500.3122550.1686800.0510110.0979450.2574960.2126170.3513930.1859390.0621960.099780f2nAvgScore (S)n2fAvgScore(S) H、G词对齐平均词翻译概率统计提纲 研究动机 两种词对齐结果分析 词对齐结果融合策略 实验设置与结果分析 结论与未来工作词对齐结果融合策略 IBM词对齐模型实验(G) HIT-MITLAB词对齐模型实验(H) 数据融合实验(HGdc) 训练语料: 将H与G两个训练语料直接合并 模型融合实验(HGmc) 将在H和G两组数据上分别训练得到的模型直接合并 提纲
6、研究动机 两种词对齐结果分析 词对齐结果融合策略 实验设置与结果分析实验设置与结果分析 结论与未来工作实验设置 实验平台 Moses 训练语料 SSMT07-811812句 开发集 SSMT07汉英开发集 测试集 SSMT07汉英测试集对比实验结果 HGdc比G提高了近0.7个BLEU值 减少了未登录词(UNK)的数目 注:表中的PP代表后处理(Post Processing),包括去掉 UNK,以及一些标点的前向粘结,如 It s - its , end . - end.。.H、G、HGdc、HGmc实验结果实验结果实验BLEUBLEU after PPUNK数H18.2418.84463G
7、19.6120.15477HGdc20.3420.83363HGmc19.3919.94363不同源语言短语数统计不同源语言短语数统计 这个短语数和UNK的个数直接相关 HGdc比G多出2,240个 这些短语使得HGdc的UNK个数比G的下降了114个各组实验中不同源语言短语数统计(用测试集进行过滤后)词对齐集合 HGHGdc短语数21,34420,13322,373例子对比Test卵磷脂卵磷脂 被 医学 专家 视为 老年性 痴呆 的 克星 , 还 可 防治 动脉 粥 样 硬化 。G卵磷脂卵磷脂 medical experts deemed old senility , the prevent
8、ion and control of killers atherosclerotic arteries . HGdclecithin medical experts as old senility of prevention and control of , atherosclerotic arteries . 译文对比结果HGdc短语表短语表中文短语英文短语,卵磷脂lecithinB 复合体 之一,卵磷脂 的that is a constituent of lecithin 卵磷脂lecithinHGdc短语表G的短语表的短语表 中文短语英文短语, 卵磷脂 的 一 种 要素that is a
9、 constituent of lecithin, 卵磷脂 的 一 种 要素 ;that is a constituent of lecithin ;卵磷脂 的 一 种 要素a constituent of lecithin卵磷脂 的 一 种 要素is a constituent of lecithin卵磷脂 的 一 种 要素 ;a constituent of lecithin ;卵磷脂 的 一 种 要素 ;is a constituent of lecithin ;之一 , 卵磷脂 的 一 种 要素that is a constituent of lecithinCWMT08测试集上的最终得分 BLEUCE新闻0.2104EC新闻0.2425EC科技0.4620谢谢!