《关于谷歌翻译的论文范文5篇(3),英语论文.docx》由会员分享,可在线阅读,更多相关《关于谷歌翻译的论文范文5篇(3),英语论文.docx(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于谷歌翻译的论文范文5篇(3),英语论文内容提要: 在大数据时代,怎样通过数据分析挖掘事物的内在规律是人们需要考虑的问题。谷歌翻译基于 最好的表示出为出现频率最高的表示出 这样的认识,将翻译问题转化为统计问题。本文以谷歌翻译为案例,具体分析了案例背景、实现经过,并给出案例反思。谷歌翻译的成功之处在于,将实际问题巧妙地转化为统计问题,并利用其强大的计算能力解决问题。其瓶颈在于,当下的方式方法只利用了大数据的少量信息,不能充分刻画大数据的全部信息。谷歌翻译对问题的转化和处理方式是大数据应用的典范,对利用大数据解决实际问题有重要的借鉴意义。 本文关键词语: 谷歌翻译; 统计机器翻译; 最大熵; 最
2、小误差率损失。 一、背景 谷歌翻译是谷歌公司推出的针对文本、语音、图像以及实时视频的多语种翻译服务。该项目始于2001 年,上线初期采用其他同类型公司 例如雅虎类似的机器翻译系统,但是翻译精度并不理想1.譬如在 2004 年,上述机器翻译系统机械地将总统候选人克里 Kerry 翻译成 爱尔兰的小母牛 2.2004 年下半年起,随着 Franz Josef Och 成为其首席科学家,谷歌翻译进入迅速发展阶段。在 2005 年的NIST 机器翻译系统比赛中,谷歌翻译一举拿到第一名。在 2006 年的比赛中,谷歌翻译几乎包揽全部比赛项目的第一名3.根据维基百科颁布的数据,截至 2021 年 1 月,
3、谷歌翻译支持 90 种语言,天天为超过两亿人提供免费的多种语言翻译服务。 Och 以为, 句法知识对统计机器翻译毫无受益之处,甚至有反作用 3.因而由他领衔的谷歌翻译放弃了基于句法规则的机器翻译模型。在实践中,Och 的 基本想法是从数据中学习 2.因而谷歌翻译的工作本质上是基于多种语言的平行语料库,结合统计和数学方式方法,构建大数据分析模型挖掘各种语言间的内在规律。根据 Och 的观点,谷歌翻译 构造非常非常大的语言模型,比人类历史上任何人曾经构造的都要大 2.因而,谷歌翻译本质是一种大数据分析模型,翻译结果则是基于训练好的模型,进行样本外预测泛化的结果。 2006 年,谷歌采用联合国 6
4、国官方语言文档作为平行语料库。随着互联网技术的不断进步,谷歌把握的互联网数据越来越庞大,具有明显的大数据的 4V 特征4 : 这些平行语料库数据不仅数量庞大,而且种类很多,包括文本、声音、图像等大量非构造化数据,蕴含着大量的信息。另一方面,对于某些小语种,其语料库密度相对较低,具有明显的稀疏性。 尽管近年来谷歌翻译发展很快,但是也面临众多问题和挑战。Och5指出了统计机器翻译 当然包括谷歌翻译 的缺乏: 一是不同语言组的翻译效果不一样。例如,中译英不如阿拉伯语译英。二是翻译的结果不稳健,有些文档翻译结果很好,有些很差。三是不同题材的文档翻译效果不一样,例如体育新闻比政治新闻更难翻译。而最近维基
5、百科提供的资料表示清楚,对于不同语言组的翻译效果不一样的问题,当前谷歌翻译还没有很好解决。另外还表示清楚,谷歌翻译不能翻译过长的文档; 不能辨别语法构造,例如不能处理时态和虚拟语气。因而,就当前的情况而言,谷歌翻译至少面临上述缺乏,需要面对的挑战还很多。 本文将以谷歌利用大数据分析实现机器翻译为案例,分析大数据分析在本案例中怎样应用,阐述实现经过中的基本思想。并且从本案例成功方面和缺乏方面进行考虑,阐述谷歌翻译对利用大数据分析解决实际问题的启示。 二、实现经过 谷歌翻译采用的基本工具是统计机器翻译模型 Statistical Machine Translation,SMT .该模型将语句视为由
6、基本语言单位构成的序列。不妨设源语言的语句为 f = f1,f2, ,fJ ,目的语言的语句为 e = e1,e2, ,eI .华而不实,fj和 ei是基本的语言单元,例如词汇、短语等。在已经知道源语言的情况下,对应的最有可能出现的目的语言语句就是翻译的结果,即翻译结果为 e= argmaxP e | f .围绕怎样估计翻译模型中的条件概率,产生了很多机器翻译模型。20 世纪 90 年代初,IBM 研究人员提出噪音信道模型6,并给出了相应的数学基础和算法7,这些研究成果为统计机器翻译模型的研究奠定了基础。但是,接下来的研究进展缓慢,直到 2001 年谷歌开场机器翻译项目时,效果还很不理想。Oc
7、h 采用了与噪音信道模型完全不同的参数化方式方法,提出了对数线性模型的参数化方式方法。Och 的研究为谷歌翻译奠定了坚实的理论基础。下面阐述这些模型的基本思想。 一 翻译模型 Och 等8在 2002 年提出了基于对数线性模型的参数化方式方法: 华而不实,hm e,f 为特征函数 feature function , m是权重。特征函数事先选定,不同的特征函数将得到不同的翻译模型。事实上,当取 M = 2, 1= 2= 1,h1 e,f = logP f| e ,h2 e,f = logP e 时,式 1 就退化为噪声信道模型。因而,式 1 是一种非常一般的模型。但是一般情况下,权重是未知参数
8、,需要进行估计。 式 1 是这类模型的最基本形式。为了进一步考察不同语言间,基本语言单位之间的对应关系,能够在式 1 的基础上引入一个隐随机变量 a,这个随机变量是对不同语言间基本语言单位对应关系的刻画。于是式 1 改良为: 式 2 能够解决语言单位之间的一对一和一对多的对应关系。但是对于多对一和多对多的情形,需要进一步改良。Och 等9在 1999 年的文章中初次提出对应板块 Alignment Template 的概念。其处理方式方法的本质是将平行预测料想分块,在不同分块中,再考虑不同的对应问题。这种处理方式方法在一定程度上考虑了上下文信息,和不同语言间语法构造的不同,因而在统计翻译模型中
9、有重要地位。对应分块模型的表示出式如下: 华而不实,z K表示对应板块,a K表示对应板块中的对应关系。式 3 中有 3 个连乘的条件概率,能够分别利用对数线性模型进行参数化,并且能够选择不同的特征函数。进而增加建模的灵敏性10. 二 参数估计和翻译结果 翻译模型中的参数是特征函数的权重: = 1, , M .在经典统计理论中,对数线性模型能够采用极大似然方式方法估计参数。但是,当数据是大量的平行语料库时,对总体是不能做合理的分布假定的,直接采用极大似然估计不适宜。Och10根据信息论中的最大互信息 Maximum MutualInformation原理构造了基于最大熵的损失函数,通过最大化损
10、失函数,得到参数估计,即: 华而不实,源语言有 RS种目的语言的参考译文:es,1, ,es,RS.基于损失函数式 4 和式 5 的翻译模型称为最大熵模型 Maximum Entropy Models . Och11进一步指出,最大熵模型的优化本质上是翻译好坏的间接评价,为此他提出基于最小误差率损失 Minimum Error Rate 的参数估计方式方法。这种损失函数是基于对翻译结果的直接评价得到的,其详细表示出式为: 华而不实,E 是误差函数,用于刻画参考译文 es与模型给出的翻译 e fs; 之间的差异。实践证明,基于损失函数式 6 的翻译模型优于最大熵模型12.2020 年,Och 等
11、人将该方式方法申请了专利。 在得到权重估计值之后,最终的机器翻译问题便归结为模型的样本外预测问题,即: 华而不实,e表示从源语言 f 出发得到目的语言的翻译结果。 三、案例反思 谷歌翻译的成功,是利用大数据分析解决实际问题的典范。但是,当下谷歌翻译还有很多瑕疵,不可能到达人工翻译的精到准确度。围绕此案例,我们从四个方面进行反思总结。 第一,谷歌翻译是大数据时代的产物,其效果的好坏遭到平行语料库数据量的制约。从翻译模型的定义能够看出,谷歌翻译的基本思想是由训练样本探寻求索语言规律的经过。华而不实不同语言之间的对应规则是模型参数。谷歌翻译试图用平行语料库反映出来的规律来揣测参数。由于语言规则复杂,
12、势必要求样本信息足够大才能有好的效果。尽管谷歌把握的平行语料库总量很大,但是也面临三个不同: 不同的语言组之间的平行语料库数量不同; 不同题材的平行语料库不同; 不同语言组的翻译需要的样本量不同。上述差异是造成谷歌翻译处理不同语言组效果不一、处理不同题材文档效果不一的重要原因。这个事实也启示我们,大数据时代,数据的大小是相对的,对某些复杂问题必然需要大数据。例如对于进一步提高中译英精度的问题,当下的数据量似乎还不够大,谷歌需要找到更多的平行语料库才能逐步解决这些问题。 第二,谷歌翻译模型在辨别上下文信息方面存在缺乏。事实上,谷歌翻译模型只通过引入隐变量刻画了基本语言单位的对应关系。但是,对于语
13、言,上下文不仅仅仅是邻近的几个词汇和短语的信息就足够了。很多时候上下句之间就构成了上下文。甚至段落与段落之间,都需要考虑的上下文。从辨别文本信息角度而言,谷歌翻译的算法只辨别了文本的少部分信息。这就造成机器翻译不能辨别语法信息,例如时态,虚拟语气等。当然更不可能与人工翻译的质量相提并论。语法的重要性对于翻译而言是显而易见的。为了让计算机能够辨别语法信息,仅仅让计算机辨别少量上下文信息是不够的。需要愈加先进的方式方法,经历体验贝叶斯方式方法13可能是一条途径。事实上,贝叶斯方式方法已经在人工智能方面有了成功的应用,例如 Lake B M 等14,实现了机器人像人类一般学习书写。 第三,大规模计算
14、问题是统计翻译模型面临的重要问题。谷歌翻译不能翻译过长的文档,很重要的原因是计算能力的限制。但是,模型的复杂度和模型的效果需要进行权衡。追求精到准确是建模的重要目的。但是谷歌翻译的案例显示,考虑到模型的复杂度,有时候需要牺牲一部分精到准确度,并且对翻译的文档长度进行限制。吴军2以噪音信道模型为例阐述了这个问题,假定取长度为 n 个词作为一个基本语言单位,则模型的空间复杂度为 OVn ,时间复杂度为 OVn -1 .华而不实,V为语言词典的词汇量。随着 n 的增大,计算量呈指数级增长。但是n = 3 和 n = 4 之间的精到准确度变化不如 n = 2 和 n = 3.事实上也是如此,当前谷歌翻
15、译模型选择 n = 42.因而,囿于计算能力,模型复杂度不可能过高,翻译文档也不能过长。 第四,谷歌翻译模型没有对模型参数做任何分布假定。这和经典的统计建模区别明显。检验模型好坏的标准不牵涉经典统计学中的显着、p 值等概念。翻译结果的好坏是检验模型好坏的唯一标准。从统计学习角度而言,模型外推能力是检验模型好坏的唯一标准。这是和经典统计研究方式的一个很重要的差异不同。事实上,对于大数据,其分布形式是什么是不得而知的,不能对其分布形式做冒昧的假定。吴军2指出 引入人为的假定,这和蒙没什么差异不同 .这也许是我们在挖掘大数据信息时,非常值得注意的地方。 将本属于语言学范畴的翻译问题,转化为基于大数据
16、分析、利用统计模型和算法进行参数估计和预测的问题,这是谷歌翻译的成功之处。其大数据分析的思想和方式方法特别深入,值得我们学习借鉴。 谷歌翻译的瓶颈在于,当下的技术只利用了数据少量的信息没有充分挖掘文本的全部信息。另外,计算问题也制约着谷歌翻译。因而,发展新的技术,充分挖掘大数据信息,需要人们的进一步考虑。 以下为参考文献 1Levy S. In the plex: How Google thinks,works,and shapes ourlivesM. Simon and Schuster,2018. 2吴军。 数学之美。 第 2 版M. 北京: 人民邮电出版社,2020. 3黄瑾,刘洋,刘
17、群。 机器翻译评测介绍C第一届全国少数民族青年自然语言处理学术研讨会,2008. 4李金昌。 大数据与统计新思维J. 统计研究,2020,31 01 :10 - 17. 5Och F J. Statistical Machine Translation: Foundations and RecentAdvancesEB / OL. In: TENTH MT SUMMIT,2005. 6Nirenburg S,Somers H,Wilks Y. A statistical approach to machinetranslationJ. Computational Linguistics,199
18、0,16 2 : 79 - 85. 7Brown P F,Pietra V J D,Pietra S A D,et al. The Mathematics ofStatistical Machine Translation: Parameter estimation J .Computational Linguistics,1993,19 2 : 263 - 311. 8Och F J,Ney H. Discriminative trainig and maximum entropymodels for statistical machine translation C. Proc of An
19、nualMeeting of the Association for Computational Linguistics,2002: 295- 302. 9Och F J,Tillmann C,Ney H. Improved alignment models forstatistical machine translationC/ / Proc. of the Joint SIGDATConf. on Empirical Methods in Natural Language Processing andVery Large Corpora. 1999: 20 - 28. 10Och F J,
20、Ney H. The Alignment Template Approach to StatisticalMachine Translation. J. Computational Linguistics,2004,30 4 :417 -449. 11Och F J. Minimum error rate training in statistical machinetranslation C/ / Proceedings of the 41st Annual Meeting onAssociation for Computational Linguistics-Volume 1. Assoc
21、iation forComputational Linguistics,2003: 160 - 167. 12宗成庆。 统计自然语言处理。 第 2 版M. 北京: 清华大学出版社,2020. 13Efron B. Large-Scale InferenceM. Cambridge University PressCambridge,2018. 14Lake B M, Salakhutdinov R, Tenenbaum J B. Human-levelconcept learning through probabilistic program induction J.Science,2021,350 6266 : 1332 - 1338.