双语语料库段落重组对齐方法研究.ppt

上传人:豆**** 文档编号:77611547 上传时间:2023-03-15 格式:PPT 页数:32 大小:229.50KB
返回 下载 相关 举报
双语语料库段落重组对齐方法研究.ppt_第1页
第1页 / 共32页
双语语料库段落重组对齐方法研究.ppt_第2页
第2页 / 共32页
点击查看更多>>
资源描述

《双语语料库段落重组对齐方法研究.ppt》由会员分享,可在线阅读,更多相关《双语语料库段落重组对齐方法研究.ppt(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、双语语料库段落重组对齐方法研究 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望主要内容n引言n方法n结果n讨论2Information Retrieval Lab HIThttp:/构建双语语料库n机器翻译和跨语言检索解决人类的不同语言之间的障碍n双语资源给机器翻译和跨语言检索提供了有力的支持,尤其是双语语料库n构建双语语料库(英汉双语语料库)是一项十分有意义的工作3Information Retrieval Lab HIThttp:/真实双语文本的特征n网络资源

2、丰富n篇章级对齐n内容分散n格式复杂n风格各异4Information Retrieval Lab HIThttp:/目前的问题n不同的对齐精度n段落、句子、词和短语的对齐n上一级的对齐是下一级对齐的基础n经过统计发现90%以上的电子文本中的段落并不对应或者没有明显的段落标记5Information Retrieval Lab HIThttp:/段落对齐和段落重组对齐n段落对齐是进行对齐加工的第一步n对段落对齐研究的很少n段落对齐的目的是句子对齐n段落重组对齐是打破原有的段落标记,对篇章进行重新分段,仅仅在形式上对篇章进行对齐6Information Retrieval Lab HIThttp

3、:/句子对齐n基于长度的句子对齐n长句对应的译文长,短句对应译文短n根据长度的不同单词个数-Brown et al.(1991c)字符的个数-Gale and Church(1993)n基于词典的句子对齐7Information Retrieval Lab HIThttp:/段落重组对齐(1)n自动分段对齐研究(中科院计算所)n将原有的段落合并n通过汉英词汇对之间的特征比较,包括词的出现频率、字节偏移量、出现间隔向量n找到可以用于分段的锚点词汇对n通过锚点词所在句子的匹配获得锚点句子进行分段8Information Retrieval Lab HIThttp:/段落重组对齐(2)n适合含有较多

4、高频固定词的双语文本n适合于术语提取n数据稀疏(较少高频固定词)n需要分词等预处理9Information Retrieval Lab HIThttp:/主要内容n引言n方法n结果n讨论10Information Retrieval Lab HIThttp:/几个概念n锚点 n句珠n二分图(完全二分图)n匹配 n最优对齐匹配 11Information Retrieval Lab HIThttp:/锚点和句珠n锚点(anchor)nBrown在对Hansard语料库进行对齐时,引入了锚点的概念,认为锚点的作用就是将整个语料库分成一些小的对齐片断n句珠(Sentence bead)n每一对相对应

5、的句子称作句珠12Information Retrieval Lab HIThttp:/二分图n设G为无向图,G=,结点集V有两个子集V1,V2满足V1 V2V,V1V2,使G的每一条边eE时,e=vi,vj,viV1,vjV2,即同一子集Vi(il,2)中的任何两个结点都不邻接,称这样的图为二分图。13Information Retrieval Lab HIThttp:/完全二分图nG记为G=V1,E,V2。对于二分图G中,若V1的每个结点与V2的每个结点相邻接,反之亦然。则称G为完全二分图,若|V1|m,|V2|n,则简记为Km,n,如图所示 14Information Retrieval

6、 Lab HIThttp:/匹配(Matching)n设G是二分图,如E的一个子集M中的边无公共端点,即任两边均不邻接,则M为G的一个匹配。n最优对齐匹配15Information Retrieval Lab HIThttp:/最优对齐匹配nM为完全二分图G=的一个最优对齐匹配,满足以下条件:n二分图中所有的节点是有序的 n若|S|=m,|T|=n则首先默认sm,tnE;nM中若存在一条边e=si,tj满足d(si,tj)D(D为特定的阈值);此时,M中不存在边sk,tr使得kj或ki且rj成立;n采用贪心算法依次在完全二分图G中选取权值最小的边,直到M中边数达到饱和。16Informatio

7、n Retrieval Lab HIThttp:/最优对齐匹配(图示)S1,S2,S3,S4,S5,S6,S7 Sm-2,Sm-1,SmT1,T2,T3,T4,T5,T6,T7 Tn-2,Tn-1,Tn 17Information Retrieval Lab HIThttp:/段落对齐问题和模型的关系nS(s1,s2,s3,si,sj,sm)V1nT(t1,t2,t3,ti,tj,tn)V2n(1:1)型句珠(si,tj)的集合Km,nn默认文本中最后一句对齐sm,tnE n双语段落重组对齐 寻找最优对齐匹配18Information Retrieval Lab HIThttp:/段落重组对齐

8、的锚点选择 n(1:1)型正确对齐句珠在文本中的分布情况 n(1:1)的句对在全篇的比例均超过85%,并且有着良好的分布规律 19Information Retrieval Lab HIThttp:/段落重组对齐总体思想n篇章定位n句长搭配n词典校对20Information Retrieval Lab HIThttp:/形式对齐评价函数 nPi,j=a(Pui,j-P0)+(Pli,j-P0)+a(Pdi,j-P0)P0为对应文本长度之比;Pui,j为对应上文部分长度之比;Pli,j为对应句长度之比;Pdi,j对应下文部分长度之比;a为加权系数21Information Retrieval

9、Lab HIThttp:/第150句第50句第12句英语文本第120句第40句第10句 汉语文本重组段落对齐思想P0锚点句对Pui,jPli,jPdi,j22Information Retrieval Lab HIThttp:/锚点句对的校验n词典检验 L|表示全部元素的字符长度和;Match(S)表示译文出现在汉语句中英语单词;Match(T)表示成为英文单词译文的汉语单词;23Information Retrieval Lab HIThttp:/主要内容n引言n方法n结果n讨论24Information Retrieval Lab HIThttp:/试验结果(1)n召回率=(返回段落总数

10、错误段落总数)/双语文本中(1:1)型正确句珠总数;n准确率=(返回段落总数 错误段落总数)/返回段落总数;25Information Retrieval Lab HIThttp:/试验结果(2)文本1文本2(1:1)型句珠总数158169提取锚点总数108121准确率99.07%100%召回率68.35%71.60%n 重组分段的结果一般每一段落的句子数在10句以内。26Information Retrieval Lab HIThttp:/重组分段的实例(1)-originalnAround 30 people have staged a naked protest against GM f

11、ood.The protesters spelled out no GM with their bodies in a meadow at Forest Row,East Sussex.nOrganiser Mike Grenville said he hoped it would send a message to the Government of peoples concern,particularly over commercial planting of GM crops.nMr Grenville,51,a self-employed business consultant fro

12、m Forest Row,said:I think people were very pleased to have the opportunity to express how we feel,how frustrated we are about what seems to be the foregone conclusion,and the question many people are saying is What do we do next?.We hope others will follow our lead and find other ways to express how

13、 we feel.We do not want GM crops planted in the country at all.n约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。n51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,跟我们一起找到其他表达内心感受的方法。我们根本不希望在这个国家里种植基因改良

14、作物。27Information Retrieval Lab HIThttp:/重组分段的实例(2)-MergednAround 30 people have staged a naked protest against GM food.The protesters spelled out no GM with their bodies in a meadow at Forest Row,East Sussex.Organiser Mike Grenville said he hoped it would send a message to the Government of peoples

15、concern,particularly over commercial planting of GM crops.Mr Grenville,51,a self-employed business consultant from Forest Row,said:I think people were very pleased to have the opportunity to express how we feel,how frustrated we are about what seems to be the foregone conclusion,and the question man

16、y people are saying is What do we do next?.We hope others will follow our lead and find other ways to express how we feel.We do not want GM crops planted in the country at all.n约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因

17、改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,跟我们一起找到其他表达内心感受的方法。我们根本不希望在这个国家里种植基因改良作物。28Information Retrieval Lab HIThttp:/重组分段的实例(3)-ReAlignnAround 30 people have staged a naked protest against GM food.The protesters spelled out“no GM”with their bodies in a meadow at Fo

18、rest Row,East Sussex.Organiser Mike Grenville said he hoped it would send a message to the Government of peoples concern,particularly over commercial planting of GM crops.nMr Grenville,51,a self-employed business consultant from Forest Row,said:I think people were very pleased to have the opportunit

19、y to express how we feel,how frustrated we are about what seems to be the foregone conclusion,and the question many people are saying is What do we do next?.nWe hope others will follow our lead and find other ways to express how we feel.nWe do not want GM crops planted in the country at all.n约30名人士在

20、英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。n51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,n跟我们一起找到其他表达内心感受的方法。n我们根本不希望在这个国家里种植基因改良作物。29Information Retrieval Lab HIThttp:/主要内容n引言n方法n结果n讨论30Information Retrieval Lab HIThttp:/讨论n有效的抑制了错误蔓延n该算法有很强的鲁棒性n在进行词典检验时,无需对汉语分词,实现简单,代价较小n适合各种形式的语料31Information Retrieval Lab HIThttp:/Thanks!32Information Retrieval Lab HIThttp:/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁