2022年语音合成技术及其研究进展 .pdf

上传人:Q****o 文档编号:28024756 上传时间:2022-07-26 格式:PDF 页数:5 大小:45.37KB
返回 下载 相关 举报
2022年语音合成技术及其研究进展 .pdf_第1页
第1页 / 共5页
2022年语音合成技术及其研究进展 .pdf_第2页
第2页 / 共5页
点击查看更多>>
资源描述

《2022年语音合成技术及其研究进展 .pdf》由会员分享,可在线阅读,更多相关《2022年语音合成技术及其研究进展 .pdf(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、语音合成技术及其研究进展摘要: 文章围绕语音合成技术及其相关问题进行了系统分析,归纳出了语音合成技术未来发展的几个重要方向。关键词: 信息处理;语音合成;TTS ;波形拼接技术正文:0 语音合成技术概述语音合成 (Speech Synthesis)是指由人工通过一定的机器设备产生出语音。语音合成是一门跨学科的技术,它涉及声学、语言学、心理学、数字信号处理、人工智能、 计算机科学等多个学科技术,是信息处理领域的一项前沿技术,它的研究将推动相关学科的进步和发展。目前语音合成技术已是世界强国竞相研究的热点之一,国内外很多科研机构致力于此项技术。近20 年来,语音合成技术取得显著进步,开始从实验室走向

2、市场。语音合成技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。 特别是随着计算机技术、多媒体技术以及人工智能的不断发展,语音合成技术作为一种新的信息传递技术逐渐被计算机产品或其他的电子产品所使用,以新的技术应用在人机交互介质中 。具体方法是利用计算机将任意组合的文本转化为声音文件,并通过声卡、电话语音卡等多媒体设备将声音输出的技术,简单的说就是让机器把文字资料“读” 出来。这种新的信息传递方式比传统的信息输入输出方式更加灵活、快捷和方便,因此语音编码取代字符编码成为信息的主要传递元素将成为信息技术发展的必然趋势,这也使得语音合成一直受到各国科学界的广泛关注。在中国

3、,语音合成技术具有非常惊人的市场潜力,是一个活跃的研究课题。1 语音合成技术发展到今天已有200 多年的历史, 但自计算机技术被发展起来以后才有了长足的发展。现在比较广为使用的语音系统是根据人类言语功能的不同层次把它分成3 个层次:从文字到语音的合成 (Text-To-Speech );从名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 5 页 - - - - - - - - - 概念到 语音的合成( Concept-To-Speech);从意向到语音的合成(Intenti

4、on-To-Speech这 3 个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动。这 3 个层次分别为:表音、表意、表情。通常人们将语音合成系1.1 从语音合成系统的应用和需求角度出发,可以把语音合成技术分为:使用录音/ 重放技术的特定应用系统和以文语转换系统(TTS )为主的通用计算机语1.2 语音合成系统从采用的合成技术分为基于规则和基于拼接的合成。基于规则的合成主要计算参数的轨迹,形成规则, 完成语音的参数合成。 基于拼接的合成也叫可计算声学模型, 主要采用的是将足够的语音单元 (语音基元)存入设备中,在合成时采用恰当的技术手段挑选出所需的语音单元进行拼接、韵律修

5、改。基于拼接 的合成方法基元取自自然语音的词和句子,它隐含了声调、重音、发音速度变化时的细微特性,合成的语音较清晰自然。2 语音合成技术的研究进展2.1 国外语音合成技术的研究进展语音合成技术的研究历史悠久,已有200多年的历史,共经历了4 个发展阶段, 这里可以将这 4 个发展阶段分为计算机技术前语音合成方法、计算机技术发展后的参数合成方法, 后来随着计算机技术进一步的发展又出现了波形拼接的合成(PSOLA) 方法和基于数据库的语音合成等方法。但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音。名师资料

6、总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 5 页 - - - - - - - - - 计算机技术发展前, 人们就尝试研究语音合成技术,如:Gerbert 、Albertus Magnus和 Roge r Bacon制造的“ speaking head”。计算机技术发展并应用后,第 1 个基于计算机的语音合成系统在20世纪 50 年代后期诞生, 第 1 个完 整的英文 TTS系统在 1968 年完成。从那时起至今,语音合成技术经历了各种各样的技术改进。最近几年,一种新的基于数

7、据库的语音合成方法得到了更多应用。在这个方法中,合成语句的语音单元是从一个预先录下的语音数据库中挑选出来的,不难想象只要语音数据库足够大,包括了各种可能语境下的语音单元,理论上讲就有可能拼接出任何语句。由于合成的语音基元都是来自自然的原始发音,合成语句的清晰度和自然度都将会非常高。2.2 国内的汉语语音合成研究起步较晚,20世纪 80 年代初期,国内汉语语音合成研究基本与国际上研 究同步发展。大致也经历了共振峰合成、LPC合成到应用 PSOLA 技术的过程。在国家 863 计划 、 国家自然科学基金委、 国家攻关计划、中国科学院有关项目等支持下,汉语TTS技术有了长足的进步。 1993 年中国

8、科学院声学所的 KX-PSOLA 、清华大学的 TH_SPEECH;1995 年联想佳音、中国科技大学的 KDTALK 等系统相继问世。3 语音合成发展方向3.1 提高合成语音的自然度提高合成语音的自然度仍然是高性能文语转换的当务之急。基于语音数据库的语音合成方法有望进一步提高语音合成的自然度。因为这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的,因此有可能最大限度地保留语音的自然度。但这种方法也存在一定的问题,例如:如何确定语音合成的基元;韵律参数定量化问题,对数据库进行定标问题;以及如何将统计的方法和规则方法相结合使机器能自动名师资料总

9、结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 5 页 - - - - - - - - - 3.2 目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。随着信息社会的需求发展, 对人机交互提出了更高的要求, 人机口语对话系统的研究也提到了日程上。即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。3.3 语音合成技术正在走向市场。为了适应社会的需求,

10、需不断扩大语音合成的应用场合及实用场合。就目前文语转换系统而言,减小语音库容量就是一个重要课题。目前高质量的文语转换系统一般需要几十兆,甚至几百兆字节的存储容量,这在以 PC机为硬件平台的应用中是没有问题的,而对于象 HPC ,PDA及无线通信手机等嵌入式系统上就无法承受。3.4 多语种文语合成语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要,多语种的文语合成有着独特的应用价值。理想的多语种合成系统最好是各种语言共用一种合成算法或语音合成器,但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的,所采用的算法及规则都是和某种

11、语言密切相关的,因此很难推广到其他4 语音是人机交互的重要手段,具有广阔的前景。语音技术已成为智能计算机领域的研究热点,但是技术的成熟度、应用的广泛性与需求还有较大的差距。计算机要真正能够象人一样的说话,和人类自由地进行交谈,这仍然是需假以名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 5 页 - - - - - - - - - 参考文献 1 M.A. 萨波日科夫,B.D. 米哈依洛夫,王世福, 张志明译 声码器通信M 北京: 宇航出版社, 1988.2 王仁华语音合成技

12、术最新研究进展及其应用展望J 中兴通讯技术,200 3 ,(5):37 39.3 赵力语音信号处理 M 北京 : 机械工业出版社, 2003.140210.4 何敏,高光来,赵斯琴蒙古语文语转换系统的研究与实现J内蒙古 大学学报 ( 自然科学版 ),2004,35(1):102 104.5 Min Chu ,Hu Peng ,Hongyun Yang ,Eric Chang Selecting Non-Uniform Un its from a Very Large Corpus for Concatenative Speech Synthesizer ICASSP2001 R,Salt La

13、ke City,2001 .6 田会利基于词干词缀的有限条词的蒙古语语音合成系统的研究D 呼和浩特:内蒙古大学, 2007.7 申金女文语转换系统若干问题研究 D北京邮电大学, 2006.8 Mixdorff H Speech technology,ToBI and making sense of prosody 2002. 9 Silverman K;BeckmanM;Pitrelli J ToBI:a standard for labeling English prosody 1992 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 5 页 - - - - - - - - -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术总结

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁