2022年语音识别及其关键技术 .pdf-淘文阁

资源描述

《2022年语音识别及其关键技术 .pdf》由会员分享，可在线阅读，更多相关《2022年语音识别及其关键技术 .pdf（7页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、语音识别及其关键技术一、语音识别概述语音识别技术以语音信号处理为研究对象，涉及语言学、计算机科学、信号处理、生理学、心理学等诸多领域，是模式识别的重要分支。该技术有非常广阔的应用前景，从年代至今，世界许多著名公司不惜投入巨资进行开发研究。我国的北京大学和中科院声学研究所一直紧跟国际水平，进行汉语语音识别技术的研究工作。年代，是语音识别研究工作的开始时期，它以贝尔实验室研制成功可识别十个数字的犃狌犱狉狔系统为标志。年代，计算机广泛应用于语音识别的研究工作中，动态规划和线性预测分析技术是这一时期的重要成果。年代，语音识别的研究取得了突破性进展。基于线性预测倒谱和动态时间规整技术的特定人孤立语音识别

2、系统被研制成功，提出了矢量量化和隐马尔可夫模型理论。年代，语音识别的研究工作进一步深入。其标志是人工神经元网络在语音识别中的成功应用。年代，随着计算机技术的飞速发展，语音识别正从研究走向实用，其研究成果已达到相当高的水平。年，正象美国微软公司总裁所说的那样，语音识别技术将使计算机丢掉键盘和鼠标。这无疑将改变我们许多人的工作和生活方式。二、语音识别所面临的问题尽管语音识别的研究工作迄今已近年，但仍未有突破性进展，主要原因如下：语音识别系统的适应性差。全世界有近百种官方语言，每种语言有多达几名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - -

3、 - 名师精心整理 - - - - - - - 第 1 页，共 7 页 - - - - - - - - - 十种方言，同种语言的不同方言在语音上相差悬殊，这样，随着语言环境的改变，系统性能会变得很差。在强噪声干扰环境下语音识别困难。由于语音数据大部分都是在接近理想的条件下采集的，语音识别的编码方案在研制时都要在高保真设备上录制语音，尤其要在无噪环境下录音。然而，当语音处理由实验室走向实际应用时，环境噪声的存在所带来的问题就变得越来越重要。特别是线性预测作为语音处理技术中最有效的手段，恰恰是最容易受噪声影响的。体态语言难以识别。有人在讲话时习惯用眼神、手势、面部表情等动作协助表达自己的思想。由于

4、这种体态语言的含义与个人习惯、文化背景、宗教信仰及生存地域等因素有关，其信息提取非常困难。对于 ?类由中枢神经控制的?忆机理、听觉理解机理、联想判断机理等人们目前仍知之甚少。三、语音识别系统语音识别系统的分类方式及依据如下：? 根据对说话人说话方式的要求，可分为孤立词语音识别系统，连接词语音识别系统和连续语音识别系统。? 根据对说话人的依赖程度，可分为特定人语音识别系统和非特定人语音识别系统。 ? 根据词汇量大小，可分为小词汇量、中等词汇量、大词汇量及无限词汇量语音识别名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理

5、 - - - - - - - 第 2 页，共 7 页 - - - - - - - - - 系统。孤立单词识别系统孤立单词指单词之间有停顿，这可使识别问题大为简化。因为单词的端点检测（即检测单词的起点和终点）比较容易，而且单词之间的协同发音影响可减至最低。此外，一般对孤立单词发音比较认真，由于单词之间必须有停顿，读起来就不能太流利。鉴于以上原因，孤立单词识别系统存在的问题最少，其许多技术可以用于单词挑选和连续语音识别系统。连续语音识别系统连续语音识别系统有两个重要问题是孤立单词识别系统所没有的：（）切分，即对单词之间边界位置的确定。因为语言中短语的数量太大，对整个短语进行识别显然是不可能的，必须

6、把输入的语流切分为更小的组成部分。这就要求系统必须能够识别单词之间的边界。这一点比较困难，因为确定单词之间的边界位置没有现成的方法。（）发音变化，即关联语言的发音比孤立单词发音更随便，受协同发音的影响更为严重。解决上述问题通常采用扩展动态时间规整技术。语音理解系统语音理解一词出自美国远景研究计划局资助的一个庞大的连续语音识别研究项目，其目标称为语音理解系统。众所周知，只有人才能很好地识别语音，因为人对语音有广泛的知识，人对要说的话有预见性和感知分析能力，因此，指望机器对语言的识别能力超过人是不现实的，最好的办法是使机器也能名师资料总结 - - -精品资料欢迎下载 - - - - - - - -

7、 - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 7 页 - - - - - - - - - “ 理解 ” 语言，并且能象人一样运用这种理解力。由于在人工智能领域对知识的应用和知识的表示问题更加感性趣，这对语音识别来说无疑是有力地鼓舞。运用这种理解力可以指望系统：（）能排除噪声和嘈杂声（即含糊不清或无关的语言）；（）能理解上下文的意思并能用它来纠正错误，澄清不确定的语义；（）能够处理不合语法或不完整的语句。由此看来，语音理解系统的主要问题是知识的表示和系统的组织问题。与其它语音处理问题相比，该系统更加依赖于人工智能研究。四、语音识别的关键技术语

8、音识别的关键技术包括特征参数提取技术、模式匹配准则及模型训练技术、语音识别单元选取。特征参数提取技术所谓特征参数提取，就是从语言信号中提取用于语音识别的有用信息。研究人员已对许多可以表征说话人个人特征的语音特征进行了探讨，大多数特征选取方案不是试图集中在声道构造的个体差异方面，就是试图集中在说话习惯的个人特征方面。特征参数提取所考虑的参数为：（）单词中选定位置上的基音；（）鼻辅音的频谱特性；（）选定元音的频谱特性；（）激励频谱的估计斜率；（）擦音的频谱特性；（）选定元音的时长；（）选定语言环?中提前发声的存在。采用试验句进行录音时所考虑的特征参数为：（）元音的共振峰频率和共振峰带宽以及声门源的

9、极点（由阶线性预测分析来计算）；（）鼻辅音中极点频率的位置；名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页，共 7 页 - - - - - - - - - （）选定实验句的基音轮廓；（）时变特性，尤其是在复合?音的整个发音期间和音位的收尾阶段第二共振峰的变化率。线性预测分析是应用较广的特征参数提取技术，其核心是由信号的过去值预测其将来值。线性预测的概念早在本世纪年代就已被提出，然而将其应用于语音识别，不仅希望利用其预测功能，而且要求它为我们提供一个非常好的声道模型，而这样的声

10、道模型对于理论研究和实际应用都是相当有用的。此外，声道模型的优良性能不仅意味着线性预测是语音编码的特别合适的编码方法，而且意味着预测参数是语音识别的非常重要的信息来源。模式匹配及模型训练技术模式匹配是指根据一定准则，使未知模式与模型库中某一模型获得最佳匹配。模型训练是指按照一定准则，从大量已知模式中提取表示该模式特征的模型参数。语音识别所应用的模式匹配和模型训练技术有：动态时间规整技术、隐马尔克夫模型、人工神经网络。时间规整即时间校正，是把一个单词内的时变特征变为一致的过程。HMM 是把未知量均匀地伸长或缩短，直到它与参考模式的长度一致时为止。在时间规整过程中，未知单词的时间轴要不均匀地扭曲或

11、弯折，以便使其特征与模型特征对正。HMM 是一种非常有力的对正措施，对提高系统的识别精度极为有效。HMM 是语言信号名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页，共 7 页 - - - - - - - - - 时变特征的参数表示法，由相互关联的两个随机过程共同描述信号的统计特性。模型参数包括HMM 拓扑结构，状态转移概率和描述观察符号统计特性的一组随机函数。HMM 的性能在很多应用中都可以和DTW 相比，而计算代价只有后者的几分之一。采用这种技术，我们要以一个只具有有限不同

12、状态的系统作为语音生成模型。每个状态皆可产生有限个输出。在生成一个单词时，系统不断地由一个状态转移到另一个状态，每一个状态都产生一个输出，直到整个单词输出完毕。状态之间的转移是随机的，每一状态下的输出也是随机的。由于允许随机转移和随机输出，所以HMM 能适应发音的各种微妙变化。在识别词表中，每一个单词都要用一个这样的模型来表示。识别器要做的工作就是输出，识别的任务就是决定由哪一个模型提供输出。因为模型本身对识别器来说是看不见的，它只能根据获得的数据推导出来，故称为隐马尔可夫模型。ANN 在语音识别中的应用是目前研究的热点。该网络本质上是一个自适应非线性动力学系统，模拟了人类大脑神经元活动的基本

13、原理，具有学习、记忆判断、联想、对比、推理、概括等能力。与HMM 和 ANN 相比， DTW 是较早的一种模式匹配和模型训练技术，它应用动态规划法成功地解决了在语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好的性能。但由于它不适合连续语音大词汇量语音识别系统，目前已被HMM 和 ANN 所代替。语音识别单元的选取名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页，共 7 页 - - - - - - - - - 语音识别单元的选取是语音识别研究工作很重要的第一

14、步，语音识别单元有单词、音节、音素三种，具体选哪种，由研究任务决定。单词单元适用于中小词汇语音识别系统，不适合于大词汇系统。因为庞大的模型库意味着繁重的模型训练任务和复杂的模型匹配算法，这难以满足实时性要求。音节单元多见于汉语识别，主要因为汉语是单音节结构的语言，而英语等语言是多音节。如果不考虑声调的话，汉语大约有个音节，这个数量相对较少。所以，对于大词汇量汉语语音识别系统而言，以音节为识别单元是较为合适的。音素单元多用于英语语音识别研究，因为英语是多音节语言。但大、中词汇汉语语音识别系统也在越来越多地采用。毫无疑问，飞速发展的计算机技术推动了语音识别技术的突破性进展，语音识别技术又反过来作用于计算机。假如微软公司的语音识别技术真正能使计算机彻底丢掉键盘和鼠标的话，这将不仅是计算机发展史上的又一场革命，而且将改变我们许多人的工作和生活方式，因为动口比动手要容易得多. 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页，共 7 页 - - - - - - - - -

展开阅读全文