语音识别技术介绍优秀PPT.ppt-淘文阁

资源描述

《语音识别技术介绍优秀PPT.ppt》由会员分享，可在线阅读，更多相关《语音识别技术介绍优秀PPT.ppt（33页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、语音识别概述语音识别概述让机器听懂人类的语音，这是人们长期以来梦寐以求的事情。伴随计算机技术发展，语音识别己成为信息产业领域的标记性技术，在人机交互应用中渐渐进入我们日常的生活，并快速发展成为“变更将来人类生活方式厅的关键技术之一。语音识别技术以语音信号为探讨对象，是语音信号处理的一个重要探讨方向。其最终目标是实现人与机器进行自然语言通信。发展和现状：20世纪50年头，AT&T Bell(贝尔)探讨所成功研制了世界上第一个能识别10个英文数字的语音识别系统一Audry系统，这标记着语音识别探讨的起先。60年头计算机的应用推动了语音识别的发展。这一时期的重要成果是动态规划(Dynamic Pr

2、ogramming,DP)和线性预料分析(Linear Predictive)技术。其中后者较好的解决了语音信号产生的模型问题，对语音识别产生了深远的影响。语音识别概述语音识别概述 70年头语音识别领域取得了突破。在理论上，LP 技术得到进一步发展，动态时间规整技术(DTW)的基本成熟，特殊是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上，小词汇量孤立词的识别方面取得了实质性的进展，实现了基于线性预料倒谱和DTW技术的特定人孤立语音识别系统。这一时期的语音识别方法基本上是接受传统的模式识别策略。80年头语音识别探讨进一步走向深化，其显著特征是HMM模型和人工神经元网络(ANN)

3、在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&T Bel试验室的Rabiner等科学家的努力，他们把HMM纯数学模型工程化，从而为更多探讨者了解和相识。探讨的重点渐渐转向大词汇量、非特定人连续语音识别。90年头，随着多媒体时代的来临，在语音识别技术的应用及产品化方面出现了很大的进展。很多发达国家如美国、日本、韩国以及IBM，Apple，AT&T,NTT等著名公司都为语音识别系统的好用化开发投以巨资。语音识别技术好用化进程大大加速，并出现了很多好用化产品。IBM公司领先推出的汉语ViaVoice语音识别系统，带有一个32,000词的基本词汇表，可以扩展到65,000词，平均识别率可以

4、达到95%，可以识别上海话、广东话和四川话等地方腔调，是目前具有代表性的汉语连续语音识别系统。语音识别概述语音识别概述 21世纪语音识别技术的应用及产品化方面进一步发展。在语音识别产品方面，各大公司纷纷推出自己产品。目前世界上最先进的语音识别软件，既不是微软生产的，也非IBM制造，它的名字叫做Naturally Speaking，出自于Nuance Communications公司。Naturally Speaking己经得到了大多数用户的认可。用户对着麦克风说话，屏幕上就显示出说话的内容，很简洁识别和订正错误.久而久之，该软件就会适应用户的说话风格。我国语音识别探讨工作起步于五十年头，但近年

5、来发展很快，探讨水平也从试验室逐步走向好用。从1987年起先执行国家863支配后，国家863智能计算机专家组为语音识别技术探讨特地立项，每两年滚动一次。我国语音识别技术的探讨水平己经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。其中，具有代表性的探讨单位是清华高校电子工程系与中科院自动化探讨所模式识别国家重点试验室。由清华高校电子工程系语音技术与专用芯片设计课题组研发的非特定人汉语数码串连续语音识别系统，识别精度达到了94.8%(不定长数字串)和96.8%(定长数字串).语音识别概述语音识别概述语音识别系统分类：语音识别系统分类：从说话者与识别系统的相关性分从

6、说话者与识别系统的相关性分:(1)(1)特定人语音识别系统：仅考虑对于专人的话音进行识别，与说话的语特定人语音识别系统：仅考虑对于专人的话音进行识别，与说话的语种没有关系；种没有关系；(2)(2)非特定人语音识别系统：识别的语音与人无关，通常要用大量不同人非特定人语音识别系统：识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行学习，识别的语言取决于接受的训练语音库；的语音数据库对识别系统进行学习，识别的语言取决于接受的训练语音库；(3)(3)多人的识别系统：通常能识别一组人的语音该系统通常要求对该组人多人的识别系统：通常能识别一组人的语音该系统通常要求对该组人的语音进行学习，通常

7、可以识别三到五个人的语音。的语音进行学习，通常可以识别三到五个人的语音。从说话的方式分从说话的方式分:(1)(1)孤立词语音识别系统孤立词语音识别系统:其输入系统要求输入每个词后要停顿其输入系统要求输入每个词后要停顿;(2)(2)连接词语音识别系统连接词语音识别系统:其输入系统要求对每个词都清晰发音其输入系统要求对每个词都清晰发音,起先出现起先出现一些连音现象一些连音现象;(3)(3)连续语音识别系统连续语音识别系统:连续语音输入自然流利的语音，会出现大量的连连续语音输入自然流利的语音，会出现大量的连音和变音。音和变音。另外从识别系统的词汇量大小分另外从识别系统的词汇量大小分:小词汇量语音识别

8、系统（几十个词）；中小词汇量语音识别系统（几十个词）；中等词汇量语音识别系统（几百到上千个词）；大词汇量语音识别系统（几千到几等词汇量语音识别系统（几百到上千个词）；大词汇量语音识别系统（几千到几万个词）。万个词）。语音识别概述语音识别概述语音识别的基本方法语音识别的基本方法:一般来说，语音识别的方法有三种：基于声道模型和语音学问的方法、一般来说，语音识别的方法有三种：基于声道模型和语音学问的方法、模模板匹配的方法以及利用人工神经网络的方法。板匹配的方法以及利用人工神经网络的方法。(1)(1)语音学和声学的方法语音学和声学的方法该方法起步较早，在语音识别技术提出的起先，就有了这方面的探讨，但

9、该方法起步较早，在语音识别技术提出的起先，就有了这方面的探讨，但由由于其模型及语音学问过于困难，现阶段没有达到好用的阶段于其模型及语音学问过于困难，现阶段没有达到好用的阶段.(2)(2)模板匹配的方法模板匹配的方法模板匹配的方法发展比较成熟，目前己达到了好用阶段。常用的技术有模板匹配的方法发展比较成熟，目前己达到了好用阶段。常用的技术有三种三种:动态时间规整动态时间规整(DTW)(DTW)、隐马尔可夫、隐马尔可夫(HMM)(HMM)理论、矢量量化理论、矢量量化(VQ)(VQ)技术。技术。(3)(3)神经网络的方法神经网络的方法基于基于ANNANN的语音识别系统通常由神经元、训练算法及网络结

10、构等三大要素构的语音识别系统通常由神经元、训练算法及网络结构等三大要素构成。由于基于神经网络的训练识别算法由于实现起来较困难，目前仍只是处成。由于基于神经网络的训练识别算法由于实现起来较困难，目前仍只是处于试验室探讨阶段。于试验室探讨阶段。语音识别概述语音识别概述目前语音识别的探讨主流是大词汇量的非特定人的连续语音系统，但是事实上，对于很多应用来说，一个语音识别系统只要一组词汇或吩咐，它就可能为用户供应一个有效的工具，简洁有效的孤立词特定人语音识别系统就能满足要求。正是孤立词特定人语音识别系统广袤的应用前景以及优越性促使我们接着对它进行探讨目前市场上出现的语音识别器大多数是特定人孤立单词语

11、音识别系统。孤立词语音识别系统中的难点问题：(1)语音信号的多变性语音信号是非平稳随机信号，不但不同发音者发音之间存在重大的差异，即使同一人同一语音的不同次发音，也存在很大差异。(2)噪声影响当实际环境中有噪声存在时，简洁造成训练与测试环境不匹配导致语音识别系统性能急剧下降。(3)端点检测统计表明语音识别系统一半以上的识别错误来自端点检测错误。在安静环境下有声段和无声段时能量存在很大差异，由此推断语音的起点。但是当噪声的能量和语音信号的能量接近时就可能造成端点检测的误差从而导致识别结果错误。语音识别概述语音识别概述 (4)词与词的特征空间混叠语音识别的常规方法是利用语音信号的短时周期特

12、性将语音时域采样信号分为若干段，计算出每一段的特征矢量序列作为识别参数。但是很多不同的词语的矢量序列在特征空间中存在混叠现象，甚至有些不同词语的混叠程度会超过同一词语的不同次发音，从而降低识别率。语音识别系统基本原理语音识别系统基本原理语音信号产生模型语音信号产生模型语音是由空气流激励声道产生的。对于浊音、清音和爆破音三种不同类型的音来说，激励源是不同的。浊音激励源是位于声门处的准周期脉冲序列，清音的激励源是位于声道的某个收缩区的空气湍流（类似于噪声），而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。语音生成系统分为三个部分，在声门(声带)以下，称为声门子系统，它产生激励振

13、动，是激励系统:从声门到嘴唇的呼气通道是声道系统:语音从嘴唇辐射出去，所以嘴唇以外是辐射系统。因此，完整的语音信号的数学模型可以用三个子模型:激励模型、声道模型和辐射模型的串联表示。语音信号产生的时域模型语音信号产生的时域模型语音识别系统基本原理语音识别系统基本原理语音识别系统基本原理语音识别系统基本原理语音信号分析基础语音信号分析基础语音信号的分析主要有时域分析和频域分析两种，其他还有倒谱域、语谱分语音信号的分析主要有时域分析和频域分析两种，其他还有倒谱域、语谱分析等。析等。语音信号是一种典型的非平稳信号。语音的形成过程与发音器官的运动亲密语音信号是一种典型的非平稳信号。语音的形成过程与发

14、音器官的运动亲密相关，这种物理运动比起声音振动速度来讲要缓慢得多，因此语音信号可假定为相关，这种物理运动比起声音振动速度来讲要缓慢得多，因此语音信号可假定为短时平稳的，其频谱特性和某些物理参数在短时平稳的，其频谱特性和某些物理参数在10-30ms10-30ms时间段内是近似不变的，对时间段内是近似不变的，对语音信号进行处理都是基于这个假设语音信号进行处理都是基于这个假设语音信号的时域分析参数主要有短时能量、短时平均幅度、短时过零率等，语音信号的时域分析参数主要有短时能量、短时平均幅度、短时过零率等，这些参数主要用在语音端点检测中。频域分析参数主要有基音频率、滤波器组参这些参数主要用在语音端点

15、检测中。频域分析参数主要有基音频率、滤波器组参数、线性预料系数数、线性预料系数(LPC)(LPC)、线性预料倒谱系数、线性预料倒谱系数(Linear Prediction Cepstrum(Linear Prediction Cepstrum Coefficient,LPCC)Coefficient,LPCC)、线谱对参数、线谱对参数(Linear Spectrum Pair,LSP),MEL(Linear Spectrum Pair,LSP),MEL频率倒谱频率倒谱系数系数(Mel-Frequency Cepstrum Coefficient,MFCC)(Mel-Frequency Ceps

16、trum Coefficient,MFCC)等等.语音识别系统基本构成语音识别系统基本构成语音识别系统基本原理语音识别系统基本原理语音识别系统基本原理语音识别系统基本原理预处理预处理预处理部分包括语音信号的采样、反混叠滤波、语音增加，去除声门激励和预处理部分包括语音信号的采样、反混叠滤波、语音增加，去除声门激励和口唇辐射的影响以及噪声影响等，预处理最重要的步骤是端点检测。口唇辐射的影响以及噪声影响等，预处理最重要的步骤是端点检测。特征提取特征提取特征提取部分的作用是从语音信号波形中提取一组或几组能够描述语音信号特征提取部分的作用是从语音信号波形中提取一组或几组能够描述语音信号特征的参数，如

17、平均能量、过零数、共振峰、倒谱、线性预料系数等，以便训练特征的参数，如平均能量、过零数、共振峰、倒谱、线性预料系数等，以便训练和识别。参数的选择干脆关系着语音识别系统识别率的凹凸。和识别。参数的选择干脆关系着语音识别系统识别率的凹凸。训练训练训练是建立模式库的必备过程，词表中每个词对应一个参考模式，它由这个训练是建立模式库的必备过程，词表中每个词对应一个参考模式，它由这个词重复发音多遍，再经特征提取和某种训练中得到。词重复发音多遍，再经特征提取和某种训练中得到。模式匹配模式匹配模式匹配部分是整个系统的核心，其作用是依据确定的准则求取待测语音特模式匹配部分是整个系统的核心，其作用是依据确定的

18、准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度，最匹配的就是识别结果。征参数和语音信息与模式库中相应模板之间的失真测度，最匹配的就是识别结果。预处理及特征参数提取预处理及特征参数提取语音信号的数字化和预处理语音信号的数字化和预处理 1、语音信号数字化、语音信号数字化要了分析说话人的语音，就要将话筒中传来的语音信号转换成计算机所能处要了分析说话人的语音，就要将话筒中传来的语音信号转换成计算机所能处理的数字信号。通过对语音信号特性的分析表明，浊音语音的频谱一般在理的数字信号。通过对语音信号特性的分析表明，浊音语音的频谱一般在4KHz以上便快速下降。而清音语音信号的频谱在以上便

19、快速下降。而清音语音信号的频谱在4KHz以上频段反而呈上升趋势，甚以上频段反而呈上升趋势，甚至超过了至超过了8KHz以后仍没有明显下降的苗头。试验表明语音清晰度和可懂度有明以后仍没有明显下降的苗头。试验表明语音清晰度和可懂度有明显影响的成分最高频率约为显影响的成分最高频率约为5.7KHz。而语音信号本身的冗余度又比较大，少数。而语音信号本身的冗余度又比较大，少数辅音清晰度下降并不明显影响语句的可懂度。因此语音识别时常用的采样频率为辅音清晰度下降并不明显影响语句的可懂度。因此语音识别时常用的采样频率为10KHz或或16KHz。2、预加重、预加重为了消退声门激励和口鼻辐射的影响，须要对语音信号作

20、预加重理。它的目为了消退声门激励和口鼻辐射的影响，须要对语音信号作预加重理。它的目的在于消退低频干扰尤其是的在于消退低频干扰尤其是50Hz的工作频率干扰，将对语音识别更为有用的高的工作频率干扰，将对语音识别更为有用的高频部分的频谱进行提升。使信号的频谱变的平坦，保持在低频到高频的整个频带频部分的频谱进行提升。使信号的频谱变的平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，中，能用同样的信噪比求频谱，以便于频谱分析。以便于频谱分析。预加重数字滤波器一般是一阶的数字滤彼器：预加重数字滤波器一般是一阶的数字滤彼器：，其中，其中u的取值一般介于的取值一般介于0.93和和0.98之间。之间。

21、预处理及特征参数提取预处理及特征参数提取 3 3、语音分帧、语音分帧语音信号常常可假定为短时平稳的，即在语音信号常常可假定为短时平稳的，即在10-20ms10-20ms这样的时间段内，其频谱这样的时间段内，其频谱特性和某些物理特征参量可近似地看作是不变的。这样就可以接受平稳过程的分特性和某些物理特征参量可近似地看作是不变的。这样就可以接受平稳过程的分析处理方法来处理了。这种处理的基本方法是将语音信号分隔为一些短段即分帧析处理方法来处理了。这种处理的基本方法是将语音信号分隔为一些短段即分帧再加以处理。分帧可以接受连续分段的方法，也可接受交叠分段的方法。一般接再加以处理。分帧可以接受连续分段的方

22、法，也可接受交叠分段的方法。一般接受交叠分段的方法，即帧与帧之间有交叠，交叠的目的是使帧与帧之间平滑过渡，受交叠分段的方法，即帧与帧之间有交叠，交叠的目的是使帧与帧之间平滑过渡，保持其连续性。语音信号处理的帧长一般取保持其连续性。语音信号处理的帧长一般取20ms20ms为了减小语音帧的截断效应，须要加窗处理：为了减小语音帧的截断效应，须要加窗处理：矩形窗：矩形窗：HammingHamming：HannHann：矩形窗的主瓣宽度最小，旁瓣高度最高，会导致泄漏现象，汉明窗的主瓣最宽，旁瓣高度最低，可以有效的克服泄漏现象，具有更平滑的低通特性，应用更广泛。预处理及特征参数提取预处理及特征参数提取预处

23、理及特征参数提取预处理及特征参数提取语音信号的时域分析语音信号的时域分析 1、短时平均能量、短时平均能量短时平均能量反映了语音振幅或能量随着时间缓慢变更的规律。可以从语音短时平均能量反映了语音振幅或能量随着时间缓慢变更的规律。可以从语音中区分出浊音来，因为浊音时短时平均能量的值要比清音时短时平均能量的值大中区分出浊音来，因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多。其计算公式如下：很多。其计算公式如下：2、短时过零率、短时过零率短时过零率表示一帧语音中语音信号波形穿过横轴的次数。对于连续信号，短时过零率表示一帧语音中语音信号波形穿过横轴的次数。对于连续信号，过零率意味着时域波

24、形通过时间轴过零率意味着时域波形通过时间轴;在离散时间信号状况下，当相邻的两次抽样在离散时间信号状况下，当相邻的两次抽样具有不同的代数符号时就称为发生了过零具有不同的代数符号时就称为发生了过零.应用短时平均过零率可以得到谱特性应用短时平均过零率可以得到谱特性的粗略估计。短时平均过零率的定义为的粗略估计。短时平均过零率的定义为:浊音时能量集中于较低频率段内，具有较低的过零率，而清音时能量集中于较高浊音时能量集中于较低频率段内，具有较低的过零率，而清音时能量集中于较高频率段内，具有较高的过零率。频率段内，具有较高的过零率。预处理及特征参数提取预处理及特征参数提取预处理及特征参数提取预处理及特征参数

25、提取 3 3、端点检测、端点检测端点检测的目的就是从连续的声音中间检测出每一段语音的起始点和终止端点检测的目的就是从连续的声音中间检测出每一段语音的起始点和终止点，从而达到节约系统资源，便利实时分析的效果。此外，端点检测的好坏还将点，从而达到节约系统资源，便利实时分析的效果。此外，端点检测的好坏还将干脆影响孤立词识别率的凹凸。干脆影响孤立词识别率的凹凸。双门限前端检测算法是经典的起止点检测算法，这种端点检测技术主要利双门限前端检测算法是经典的起止点检测算法，这种端点检测技术主要利用短时过零率特征和每帧的平均幅值特征来推断语音信号的起止点，接受矩形窗用短时过零率特征和每帧的平均幅值特征来推断语

26、音信号的起止点，接受矩形窗进行分帧。进行分帧。预处理及特征参数提取预处理及特征参数提取端点检测效果图端点检测效果图预处理及特征参数提取预处理及特征参数提取语音信号的特征参数提取语音信号的特征参数提取提取特征参数满足的要求：提取特征参数满足的要求：1、能有效地代表语音特征，具有很好的区分性、能有效地代表语音特征，具有很好的区分性 2、参数间有良好的独立性、参数间有良好的独立性 3、特征参数要计算便利，要考虑到语音识别的实时实现、特征参数要计算便利，要考虑到语音识别的实时实现常用的特征参数包括：常用的特征参数包括：线性预料系数线性预料系数(LPC)；线性预料倒谱系数线性预料倒谱系数(Linear

27、 Prediction Cepstrum Coefficient,LPCC)；MEL频率倒谱系数频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)。预处理及特征参数提取预处理及特征参数提取倒谱介绍倒谱介绍倒谱定义为时间序列的倒谱定义为时间序列的z z变换的模的对数的逆变换的模的对数的逆z z变换：变换：倒谱分析的基础是假设语音是激励函数与声道冲激响应的卷积。语音的倒倒谱分析的基础是假设语音是激励函数与声道冲激响应的卷积。语音的倒谱事实上是将语音的频谱（短时谱）取对数后再进行逆傅里叶变换（事实上代之谱事实上是将语音的频谱（短时谱）取对数后再进行逆傅里

28、叶变换（事实上代之以以DFTDFT）得到的。因此，声道滤波器对于倒谱的贡献将表现为）得到的。因此，声道滤波器对于倒谱的贡献将表现为=0=0旁边的峰起；而旁边的峰起；而周期性脉冲激励对倒谱的贡献将表现为具有同样周期的冲击周期性脉冲激励对倒谱的贡献将表现为具有同样周期的冲击。预处理及特征参数提取预处理及特征参数提取线性预料系数线性预料系数(LPC)语音的线性预料基本思想是：语音信号的每个取样值可以用它过去的若干个语音的线性预料基本思想是：语音信号的每个取样值可以用它过去的若干个取样值的线性组合来表示；各加权系数的确定原则是使预料误差的均方值最小。取样值的线性组合来表示；各加权系数的确定原则是使预

29、料误差的均方值最小。假如利用过去假如利用过去p个取样值来进行预料，称为个取样值来进行预料，称为p阶线性预料。阶线性预料。假设前提：假设前提：语音信号可以看成是一个线性时变系统在准周期脉冲序列（相当于浊音）或语音信号可以看成是一个线性时变系统在准周期脉冲序列（相当于浊音）或随即噪声（相当于清音）激励下所产生的输出。对于除鼻音和摩擦音以外的大多随即噪声（相当于清音）激励下所产生的输出。对于除鼻音和摩擦音以外的大多数语音来说，时变线性系统都可以用一个全极点系统来表示。这个全极点时变系数语音来说，时变线性系统都可以用一个全极点系统来表示。这个全极点时变系统的参数随着时间的变更是特别缓慢的，在一帧语音时

30、间内可以近似地认为它是统的参数随着时间的变更是特别缓慢的，在一帧语音时间内可以近似地认为它是非时变的。这样就可以依据该信号过去的非时变的。这样就可以依据该信号过去的p个取样值对信号的当前值进行预料，个取样值对信号的当前值进行预料，而且在均方误差最小的意义上这种预料是最佳的，预料系数必将等于全极点系统而且在均方误差最小的意义上这种预料是最佳的，预料系数必将等于全极点系统的参数。的参数。预处理及特征参数提取预处理及特征参数提取线性预料倒谱系数线性预料倒谱系数(LPCC)通过线性预料得到全极点系统函数为：通过线性预料得到全极点系统函数为：倒谱定义为时间序列的倒谱定义为时间序列的z变换的模的对数的逆变

31、换的模的对数的逆z变换。因此线性预料倒谱可变换。因此线性预料倒谱可表示为：表示为：LPCC系数主要是模拟人的发声模型，未考虑人耳的听觉特性，系数主要是模拟人的发声模型，未考虑人耳的听觉特性，它对元音有它对元音有较好的描述实力，对辅音描述实力及抗噪性能比较差，其优点是计算量小，易于较好的描述实力，对辅音描述实力及抗噪性能比较差，其优点是计算量小，易于实现。实现。预处理及特征参数提取预处理及特征参数提取MEL频率倒谱系数频率倒谱系数MFCCMFCC参数是目前大多数语音识别系统中广泛运用的特征参数，它是基于人参数是目前大多数语音识别系统中广泛运用的特征参数，它是基于人耳的听觉特性。人耳对声音音调的感

32、受与其频率并不成线性关系。而耳的听觉特性。人耳对声音音调的感受与其频率并不成线性关系。而Mel倒谱尺倒谱尺寸，则更符合人耳的听觉特性。寸，则更符合人耳的听觉特性。Mel频率尺度，它的值大体上对应于实际频率的频率尺度，它的值大体上对应于实际频率的对数分布关系。对数分布关系。Mel频率与实际频率的具体关系可用下式表示频率与实际频率的具体关系可用下式表示:MFCC的计算流程可以简洁的概括为以下五个步骤：的计算流程可以简洁的概括为以下五个步骤：1、分帧、分帧2、DFT计算谱系数计算谱系数3、对谱系数的幅值取、对谱系数的幅值取log4、将、将3中的结果转化到中的结果转化到Mel频标下频标下5、做、做DC

33、T变换变换MFCC与基于线性预料的与基于线性预料的LPCC相比，其突出优点是不依靠全极点语音产生相比，其突出优点是不依靠全极点语音产生模型的假定，因而在噪声环境下表现出更强的鲁棒性，在非特定人语音识别方面模型的假定，因而在噪声环境下表现出更强的鲁棒性，在非特定人语音识别方面有利于减小因说话人不同的差异可能带来的影响。不足之处是有利于减小因说话人不同的差异可能带来的影响。不足之处是MFCC方法中多次方法中多次用到用到FFT，故算法的困难程度远大于，故算法的困难程度远大于LPCC方法。方法。Mel滤波器组预处理及特征参数提取预处理及特征参数提取语音模板及相像性推断方法语音模板及相像性推断方法模板训

34、练方法模板训练方法偶然性训练方法偶然性训练方法每个单词的每一遍读音形成一个模板，在识别时，待识别语音特征矢量序列每个单词的每一遍读音形成一个模板，在识别时，待识别语音特征矢量序列用特定的匹配算法分别求得与每个模板的累计失真，然后判别它属于哪一类。用特定的匹配算法分别求得与每个模板的累计失真，然后判别它属于哪一类。鲁棒性训练方法鲁棒性训练方法将每一个词重复说多遍，直到得到一个一样性较好的特征矢量序列。最终得将每一个词重复说多遍，直到得到一个一样性较好的特征矢量序列。最终得到的模板是在一样性较好的特征矢量序列。到的模板是在一样性较好的特征矢量序列。聚类训练法聚类训练法对于非特定人语音识别，

35、要想获得较高的识别率，就须要对多组训练数据进对于非特定人语音识别，要想获得较高的识别率，就须要对多组训练数据进行聚类，以获得牢靠的模板参数。比如矢量量化方法行聚类，以获得牢靠的模板参数。比如矢量量化方法(VQ)(VQ)。语音模板及相像性推断方法语音模板及相像性推断方法模式匹配方法模式匹配方法基于动态模板匹配技术的DTW识别法动态时间弯折(DTW)基于动态规划的思想，解决了发音长短不一的匹配问题，是语音识别中出现较早、较为经典的一种算法。语音模板及相像性推断方法语音模板及相像性推断方法模式匹配方法模式匹配方法基于聚类理论的矢量量化基于聚类理论的矢量量化(VQ)识别法识别法矢量量化是将矢量量

36、化是将n维欧氏空间维欧氏空间中的矢量按某种准则用有限个矢量中的矢量按某种准则用有限个矢量来表示。在矢量量化理中，来表示。在矢量量化理中，称为输入矢量，称为输入矢量，称为量化矢量、称为量化矢量、码字或码矢，码字或码矢，称为码书或码本，码字数目称为码书或码本，码字数目k称为码本大小。称为码本大小。码本设计常接受码本设计常接受LBG算法算法语音模板及相像性推断方法语音模板及相像性推断方法矢量量化示例：矢量量化示例：语音模板及相像性推断方法语音模板及相像性推断方法模式匹配方法模式匹配方法基于随机过程理论的基于随机过程理论的HMM模型模型人的言语过程事实上就是一个双重随机过程，语音信号本身是一个可

37、观测的人的言语过程事实上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑依据语法学问和言语须要时变序列，是由大脑依据语法学问和言语须要(不行观测的状态不行观测的状态)发出的音素的参发出的音素的参数流。数流。HMM合理地仿照了这一过程，它对语音信号的时间序列建立统计模型，合理地仿照了这一过程，它对语音信号的时间序列建立统计模型，很好地描述了语音信号的整体非平稳性和局部平稳性，是较为志向的一种语音模很好地描述了语音信号的整体非平稳性和局部平稳性，是较为志向的一种语音模型。型。基于神经网络识别法基于神经网络识别法人工神经网络人工神经网络(ANN)本质上是一个自适应非线性动力学系统，模拟了人类神本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类实力和输入一输出映射实力在语音识别中都很有吸引力。但由于存在训练、识类实力和输入一输出映射实力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点，目前仍处于试验探究阶段。别时间太长的缺点，目前仍处于试验探究阶段。语音模板及相像性推断方法语音模板及相像性推断方法语音识别中常用的特征及失真测度语音识别中常用的特征及失真测度语音语音4 4单词识别结果单词识别结果Thankyou!

展开阅读全文