《语音信号处理语音识别.优秀PPT.ppt》由会员分享,可在线阅读,更多相关《语音信号处理语音识别.优秀PPT.ppt(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、9.1 9.1 概述概述v语音音识别(SpeechRecognitionSpeechRecognition)主要指)主要指让机器听懂人机器听懂人说的的话,即在各种状况下,精确地,即在各种状况下,精确地识别出出语音的内容,从而依据音的内容,从而依据其信息,其信息,执行人的各种意行人的各种意图。它是一。它是一门涉及面很广的交叉学涉及面很广的交叉学科,与科,与计算机、通信、算机、通信、语音音语言学、数理言学、数理统计、信号、信号处理、理、神神经生理学、神生理学、神经心理学和人工智能等学科都有着心理学和人工智能等学科都有着亲密的关密的关系。系。一般一般语语音音识别识别系系统统按不同的角度有下面几种分按
2、不同的角度有下面几种分类类方法。方法。孤立孤立词词、连连接接词词、连续语连续语音音识别识别系系统统以及以及语语音理解和会音理解和会话话系系统统。大大词汇词汇、中、中词汇词汇和小和小词汇词汇量量语语音音识别识别系系统统。特定人和非特定人特定人和非特定人语语音音识别识别系系统统。语语音音识别识别所接受的方法也可以作所接受的方法也可以作为语为语音音识别识别系系统统分分类类的依据,的依据,因此,也有从因此,也有从识别识别方法上来方法上来对语对语音音识别识别系系统进统进行分行分类类的。的。语语音音识别识别方法一般有模板匹配法、随机模型法和概率方法一般有模板匹配法、随机模型法和概率语语法分析法分析法三种。
3、法三种。v好用好用语音音识别探探讨中存在的几个主要中存在的几个主要问题和困和困难如下:如下:v(1 1)语音音识别的一种重要的一种重要应用是自然用是自然语言的言的识别和理解。和理解。v(2 2)语音信息的音信息的变更很大。更很大。v(3 3)语音的模糊性。音的模糊性。v(4 4)单个字母及个字母及单个个词语发音音时语音特性受上下文音特性受上下文环境的境的影响,使相同字母有不同的影响,使相同字母有不同的语音特性。音特性。v(5 5)环境的噪声和干境的噪声和干扰对语音音识别有有严峻影响。峻影响。9.2 9.2 语音识别原理和识别系统的组成语音识别原理和识别系统的组成v语音音识别系系统是建立在确定的
4、硬件平台和操作系是建立在确定的硬件平台和操作系统之上的一之上的一套套应用用软件系件系统。v语音音识别一般分两个步一般分两个步骤。第一步是系。第一步是系统“学学习”或或“训练”阶段。其次步是段。其次步是“识别”或或“测试”阶段。段。v语音音识别技技术加上各种外加上各种外围技技术的的组合,才能构成一个完整合,才能构成一个完整的的实际应用的用的语音音识别系系统。从。从语音音识别系系统的各个功能划的各个功能划分的角度分的角度动身,身,语音音识别系系统可分可分为语音信号的音信号的预处理部分、理部分、语音音识别系系统的核心算法部分以及的核心算法部分以及语音音识别系系统的基本数据的基本数据库等几部分。等几部
5、分。v一般一般语音音识别系系统框框图 9.2.1预处预处理和参数分析理和参数分析语语音信号音信号预处预处理部分包括:理部分包括:语语音信号的音信号的电压电压放大、反混叠放大、反混叠滤滤波、波、自自动动增益限制、模数增益限制、模数变换变换、去除声、去除声门门激励及口唇激励及口唇辐辐射的影射的影响等。响等。这这里里仅对仅对个个别须别须要留意的地方做一些介要留意的地方做一些介绍绍。话话筒自适筒自适应应和和输输入入电电平的平的设设定:定:输输入入语语音信号的品音信号的品质对语质对语音音识识别别性能的影响很大,因此,性能的影响很大,因此,对话对话筒的耐噪声性能要求很高。筒的耐噪声性能要求很高。选择选择好
6、的麦克好的麦克风风,不,不仅仅能提高能提高输输入入语语音音质质量,而且,量,而且,还还有助有助于提高整个系于提高整个系统统的的鲁鲁棒性。棒性。为为了保持高精度的了保持高精度的语语音分析,音分析,A/D变换变换的的电电平必需正确的平必需正确的设设定。同定。同时还时还要通要通过过AGC来自来自动动的的调调整整输输入入电电平放大的倍数或者通平放大的倍数或者通过对过对于于输输入数据入数据进进行行规规整整处处理来限制理来限制语语音数据幅度的音数据幅度的变变更。更。v抗噪声:抗噪声:环境噪声不行能完全消退。境噪声不行能完全消退。对于手自由的于手自由的语音音识别(Hand-FreeHand-Free),),
7、话筒与嘴有确定距离的筒与嘴有确定距离的时候,以及在汽候,以及在汽车里或里或户外等四周外等四周环境噪声大的境噪声大的时候必需候必需对输入信号入信号进行降噪行降噪处理。理。对于平于平稳噪声,噪声,传统的的谱相减(相减(SSSS)降噪声技)降噪声技术是有是有效的,效的,对于非平于非平稳噪声也有通噪声也有通过两个两个话筒分筒分别输入入语音和噪音和噪声相互抵消加以消退的方法。声相互抵消加以消退的方法。v语音区音区间的端点的端点检测:端点端点检测的目的是从包含的目的是从包含语音的一段音的一段信号中确定出信号中确定出语音的起点以及音的起点以及终点。有效的端点点。有效的端点检测不不仅能能使使处理理时间减到最小
8、,而且能解除无声段的噪声干减到最小,而且能解除无声段的噪声干扰,从而,从而使使识别系系统具有良好的具有良好的识别性能。性能。传统的端点的端点检测方法是将方法是将语音信号的短音信号的短时能量与能量与过零率相零率相结合加以推断的。但合加以推断的。但这种端种端点点检测算法假如运用不好,将会算法假如运用不好,将会发生漏生漏检或虚或虚检的状况。的状况。为了克服了克服传统端点端点检测算法的缺点,已有很多改算法的缺点,已有很多改进方法被提出方法被提出来。例如,可以考来。例如,可以考虑接受基于相关性的接受基于相关性的语音端点音端点检测算法。算法。v语音参数分析音参数分析:经过预处理后的理后的语音信号,就要音信
9、号,就要对其其进行特行特征参数分析,其目的是抽取征参数分析,其目的是抽取语音特征,以使在音特征,以使在语音音识别时类内距离尽量小,内距离尽量小,类间距离尽量大。距离尽量大。识别参数可以参数可以选择下面的下面的某一种或几种的某一种或几种的组合:平均能量、合:平均能量、过零数或平均零数或平均过零数、零数、频谱、共振峰、倒、共振峰、倒谱、线性性预料系数、料系数、PARCORPARCOR系数(偏自相关系数(偏自相关系数)、声道形系数)、声道形态的尺寸函数,以及音的尺寸函数,以及音长、音高、声、音高、声调等超等超声短信息函数。声短信息函数。v现在,在,经过FFTFFT变换或者或者LPCLPC得到功率得到
10、功率谱以后再以后再经过对数数变换和傅立叶反和傅立叶反变换得到的倒得到的倒谱参数是常用的参数是常用的语音音识别特征参数。特征参数。9.2.2 语语音音识别识别语语音音识别识别是是语语音音识别识别系系统统的核心部分。除包括的核心部分。除包括语语音的声学模型音的声学模型以及相以及相应应的的语语言模型的建立、参数匹配方法、搜言模型的建立、参数匹配方法、搜寻寻算法、算法、话话者自适者自适应应算法,算法,还还包括增加新包括增加新词词的功能、数据的功能、数据库库管理和友好管理和友好的人机交互界面等等。的人机交互界面等等。语语音模型音模型:语语音模型一般指的是用于参数匹配的声学模型。音模型一般指的是用于参数匹
11、配的声学模型。语语音音声学模型的好坏声学模型的好坏对语对语音音识别识别的性能影响很大,的性能影响很大,现现在公在公认认的的较较好的概率好的概率统计统计模型是模型是HMM模型。因模型。因为为HMM可以吸取可以吸取环环境和境和话话者引起的特征参数的者引起的特征参数的变动变动,实现实现非特定人的非特定人的语语音音识别识别。识别识别模型的基元模型的基元单单位的位的选择对选择对于于识别识别性能也有很大的影响。性能也有很大的影响。对对于日于日语语和英和英语语,以半音,以半音节节、环环境依存音素境依存音素为为模型的探模型的探讨讨例例子子较较多。多。对对于于汉语汉语,则则可用可用“声母声母-韵母韵母”,也可用
12、音,也可用音节节字、字、词词等等识别识别基元。基元。v连续语音的自音的自动分段分段:连续语音的自音的自动分段,是指从分段,是指从语音信音信号流中自号流中自动地分割出地分割出识别基元的基元的问题。把。把连续的的语音信号分音信号分成成对应于各音的区于各音的区间叫做分割(叫做分割(Segmentation),分割的),分割的结果果产生的区生的区间叫做分割区叫做分割区间(Segment),),给分割区分割区间付与付与表示音种的符号叫做符号化。表示音种的符号叫做符号化。汉语自自动分段是指依据分段是指依据汉语特特点及其参数的点及其参数的统计规律,律,设置某些参数的置某些参数的阈值,用,用计算机程算机程序自
13、序自动的的进行分段。通常可用的参数有:行分段。通常可用的参数有:帧平均能量、平均能量、帧平平均均过零数、零数、线性性预料的第一个反射系数或其残差序列、音料的第一个反射系数或其残差序列、音调值等。从等。从简洁、快速的要求而言,最好接受前两种、快速的要求而言,最好接受前两种时域参数域参数即即帧平均能量平均能量FN和和帧平均平均过零数零数ZN。v语音音识别方法方法:当今当今语音音识别技技术的主流算法,主要有基于的主流算法,主要有基于参数模型的参数模型的隐马尔可夫模型(可夫模型(HMMHMM)的方法和基于非参数模)的方法和基于非参数模型的矢量量化(型的矢量量化(VQVQ)的方法。另外,基于人工神)的方
14、法。另外,基于人工神经网网络(ANN)(ANN)的的语音音识别方法,也得到了很好的方法,也得到了很好的应用。用。v传统的基于的基于动态时间伸伸缩的算法(的算法(DTWDTW),在),在连续语音音识别中仍旧是主流方法。同中仍旧是主流方法。同时,在小,在小词汇量、孤立字量、孤立字(词)识别系系统中,也已有很多改中,也已有很多改进的的DTWDTW算法被提出。算法被提出。v用于用于语音音识别的距离的距离测度有多种,如欧氏距离及其度有多种,如欧氏距离及其变形的欧氏距离形的欧氏距离测度、似然比度、似然比测度、加度、加权的的识别测度等。度等。选择什么什么样的距离的距离测度与度与识别系系统接受什么接受什么语音
15、特征参数和什么音特征参数和什么样的的识别模型有关,模型有关,v计算量和存算量和存储量的削减:量的削减:对于在有限的硬件和于在有限的硬件和软件件资源下源下动作的作的语音音识别系系统,降低,降低识别处理的理的计算量和存算量和存储量特量特别重重要。当用要。当用HMMHMM作作为识别模型模型时,特征矢量的,特征矢量的输出概率出概率计算以算以及及输入入语音和音和语音模型的匹配搜音模型的匹配搜寻将占用很大的将占用很大的时间和空和空间。为了削减了削减计算量和存算量和存储量,可以量,可以进行行语音或者音或者标准模式的矢准模式的矢量量化和聚量量化和聚类运算分析,利用代表运算分析,利用代表语音特征的中心音特征的中
16、心值进行匹行匹配。在配。在HMMHMM语音音识别系系统中,中,识别运算运算时输出概率出概率计算所消算所消耗的耗的计算量算量较大,所以可以在大,所以可以在输出概率出概率计算上接受快速算法。算上接受快速算法。另外另外为了提高搜了提高搜寻效率,可以接受效率,可以接受线搜搜寻方法以及向前向后方法以及向前向后的的组合搜合搜寻法等。法等。v拒拒识别处理:由于用理:由于用户发音的音的错误,可能出,可能出现系系统词汇表以表以外的外的单词或者句子,同或者句子,同时,在噪声,在噪声环境下由噪音引起的境下由噪音引起的语音音区区间检测错误也可能也可能产生很多生很多误识别的的结果。所以在果。所以在实际语音音识别系系统中
17、,中,对信任度低的信任度低的识别结果的果的RejectionRejection处理也理也是一个很重要的是一个很重要的课题,可以考,可以考虑利用音利用音节识别得到的得分得到的得分补偿的方式的方式进行拒行拒识别处理,在理,在这种方式中,利用在不限定种方式中,利用在不限定识别对象的条件下求得的参考得分来象的条件下求得的参考得分来补偿的的识别结果,并用果,并用补偿过的的识别得分得分进行拒行拒识别判定。判定。v识别结果确果确认,候,候补选择:为了避开由于了避开由于误识别而而产生的生的ApplicationApplication的的误动作,可以作,可以让用用户对识别结果果进行确定,行确定,或者或者给用用户
18、供供应复数个复数个识别结果侯果侯选,让用用户自己自己选择正确正确的的结果。果。v用用户设定:一台定:一台识别系系统被多个用被多个用户运用的运用的场合。系合。系统必需必需具有具有记忆和和选择每个用每个用户特定模型的功能。同特定模型的功能。同时,每个用,每个用户可以随可以随时在自己的在自己的词典里增加或典里增加或删减减单词的功能,以及系的功能,以及系统依据确定的特征信息自依据确定的特征信息自动进行不同用行不同用户间的的ApplicationApplication识别程序的切程序的切换的功能。的功能。9.2.3 语语音音识别识别系系统统的基本数据的基本数据库库 语语音音识别识别系系统统中包括大量的限
19、制参数信息,中包括大量的限制参数信息,这这些参数以数些参数以数据据库库的方式存的方式存储储在在计计算机内算机内,构成了构成了语语音音识别识别系系统统的基本数据的基本数据库库。它。它们们是通是通过过“训练训练”(或叫(或叫“学学习习”)的方法,从)的方法,从单讲话单讲话者者或多或多讲话讲话者的多次重复者的多次重复发发音的音的语语音参数以及大量的音参数以及大量的语语法法规则规则中,中,经过长时间经过长时间的的训练训练而聚而聚类类得到的。得到的。须须要指出的是,一个成功的要指出的是,一个成功的语语音音识别识别系系统统的建立,确定的建立,确定要要结结合其具体的合其具体的应应用背景,用背景,选择选择不同
20、的不同的识别识别策略、以及硬件策略、以及硬件平台和平台和软软件平台。另外,更件平台。另外,更应应留意的是,留意的是,语语音音识别识别系系统统的建的建立立应应当当结结合合语语言的自然特点,否言的自然特点,否则则,将很,将很难难达到达到较较高的水平。高的水平。v单词词典和文法:一般来典和文法:一般来说,在多任,在多任务环境中,境中,对于一个于一个ApplicationApplication,要定,要定义相相应的的单词集合,依据集合,依据识别结果或果或ApplicationApplication的的动作作进行行单词集之集之间的切的切换。在文上法要依。在文上法要依据具体的据具体的Application
21、Application,首先,首先设定和分析定和分析输入入语句的句的语义内内容;然后,依据容;然后,依据语义内容的句法表内容的句法表现、主、主、谓语的种的种类、语序、序、语的省略等,构造的省略等,构造单词字典以及文法,同字典以及文法,同时,文法上的,文法上的单词间的的语义依存关系可以利用依存关系表格表示。通依存关系可以利用依存关系表格表示。通过单词词典、文法以及声学模型(如典、文法以及声学模型(如HMMHMM)和句法分析搜)和句法分析搜寻算法算法的共同的共同编译,得到用于,得到用于识别的系的系统网网络。v词典典编辑、文法开、文法开发工具:高效的工具:高效的单词词典典编辑、文法制作工具的开文法制作工具的开发是很重要的。可以依据不同用是很重要的。可以依据不同用户的的实力或具体的力或具体的ApplicationApplication的困的困难程度,供程度,供应最最佳的用佳的用户接口和最适接口和最适应的工具性能。的工具性能。vAPIAPI:为了使了使语音音识别和和ApplicationApplication更更紧密的密的结合,合,实现对语音音识别系系统的自的自动限制,限制,APIAPI是必需的。可是必需的。可以通以通过APIAPI来来实现语音音识别环境的切境的切换,识别起先、起先、终止等止等对识别系系统的限制。的限制。