语音信号处理.优秀PPT.ppt-淘文阁

资源描述

《语音信号处理.优秀PPT.ppt》由会员分享，可在线阅读，更多相关《语音信号处理.优秀PPT.ppt（75页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Speech Signal Processing 中国矿业高校中国矿业高校信息工程系信息工程系全书三篇，全书三篇，16章（讲章（讲15章）章）第一篇第一篇语音信号处理基础语音信号处理基础其次章其次章语音信号处理的基础学问语音信号处理的基础学问第一章第一章绪论绪论其次篇其次篇语音信号分析语音信号分析第三章第三章语音信号的时域分析语音信号的时域分析第四章第四章语音信号的短时傅里叶分析语音信号的短时傅里叶分析第五章第五章语音信号的同态滤波及倒谱分析语音信号的同态滤波及倒谱分析第六章第六章语音信号的线性预料分析语音信号的线性预料分析第七章第七章语音信号的矢量量化语音信号的矢量量化第

2、八章第八章隐马尔可夫模型（隐马尔可夫模型（HMMHMM）第九章第九章语音检测分析语音检测分析第三篇第三篇语音信号处理技术与应用语音信号处理技术与应用第第十十章章语音编码（一）语音编码（一）波形编码波形编码第十一章第十一章语音编码（二）语音编码（二）声码器技术与混合编码声码器技术与混合编码第十二章第十二章语音合成语音合成第十三章第十三章语音识别语音识别第十四章第十四章说话人识别说话人识别第十五章第十五章语音增加语音增加其次章其次章语音信号处理的基础学问语音信号处理的基础学问语音的产生语音的产生语音的分类语音的分类语音的基本特性语音的基本特性语音的时间波形和频谱特性语音的

3、时间波形和频谱特性语音信号的统计特性语音信号的统计特性声道模型声道模型语音信号语音信号的产生模型的产生模型激励模型激励模型辐射模型辐射模型声管模型声管模型共振峰模型共振峰模型级联型级联型并联型并联型混合型混合型语音感知语音感知定义定义人耳的听力范围人耳的听力范围声音的三要素声音的三要素掩蔽效应掩蔽效应其次章思索题：其次章思索题：什么叫语言？什么叫语音？什么叫语言？什么叫语音？人类的发音器官包括哪些？在发音时各起人类的发音器官包括哪些？在发音时各起了什么作用？了什么作用？说明以下概念：基音频率、共振峰、浊音、说明以下概念：基音频率、共振峰、浊音、清音。清音。语音信号模型包括哪些子模型？激励模型语

4、音信号模型包括哪些子模型？激励模型和辐射模型各属于什么性质的滤波器？和辐射模型各属于什么性质的滤波器？第三章语音信号的时域分析第三章语音信号的时域分析语音处理的目的语音处理的目的语音信号分析方法语音信号分析方法短时分析技术短时分析技术语音信号的语音信号的数字化和预处理数字化和预处理取样率的选择取样率的选择量化字长的选择量化字长的选择预处理预处理短时能量分析短时能量分析短时平均能量的定义短时平均能量的定义窗口形态的选择窗口形态的选择窗口的长度窗口的长度主要用途主要用途直角窗和海明窗直角窗和海明窗的频率特性比较的频率特性比较短时平均幅度短时平均幅度短时过零分析短时过零分析过零分析的概念过零分析的概

5、念短时平均过零数的实现短时平均过零数的实现短时平均过零数的应用短时平均过零数的应用短时相关分析短时相关分析自相关函数的定义自相关函数的定义自相关函数的性质自相关函数的性质短时自相关函数的定义短时自相关函数的定义修正的短时自相关函数修正的短时自相关函数短时平均幅度差函数短时平均幅度差函数(AMDF)相关分析相关分析第三章思索题：第三章思索题：1.在语音信号参数分析前为什么要在语音信号参数分析前为什么要进行预处理，有哪些预处理过程？进行预处理，有哪些预处理过程？2.短时平均能量（平均幅度）和短短时平均能量（平均幅度）和短时平均过零率的定义。这两种时域时平均过零率的定义。这两种时域参数的用途。窗口函

6、数的长度和形参数的用途。窗口函数的长度和形态对它们有什么影响？态对它们有什么影响？3.短时自相关函数和短时平均幅度短时自相关函数和短时平均幅度差函数定义和用途，它们间有什么差函数定义和用途，它们间有什么差异？差异？第四章第四章语音信号的短时傅里叶分析语音信号的短时傅里叶分析短时傅里叶变换的定义短时傅里叶变换的定义短时傅里叶变换的取样率短时傅里叶变换的取样率标准傅里叶变换的说明标准傅里叶变换的说明滤波器的说明滤波器的说明语音信号的短时综合语音信号的短时综合滤波器组求和法滤波器组求和法语谱图可同时在时间和频率上显示语音频谱随可同时在时间和频率上显示语音频谱随时间的变更。时间的变更。第四章思索题

7、：第四章思索题：1.1.语音信号的短时谱的定义。如何提高短语音信号的短时谱的定义。如何提高短时谱的频率辨别率？时谱的频率辨别率？2.2.在求语音信号的短时谱时，对窗函数有在求语音信号的短时谱时，对窗函数有什么要求？什么要求？对语音信号频谱分析接受海对语音信号频谱分析接受海明窗和矩形窗各有什么特点？明窗和矩形窗各有什么特点？3.3.3.3.什么是语谱图？它有什么特性？什么是语谱图？它有什么特性？第五章第五章语音信号的同态滤波及倒谱分析语音信号的同态滤波及倒谱分析同态信号处理也叫同态滤波，它实现了将卷积关系同态信号处理也叫同态滤波，它实现了将卷积关系变换为求和关系的分别处理。变换为求和关系的分

8、别处理。复倒谱和倒谱复倒谱和倒谱同态信号处理的基本原理同态信号处理的基本原理卷积同态系统模型卷积同态系统模型特征系统特征系统D D*和和D D*-1-1 的三步数学运算的三步数学运算语音信号两个卷积重量的复倒谱语音信号两个卷积重量的复倒谱避开相位卷绕的算法避开相位卷绕的算法最小相位信号序列：最小相位信号序列：信号的零极点全部在信号的零极点全部在z z平面单位圆内。平面单位圆内。1.卷积同态系统的组成及意义？特征系统卷积同态系统的组成及意义？特征系统D*和逆特征和逆特征系统系统D*-1 运算的三个步骤是什么？运算的三个步骤是什么？2.什么是复倒谱？什么是倒谱？清、浊音的复倒谱或倒什么是复倒谱？

9、什么是倒谱？清、浊音的复倒谱或倒谱各有什么特点？谱各有什么特点？第五章思索题：第五章思索题：主要内容主要内容6.16.1概述概述6.26.2线性预料分析的基本原理线性预料分析的基本原理6.36.3线性预料分析的解法线性预料分析的解法自相关法自相关法6.46.4格型法格型法6.56.5线性预料分析应用线性预料分析应用 -LPC -LPC谱估计和谱估计和LPCLPC复倒谱复倒谱线性预料分析就是依据已知信号线性预料分析就是依据已知信号s(n)s(n)对各参对各参数数和增益和增益G G进行估计。在这里进行估计。在这里为为线性预料系数线性预料系数 F（z）s(n)图图6-3 6-3 线性预料器线性预

10、料器A(z)s(n)e(n)H（z）u(n)s(n)图图6-1 6-1 信号信号s(n)s(n)的模型化的模型化1.1.如何将信号模型化为模型参数？最常用的是如何将信号模型化为模型参数？最常用的是什么模型？什么叫线性预料？什么叫逆滤波器什么模型？什么叫线性预料？什么叫逆滤波器？2.2.什么叫什么叫LPCLPC参数？参数？PARCORPARCOR参数？参数？LSPLSP参数？参数？3.3.什么是什么是LPCLPC谱？谱？LPCLPC谱估计的特点。谱估计的特点。第六章思索题：第六章思索题：7.17.1概述概述7.27.2矢量量化的基本原理矢量量化的基本原理7.37.3失真测度失真测度7.47.4最

11、佳矢量量化器和码本设计最佳矢量量化器和码本设计7.57.5降低困难度的矢量量化系统降低困难度的矢量量化系统7.67.6语音参数的矢量量化语音参数的矢量量化1.1.矢量量化的定义矢量量化的定义2.2.什么是失真测度？常用的失真测度有哪什么是失真测度？常用的失真测度有哪些？些？3.3.矢量量化器最佳设计的两个条件？矢量量化器最佳设计的两个条件？4.LBG算法算法第七章思索题：第七章思索题：8.1 8.1 概述概述8.2 8.2 隐马尔可夫模型的引入隐马尔可夫模型的引入8.3 8.3 隐马尔可夫模型的定义隐马尔可夫模型的定义8.4 8.4 隐马尔可夫模型三项问题的求解隐马尔可夫模型三项问题的求解

12、1.1.什么叫做隐马尔可夫过程？为什什么叫做隐马尔可夫过程？为什么说语音信号可以看成隐马尔可夫过么说语音信号可以看成隐马尔可夫过程？隐马尔可夫模型有哪些模型参数程？隐马尔可夫模型有哪些模型参数？请叙述这些参数的含义和定义式。？请叙述这些参数的含义和定义式。2.HMM2.HMM模型的结构主要有哪两种？模型的结构主要有哪两种？主要用在什么场合？主要用在什么场合？3.3.转移概率矩阵的计算。转移概率矩阵的计算。第八章思索题第八章思索题语音检测分析语音检测分析语音特征参数的提取和分析。语音特征参数的提取和分析。主要包括：基音检测和共振峰参数的估值。主要包括：基音检测和共振峰参数的估值。简化逆滤波法（简

13、化逆滤波法（SIFTSIFT）基音检测基音检测倒谱法倒谱法自相关法自相关法共振峰估值共振峰估值1.带通滤波器法带通滤波器法2.DFT法法3.倒谱法倒谱法4.LPC法法1.1.基音检测的自相关法中的中心削波处理的思基音检测的自相关法中的中心削波处理的思路及实现过程？路及实现过程？2.2.用倒谱法实现基音检测和共振峰检测的原理用倒谱法实现基音检测和共振峰检测的原理？第九章思索第九章思索题题语音编码的概念、应用和分类等语音编码的概念、应用和分类等语音信号的压缩编码原理语音信号的压缩编码原理对语音进行压缩编码的两个基本依据等对语音进行压缩编码的两个基本依据等语音通信中的语音质量语音通信中的语音质量

14、脉冲编码调制脉冲编码调制(PCM)及其自适应及其自适应自适应量化分为前馈或反馈两种自适应量化分为前馈或反馈两种预料编码及其自适应预料编码及其自适应APC 自适应预料编码自适应预料编码APC系统框图、总量化误差系统框图、总量化误差预料编码可以改善信噪比的缘由预料编码可以改善信噪比的缘由短时预料和长时预料短时预料和长时预料自适应差分编码调制（自适应差分编码调制（ADPCM）1.1.在语音通信中，常将语音质量分为哪四等？在语音通信中，常将语音质量分为哪四等？2.2.语音信号能进行压缩编码的依据是什么？语语音信号能进行压缩编码的依据是什么？语音编码的分类？音编码的分类？3.3.自适应的限制量有

15、几个？限制方式有几种，自适应的限制量有几个？限制方式有几种，其特点是什么？其特点是什么？4.4.预料编码可以改善信噪比的缘由是什么？预料编码可以改善信噪比的缘由是什么？5.5.什么是短时预料和长时预料什么是短时预料和长时预料？第十章思索题第十章思索题参数编码概念、与波形编码的不同参数编码概念、与波形编码的不同声码器的基本结构声码器的基本结构相位声码器和通道声码器相位声码器和通道声码器同态声码器同态声码器线性预料声码器线性预料声码器混合编码：混合编码：MPLPC、CELP原理、原理、传输码率计算等传输码率计算等第十一章第十一章语音编码声码器技术及混合编码语音编码声码器技术及混合编码语音合成

16、的概念、目的语音合成的概念、目的语音合成系统与声码器中的语音合成器的区分语音合成系统与声码器中的语音合成器的区分语音合成原理语音合成原理语音合成的方法：波形合成法语音合成的方法：波形合成法、参数合成法规、参数合成法规则合成法则合成法语音合成系统的特性语音合成系统的特性共振峰合成共振峰合成线性预料合成：形式有两种线性预料合成：形式有两种用预料器系数用预料器系数ai干脆构成的递归型合成滤波干脆构成的递归型合成滤波器器接受反射系数构成的格型合成滤波器接受反射系数构成的格型合成滤波器第十三章第十三章第十三章第十三章语音识别语音识别语音识别语音识别语音识别的概念、目的和分类语音识别的概念

17、、目的和分类语音识别原理：语音识别原理：模式匹配原理、语音识别的步骤模式匹配原理、语音识别的步骤框图理解框图理解动态时间规整（动态时间规整（DTW）：）：目的、原理目的、原理孤立词识别系统：孤立词识别系统：原理和框图理解原理和框图理解端点检测的作用端点检测的作用1.什么是语音识别什么是语音识别?语音识别系统如何分类语音识别系统如何分类?当前当前,语音识语音识别的主流方法是什么别的主流方法是什么?2.语音识别系统由哪几个部分组成语音识别系统由哪几个部分组成?语音识别中常用的语语音识别中常用的语音特征参数有哪些音特征参数有哪些?3.什么是动态时间规整什么是动态时间规整?实际中实际中,它解决了

18、什么问题它解决了什么问题?4.孤立词识别系统框图孤立词识别系统框图?框图中框图中,参考模式库和模式识别参考模式库和模式识别的作用是什么的作用是什么?第十三章思索题第十三章思索题第十四章说话人识别说话人识别定义、目的和关键问题说话人识别定义、目的和关键问题说话人识别分类、应用说话人识别分类、应用特征提取特征提取说话人识别所用的特征说话人识别所用的特征特征类型的优选准则：特征类型的优选准则：F比作为有效性准则比作为有效性准则说话人识别系统的结构：说话人识别系统的结构：组成、基本结构、说话人识别系统的性能评组成、基本结构、说话人识别系统的性能评价价如：说话人确认系统最重要的两特性能指标：

19、如：说话人确认系统最重要的两特性能指标：错误拒绝率（错误拒绝率（FR）、错误接受率（）、错误接受率（FA）说话人识别中的识别方法说话人识别中的识别方法 DTW型说话人识别系统：说话人确认系统型说话人识别系统：说话人确认系统应用应用VQ的说话人识别系统：说话人分辨系统的说话人识别系统：说话人分辨系统1.说话人识别和语音识别的区分在什么地方说话人识别和语音识别的区分在什么地方?2.说话人确认和说话人分辨有什么不同？说话人确认和说话人分辨有什么不同？3.在说话人识别中，应选择哪些可以表征个人特征在说话人识别中，应选择哪些可以表征个人特征的识别参数？的识别参数？4.怎样评价说话人识别特征参数选取的好

20、坏？即怎样评价说话人识别特征参数选取的好坏？即F比比的物理意义？的物理意义？5.说话人确认系统最重要的两特性能指标是什么？说话人确认系统最重要的两特性能指标是什么？含义为什么？含义为什么？6.基于基于DTW和和VQ算法的系统框图理解。算法的系统框图理解。第十四章思索题第十四章思索题人类的语音是由人体发音器官在大脑限制下的人类的语音是由人体发音器官在大脑限制下的生理运动产生的；生理运动产生的；人的发音器官包括：肺、气管、喉、咽、鼻、人的发音器官包括：肺、气管、喉、咽、鼻、口等。口等。声带开启和闭合使气流形成一系列脉冲。声带开启和闭合使气流形成一系列脉冲。每开启和闭合一次的时间即振动周期称为每开启

21、和闭合一次的时间即振动周期称为基音周期，其倒数为基音频率，简称基频。基基音周期，其倒数为基音频率，简称基频。基频确定了声音频率的凹凸，频率快则音调高，频确定了声音频率的凹凸，频率快则音调高，频率慢则音调低。频率慢则音调低。基音的范围约为基音的范围约为70-350Hz,70-350Hz,与说话人的与说话人的性别、年龄等状况有关。性别、年龄等状况有关。语音由声带振动或不经声带振动来产生，其中：语音由声带振动或不经声带振动来产生，其中：由声带振动产生的音称为由声带振动产生的音称为浊音（浊音（Voice SpeechVoice Speech）；不由声带振动产生的音称为不由声带振动产生的音称为清音清音（

22、Unvoice Speech）。使声道完全闭合，在闭合后建立起气压，然后突然释使声道完全闭合，在闭合后建立起气压，然后突然释放，得到爆破音称为放，得到爆破音称为爆破音（爆破音（plosive Speech）：）：声道可以等效为一个谐振腔，有很多谐振频率。谐振频率由声道可以等效为一个谐振腔，有很多谐振频率。谐振频率由每一瞬间的声道外形来确定。每一瞬间的声道外形来确定。若声道截面是匀整的，则谐振频率发生在：若声道截面是匀整的，则谐振频率发生在：c c为声速，空气中为为声速，空气中为350m/s350m/s，L L为声道长度，为声道长度，n n为序号。为序号。音质：区分与其它声音的基本特征音质：区分

23、与其它声音的基本特征音调：声音的凹凸；取决于频率音调：声音的凹凸；取决于频率音量：声音的强弱；声波振动的幅度音量：声音的强弱；声波振动的幅度音长：声音的长短。发音持续时间的长短音长：声音的长短。发音持续时间的长短图2-7 Ten above In the suburbs 时域波形图2-8 元音【】的频谱图2-9 辅音【S】的语谱基音周期的计算清音浊音的推断学习得到图图26 输出的语音频谱输出的语音频谱虚线为谱包络，复原谱包络是很多语音虚线为谱包络，复原谱包络是很多语音处理应用中的主要问题，因为谱包络携处理应用中的主要问题，因为谱包络携带了主要的发音信息带了主要的发音信息依据长时间范围内一段

24、语音信号的大量取样依据长时间范围内一段语音信号的大量取样数据的确定值计算其直方图数据的确定值计算其直方图方法概率密度修正伽玛概率密度拉普拉斯分布图图2 210 10 修正伽玛密度、拉普拉斯密度和高修正伽玛密度、拉普拉斯密度和高斯密度以及天气预报语音的长期幅度分布斯密度以及天气预报语音的长期幅度分布图图211 语音幅度的累计频度分布语音幅度的累计频度分布视察视察得到得到语音主要集中在幅度较小的区域语音主要集中在幅度较小的区域语音的动态范围都超过语音的动态范围都超过50dB激励模型激励模型发不同性质的音时，激励的状况是不同的。发不同性质的音时，激励的状况是不同的。（1 1）发浊音时）发浊音时声

25、带不断张开和关闭，产生间歇的脉冲波。声带不断张开和关闭，产生间歇的脉冲波。见图见图2-132-13。则激励信号是一个以基音周期为周期的则激励信号是一个以基音周期为周期的斜三角脉冲串。斜三角脉冲串。从频谱上看，是一个低通型滤波器。可以表示从频谱上看，是一个低通型滤波器。可以表示为为Z Z变换的全极点模型形式：变换的全极点模型形式：（2 2）发清音时）发清音时声道被阻碍形成湍流，可模拟为随机白噪声声道被阻碍形成湍流，可模拟为随机白噪声。见图见图2-122-12。实际中运用均值为实际中运用均值为0 0、方差为、方差为1 1，并在时间或幅，并在时间或幅度上为白色分布的序列度上为白色分布的序列声道模型

26、声道模型（1 1）声管模型）声管模型声道的数学模型目前有两种观点：声道的数学模型目前有两种观点：将声道看为由多个不同截面积的管子串联而成的将声道看为由多个不同截面积的管子串联而成的系统。系统。在在“短时短时”期间，声道可表示为形态稳定的管道。期间，声道可表示为形态稳定的管道。（2 2）共振峰模型）共振峰模型将声道看为一个谐振腔。共振峰就是腔体的谐振频率。将声道看为一个谐振腔。共振峰就是腔体的谐振频率。一般，用前三个共振峰来代表一个元音就足够了。一般，用前三个共振峰来代表一个元音就足够了。而辅音须要五个以上而辅音须要五个以上图图215 级联型共振峰模型级联型共振峰模型级联型比较简洁，用于描述一

27、般的元级联型比较简洁，用于描述一般的元音。级联的级数取决于声道的长度。音。级联的级数取决于声道的长度。图图216 并联型共振峰模型并联型共振峰模型当鼻化元音或鼻腔参与共振以及发堵塞音或摩擦音时，此时腔体具有反谐振特性，必需考虑加入零点，成为极零点模型，每个谐振器的幅度都要独立限制。幅度独立限制何调幅度独立限制何调整，用来模拟辅音整，用来模拟辅音频谱特性中能量集频谱特性中能量集中区中区专为一些频谱特性比较平坦的专为一些频谱特性比较平坦的因素而考虑的因素而考虑的图图217辐射模型辐射模型一阶类高通滤波器形式一阶类高通滤波器形式从声道输出的是速度波，而语音信号是声从声道输出的是速度波，而语音信号

28、是声压波，二者之比为辐射阻抗压波，二者之比为辐射阻抗ZL。它表征口唇的。它表征口唇的辐射效应，也包括圆形头部的绕射效应。辐射效应，也包括圆形头部的绕射效应。探讨表明，口唇端在高频端比较显著，而在低探讨表明，口唇端在高频端比较显著，而在低频端时影响比较小。所以辐射模型为频端时影响比较小。所以辐射模型为嘴唇的辐射影响引起的输出信号高频提升作用嘴唇的辐射影响引起的输出信号高频提升作用大约有大约有每倍频程每倍频程6dB4.4.完整的语音信号数字模型完整的语音信号数字模型语音取样值语音取样值准周期脉冲准周期脉冲序列发生器序列发生器基音周期基音周期增益控制增益控制随机噪声随机噪声发发生生器器时变线性

29、时变线性系系统统时变参数时变参数浊音浊音清音清音激励模型激励模型声道模型声道模型辐射模型辐射模型留意留意一、这种模型是一、这种模型是“短时模型短时模型”，其中，其中U(Z)、R(Z)保持不变，而基音频率、清音浊音的幅度、清保持不变，而基音频率、清音浊音的幅度、清/浊浊音判决，声道参数音判决，声道参数ak、P是时变的是时变的二、声道参数二、声道参数030ms内近似不变，激励参数在内近似不变，激励参数在5ms左右近似不变，左右近似不变，H(Z)是一个参数随时间缓慢变更的是一个参数随时间缓慢变更的模型，可以假定模型，可以假定1020ms内固定不变。内固定不变。三、对于某些音，须要用一些修正的或更精

30、确的模三、对于某些音，须要用一些修正的或更精确的模型来模型型来模型四、模型对语音产生的模拟得是否成功，主要四、模型对语音产生的模拟得是否成功，主要考察它所产生得语音信号听上去是否合乎预期考察它所产生得语音信号听上去是否合乎预期得结果，对于它是否能精确得描述发音器官产得结果，对于它是否能精确得描述发音器官产生语音得物理过程并不重要。生语音得物理过程并不重要。五、语音分析和语音合成都是基于这个模型来五、语音分析和语音合成都是基于这个模型来实现的。实现的。六、模型的思想起源于六、模型的思想起源于30年头独创的声码器。其年头独创的声码器。其基本思想是将激励和系统相分别，使语音信号解基本思想是将激励和系

31、统相分别，使语音信号解体来分别描述，而不是干脆探讨信号波形本身的体来分别描述，而不是干脆探讨信号波形本身的特性特性人的耳朵接收声音并转换成神经人的耳朵接收声音并转换成神经刺激。人耳听到声音后，还要经过刺激。人耳听到声音后，还要经过大脑处理变成确定的含义，这就是大脑处理变成确定的含义，这就是对语音的感知对语音的感知。人耳能听到的频率范围大约为人耳能听到的频率范围大约为16Hz16kHz，年轻人上限频率可达，年轻人上限频率可达20kHz,老年人则衰退为老年人则衰退为10kHz对于人耳的感觉，用声音三要素来描述：对于人耳的感觉，用声音三要素来描述：响度：人耳对声音强弱程度的反映。取决于声响度：人耳

32、对声音强弱程度的反映。取决于声音的幅度，并和频率有关。如：对音的幅度，并和频率有关。如：对30004000Hz最敏感。最敏感。音调：也叫音高。人耳对声音频率凹凸的感受。音调：也叫音高。人耳对声音频率凹凸的感受。如：对频率高的声音感觉音调如：对频率高的声音感觉音调“高高”，对频率，对频率低的声音感觉音调低的声音感觉音调“低低”。音色：也叫音质。反映了声音属性。每个声音音色：也叫音质。反映了声音属性。每个声音具有特殊的音色。具有特殊的音色。掩蔽效应掩蔽效应当两个响度不同的声音作用于人耳时，则响度当两个响度不同的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频较高的频率成分的存在

33、会影响到对响度较低的频率成分的感受，使其变得不易觉察，这就是率成分的感受，使其变得不易觉察，这就是掩蔽掩蔽效应效应。对于中等掩蔽强度，纯音最有效的掩蔽出现在对于中等掩蔽强度，纯音最有效的掩蔽出现在它的频率旁边，低频的纯音可以有效地掩蔽高频它的频率旁边，低频的纯音可以有效地掩蔽高频地纯音，而高频的纯音对低频的纯音掩蔽作用很地纯音，而高频的纯音对低频的纯音掩蔽作用很小。掩蔽效应会造成因一个声音的存在而使另一小。掩蔽效应会造成因一个声音的存在而使另一个声音的听阈上升。个声音的听阈上升。当声音的强度小到人耳刚刚能够听见时当声音的强度小到人耳刚刚能够听见时一、对语音信号进行分析，提取特征参数。一、对语音

34、信号进行分析，提取特征参数。二、加工语音信号。二、加工语音信号。总之，在于便利有效地提取并表示语音信号总之，在于便利有效地提取并表示语音信号所携带的信息。所携带的信息。语音处理的目的语音处理的目的：语音信号分析方法：语音信号分析方法：时域分析：时域分析：频域分析：频域分析：倒谱域分析：倒谱域分析：语音信号具有时变特性，是一个非平稳的随机过语音信号具有时变特性，是一个非平稳的随机过程；程；但是，语音信号又具有但是，语音信号又具有“短时平稳性短时平稳性”，即在一，即在一个短时间范围内其特性基本保持不变。这是语音信个短时间范围内其特性基本保持不变。这是语音信号处理的一个重要动身点。即号处理的一个重要

35、动身点。即“短时分析短时分析”。“短时分析短时分析”对语音信号接受分段或叫分帧对语音信号接受分段或叫分帧来处理。来处理。短时分析技术：短时分析技术：注：语音通常在注：语音通常在1030ms1030ms内保持相对平稳，所以内保持相对平稳，所以帧长取为：帧长取为：1030ms1030ms 模拟语音模拟语音数字语音，须经过数字语音，须经过取样、量化取样、量化语音信号：频率范围可高达语音信号：频率范围可高达10KHz。电话带宽语音：电话带宽语音：3003400Hz 通信系统中，数字化取样率一般为通信系统中，数字化取样率一般为8KHz，语音信号处理中，取样率语音信号处理中，取样率为为 10KHz取

36、样率的选择取样率的选择2.量化字长的选择量化字长的选择量化过程：将整个幅度值分割为有限个区间，量化过程：将整个幅度值分割为有限个区间，落入同一个区间的样本都赐予相同的幅度值落入同一个区间的样本都赐予相同的幅度值。量化过程不行避开会产生量化误差。量化过程不行避开会产生量化误差。可以证明量化信噪比为：可以证明量化信噪比为：量化字长量化字长输入语音信号的方差输入语音信号的方差噪声序列的方差噪声序列的方差信号的峰值信号的峰值若语音信号听从拉普拉斯（若语音信号听从拉普拉斯（Laplacian)Laplacian)分布，分布，则：则：可见，每比特对可见，每比特对SNRSNR贡献贡献6dB6dB。B=7B

37、it时，时，SNR=35dB,可满足一般通信系统要求；可满足一般通信系统要求；实际中，因语音波形变更的动态范围可达实际中，因语音波形变更的动态范围可达55dB，所，所以，应取以，应取B 10Bit二、预处理二、预处理预处理：模拟语音的数字化、放大及预处理：模拟语音的数字化、放大及增益限制、反混叠滤波、预加重等。增益限制、反混叠滤波、预加重等。反混叠滤波：在取样前，为预防混叠失真和噪声干反混叠滤波：在取样前，为预防混叠失真和噪声干扰，接受的一个截止性能良好的模拟低通滤波器。扰，接受的一个截止性能良好的模拟低通滤波器。反混叠滤波器一般与反混叠滤波器一般与A/D做在一块集成片内。做在一块集成片内。

38、预加重：因语音信号高频端预加重：因语音信号高频端800Hz以上按以上按6dB/倍频倍频程下降，所以在程下降，所以在A/D前，可以接受预加重方法。即提前，可以接受预加重方法。即提上升频部分，使信号的频谱变得平坦，便于频谱分析上升频部分，使信号的频谱变得平坦，便于频谱分析和声道参数分析。和声道参数分析。注：注：预加重也可在预加重也可在A/D后进行，此时可接受后进行，此时可接受数字滤波器实现：数字滤波器实现：预加重后的信号在分析后，还须要进行去加预加重后的信号在分析后，还须要进行去加重处理还原为原来的语音信号。重处理还原为原来的语音信号。一、短时平均能量的定义一、短时平均能量的定义留意：留意：EnE

39、n以以n n为标记。因为窗序列是沿着平方值的序列为标记。因为窗序列是沿着平方值的序列逐段移动。见图逐段移动。见图3-63-6图图3-73-7短时能量序列的计算方法短时能量序列的计算方法表明表明：短时平均能量相当于语音信号平方短时平均能量相当于语音信号平方通过一个单位脉冲响应为通过一个单位脉冲响应为h(n)h(n)的线性滤波的线性滤波器的输出。器的输出。留意留意：不同的窗口选择确定不同的短时能量，：不同的窗口选择确定不同的短时能量，为此我们要选择合适的窗口，使其平均能量更好为此我们要选择合适的窗口，使其平均能量更好地反映语音信号的幅度变更。地反映语音信号的幅度变更。窗口的形态窗口的形态窗函数：

40、窗函数：直角窗、汉宁窗、海明窗、布莱克曼窗等直角窗、汉宁窗、海明窗、布莱克曼窗等窗口的长度窗口的长度窗长对能否反映语音信号的幅度变更起确定性窗长对能否反映语音信号的幅度变更起确定性作用。作用。若若N N很大，等效为带宽很窄的低通滤波器，很大，等效为带宽很窄的低通滤波器，En En的的变更很小，不能反映语音信号的幅度变更；变更很小，不能反映语音信号的幅度变更；若若N N很小，等效为带宽很宽的低通滤波器，很小，等效为带宽很宽的低通滤波器，En En的的变更很猛烈，不能得到语音信号的平滑能量函数。变更很猛烈，不能得到语音信号的平滑能量函数。窗口的长短是相对语音信号的基音周期而言。窗口的长短是相对

41、语音信号的基音周期而言。通常认为：一个语音帧内应含有通常认为：一个语音帧内应含有1717个基音周个基音周期。但不同人的基音周期变更很大；折中选取：期。但不同人的基音周期变更很大；折中选取：在取样频率为在取样频率为10KHz10KHz时，时，N=100-200N=100-200 即即1020ms1020ms持续时间持续时间见图见图3-93-9二、短时平均能量的主要用途二、短时平均能量的主要用途可以区分清音段和浊音段。可以区分清音段和浊音段。浊音的浊音的E En n比清音比清音En大的多大的多可以区分声母和韵母的分界，无声和有声的可以区分声母和韵母的分界，无声和有声的分界，连字的分界。分界，连

42、字的分界。可以用于语音识别可以用于语音识别“短时平均幅度短时平均幅度M Mn”n”，其定义为：其定义为：短时平均幅度的动态范围（最大值与最小短时平均幅度的动态范围（最大值与最小值之比）比短时平均能量小。值之比）比短时平均能量小。过零分析的概念过零分析的概念过零就是信号通过零值。过零就是信号通过零值。对于离散信号，相邻的取样值变更符号则称为过零。对于离散信号，相邻的取样值变更符号则称为过零。过零数就是样本变更符号的次数。过零数就是样本变更符号的次数。单位时间内的过零数为平均过零数。单位时间内的过零数为平均过零数。对于窄带信号，可以精确地计算出对于窄带信号，可以精确地计算出平均过零数。平均过零数

43、。例如：例如：一个频率为一个频率为f f0 0的正弦信号，取样频率为的正弦信号，取样频率为f fs s，则，则平均过零数为：平均过零数为：过零过零/样本样本但语音信号是宽带信号，不能简洁用上述公式。但语音信号是宽带信号，不能简洁用上述公式。语音信号语音信号x(n)的短时平均过零数定义为的短时平均过零数定义为符号函数符号函数窗口序列窗口序列短时平均过零数的应用短时平均过零数的应用1.用于语音信号分析用于语音信号分析2.用于从背景噪声中找出语音信号用于从背景噪声中找出语音信号清音和浊音的过零分布是不同的：清音和浊音的过零分布是不同的：清音具有较高的过零数，而浊音则具有较低的过零数。清音具有较高的过零数，而浊音则具有较低的过零数。见图见图3-13 3-13、3-143-14

展开阅读全文