第03讲-语音信号变换域(频域+倒谱)分析课件.ppt

上传人:醉**** 文档编号:12308178 上传时间:2022-04-24 格式:PPT 页数:52 大小:5.06MB
返回 下载 相关 举报
第03讲-语音信号变换域(频域+倒谱)分析课件.ppt_第1页
第1页 / 共52页
第03讲-语音信号变换域(频域+倒谱)分析课件.ppt_第2页
第2页 / 共52页
点击查看更多>>
资源描述

《第03讲-语音信号变换域(频域+倒谱)分析课件.ppt》由会员分享,可在线阅读,更多相关《第03讲-语音信号变换域(频域+倒谱)分析课件.ppt(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、上次课内容简单回顾上次课内容简单回顾1.语音信号的数字化和预处理语音信号的数字化和预处理2.语音信号的时域分析语音信号的时域分析(1)语音信号的数字化)语音信号的数字化带 通 滤波器自动增益控制(AGC)模 / 数 转 换(A/D)脉冲编码调制(PCM)语音信号存入计算机(2) 语音信号的预处理 预处理一般包括预加重、加窗和分帧等。(3) 语音信号的时域分析语音信号的时域分析1. 短时能量及短时平均幅度短时能量及短时平均幅度2. 短时过零率短时过零率102)(NmnnmxE10)(NmnnmxM10)1(sgn)(sgn21NmnnnmxmxZ3. 短时自相关函数短时自相关函数4. 短时平均幅

2、度差函数短时平均幅度差函数KkkmxmxkRkNmnnn0 , )()()(10kNmnnnkmxmxkF10)()()(1 语音信号的频域分析语音信号的频域分析2 语音信号的倒谱分析语音信号的倒谱分析(第二讲)3.4 语音信号的频域分析语音信号的频域分析 语音信号的频域分析就是分析语音信号的频域特征。语音信号的频域分析就是分析语音信号的频域特征。从广义上讲,语音信号的频域分析包括语音信号的频从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等。谱、功率谱、倒频谱、频谱包络分析等。 常用的频域分析方法有常用的频域分析方法有带通滤波器组法、傅里叶变换带通滤波器组法、傅

3、里叶变换法、线性预测法法、线性预测法等几种。等几种。 本节介绍的是语音信号的本节介绍的是语音信号的傅里叶分析法傅里叶分析法。 短时分析将语音流分为一段一段来处理,每一段称为一“帧”; 帧长:1030ms,20ms常见; 帧移:01/2帧长,帧与帧之间的平滑过渡;“短时谱短时谱” 3.4.1 利用短时傅里叶变换求语音的短时谱利用短时傅里叶变换求语音的短时谱 语音分帧之后,对第语音分帧之后,对第n帧语音信号帧语音信号xn(m)进行傅里叶变换进行傅里叶变换(离离散时域傅里叶变换,散时域傅里叶变换,DTFT),可得到,可得到短时傅里叶变换短时傅里叶变换,其定,其定义如下:义如下:由定义可知,短时傅里叶

4、变换实际就是窗选语音信号的标准傅里叶变换由定义可知,短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换。这里,窗。这里,窗w(n)是一个是一个“滑动的滑动的”窗口,它随窗口,它随n的变化而沿着序列的变化而沿着序列x(m)滑滑动。由于窗口是有限长度的,满足绝对可和条件,所以这个变换是存在动。由于窗口是有限长度的,满足绝对可和条件,所以这个变换是存在的。的。 是帧号是帧号n和角频率和角频率的函数。的函数。()jnXe 10()( )Njj mj mnnmmj mmXex m ex mw nmex mew nm 是帧号是帧号n和角频率和角频率的函数。的函数。 10()( )Njj mj mnnmmj

5、 mmXex m ex mw nmex mew nm()jnXe可见,当可见,当n不变时,不变时, 是序列是序列 的的标准傅立叶变换,此时标准傅立叶变换,此时 具有与标准傅立叶变换相同具有与标准傅立叶变换相同的性质。的性质。()jnXe ,nm x mm ()jnXe第一种解释(从傅立叶变换的角度):第一种解释(从傅立叶变换的角度): 设语音信号序列和窗口序列的标准傅里叶变换均存在。当设语音信号序列和窗口序列的标准傅里叶变换均存在。当n取取固定值时,固定值时, 根据根据卷积定理卷积定理有有:因为上式右边两个卷积项均为关于角频率因为上式右边两个卷积项均为关于角频率的以的以2为周期的连续函数,为周

6、期的连续函数,所所以也可将其写成以下的卷积积分形式:以也可将其写成以下的卷积积分形式: 结论:假设结论:假设x(m)的的DTFT是是X(ej),且且(m)的的DTFT是是X(ej),那么那么Xn(ej)是是X(ej)和和W(ej)的周期卷积。的周期卷积。()()j mj mjmw nm eeW e()() ()jjjnjnXeX eeW e()1()() ()2jjjnjnXeW eeX ed ()jj mmX ex m e ()jj mmW em e 由于由于 相当于信号谱相当于信号谱 与窗函数谱的卷积,与窗函数谱的卷积,因此应该使窗函数的频谱分辨率高,主瓣尖锐;同时还要因此应该使窗函数的频

7、谱分辨率高,主瓣尖锐;同时还要使旁瓣衰减大,这样与信号卷积时的频谱泄露才会少。使旁瓣衰减大,这样与信号卷积时的频谱泄露才会少。 为了使为了使 能够与能够与 具有相同的性质,则要求具有相同的性质,则要求 必须是一个冲激函数。窗长越长,必须是一个冲激函数。窗长越长, 的主瓣越狭的主瓣越狭窄尖锐,则窄尖锐,则 越接近越接近 。 但窗长太大时但窗长太大时,窗选信号已经不满足语音的短时平稳特性,此时,窗选信号已经不满足语音的短时平稳特性,此时 已不能正确反映短时语音的频谱了。为此,必须要折中选已不能正确反映短时语音的频谱了。为此,必须要折中选择窗长。择窗长。 jnXejX ejnXejX ejW ejW

8、 ejnXejX ejnXe 令角频率令角频率 则得到离散的短时傅立叶变换,它实则得到离散的短时傅立叶变换,它实际上是际上是 在频域的取样,如下所示在频域的取样,如下所示2 k njnXe 2210,01kkmNjjNNnnnmXeXkxm ekN在语音信号数字处理中,都是采用 的离散傅立叶变换 代替 ,并且可以用高效的快速傅立叶变换(FFT)算法完成由 至 的转换。当然,这时窗长N必须是2的整次幂 (L是整数)。根据傅立叶变换的性质,实数序列的傅立叶变换的频谱具有对称性,因此全部频谱信息包含在长度为 个 里。另外,为了使 具有较高的频率分辨率,所取的DFT以及相应的FFT点数N1应该足够多,

9、但有时 的长度N要受到采样率和短时性的限制。 nxm nXkjnXe nxm nXk2L2 1N nXk nXk nxmFFT的计算可以在通用计算机上由相应的算法软件完成,这种方式一般只能实现非实时运算。为了完成实时运算可以采用先进的数字信号处理芯片、阵列处理芯片或专用FFT芯片。 是帧号是帧号n和角频率和角频率的函数。的函数。()jnXe当当w固定不变时,固定不变时, 可视为信号可视为信号 与窗函数与窗函数 的卷积,此时,短时傅立叶变换可看作线性滤波的卷积,此时,短时傅立叶变换可看作线性滤波.()jnXe第二种解释(从线性滤波的角度):第二种解释(从线性滤波的角度): 10()( )Njj

10、mj mnnmmj mmXex m ex mw nmex mew nm j mx me w n024681012x 104-1-0.500.51original signal050100150200250300-100-50050短 时 谱下面给出采样率8kHz,窗长400点(50ms)情况下,分别用矩形窗与汉明窗选取同一段浊音信号,求得其对数幅度谱。简单分析一下不同的窗函数对语音信号短时谱的影响。讨论:窗口形状对短时谱的影响讨论:窗口形状对短时谱的影响矩形窗加窗的浊音波形及其短时频谱矩形窗加窗的浊音波形及其短时频谱汉明窗加窗的浊音波形及其短时频谱汉明窗加窗的浊音波形及其短时频谱由上图可看出:

11、(1)它们都具有两种变化。一种是快速变化,这是由于激励信)它们都具有两种变化。一种是快速变化,这是由于激励信号引起的变化。号引起的变化。例如图中由于时域波形具有周期性,因此经短时傅立叶变换得到的对数幅度谱表现出频率等间隔的尖峰,尖峰反映了语音的基频和各次谐波。另一种是慢速变化,这是由于声道滤波器的共振峰特性引起另一种是慢速变化,这是由于声道滤波器的共振峰特性引起的,它反映了各个共振峰的位置和带宽。而且共振峰的幅度的,它反映了各个共振峰的位置和带宽。而且共振峰的幅度随着频率的增高逐渐衰减。随着频率的增高逐渐衰减。(2)矩形窗和汉明窗得到的频谱之间存在明显的区别。)矩形窗和汉明窗得到的频谱之间存在

12、明显的区别。矩形窗具有较窄的主瓣,因而频谱分辨率较高,在频谱图中表现为基音谐波的各个峰都很尖锐。但是矩形窗旁瓣的衰减较小,由于相邻谐波的旁瓣在谐波间隔内相互干扰,有时叠加,有时抵消,所以在相邻谐波之间会产生类似于噪声的杂乱频谱,造成频谱泄漏现象,抵消了矩形窗具有较窄主瓣的优点。而采用汉明窗得到的短时频谱相比之下要平滑得多,因而汉明窗用得比较普遍。矩形窗加窗的清音波形及其短时频谱矩形窗加窗的清音波形及其短时频谱汉明窗加窗的清音波形及其短时频谱汉明窗加窗的清音波形及其短时频谱由上图可看出:从两个短时频谱图中都可以发现,由于清音的发声类似于随机噪声,因此频谱具有慢速变化的趋势,同时有着频繁的频谱具有

13、慢速变化的趋势,同时有着频繁的尖峰和谷尖峰和谷。当然,汉明窗较之矩形窗有着平滑的短时频谱汉明窗较之矩形窗有着平滑的短时频谱。下面给出了浊音和清音前40个样点加矩形窗和汉明窗的短时频谱,可以直观地看到窗长对短时谱的影响。由图可见:由于窗长很短,所选出的语音段甚至不到一个基音周期长度,因此语音段丢失了关于基音周期的信息,表现在短时谱语音段丢失了关于基音周期的信息,表现在短时谱上就是反映基音频率和谐波的快速变化特点消失了,短时上就是反映基音频率和谐波的快速变化特点消失了,短时谱中只保留着慢速变化的特点,也就是还保持着声道滤波谱中只保留着慢速变化的特点,也就是还保持着声道滤波器的共振峰器的共振峰。由于

14、矩形窗具有更高的频谱分辨率,因此其短时频谱不如汉明窗平滑短时频谱不如汉明窗平滑。从以上对窗函数和短时频谱的讨论可以得出以下结论: 1)矩形窗和汉明窗的主瓣狭窄且旁瓣衰减较大,具有低通的性质。窗越长,主瓣越窄,加窗后的频谱能更好地逼近短时语音的频谱。 2)窗长越长,频谱分辨率越高,但由于长窗的时间平均作用导致时间分辨率相应下降,如共振峰在不同的基音周期是要发生变化,但如果使用较长的窗则会模糊这种变化。 3)窗长越短,时间分辨率越高,但频率分辨率相应降低。如采用短窗可以清楚地观察到共振峰在不同基音周期的变化情况,但是基频以及谐波的精细结构在短时频谱图上消失了。 4)由于时间分辨率和频谱分辨率的相互

15、矛盾关系,在进行短时傅里叶变换时,应根据分析的目的来折中选择窗长。 在语音信号数字处理中,功率谱具有重要意义,在一些语音在语音信号数字处理中,功率谱具有重要意义,在一些语音应用系统中,往往都是利用语音信号的功率谱。根据功率谱应用系统中,往往都是利用语音信号的功率谱。根据功率谱定义,可以写出短时功率谱与短时傅里叶变换之间的关系:定义,可以写出短时功率谱与短时傅里叶变换之间的关系: 或者或者: 式中式中*表示复共轭运算。并且表示复共轭运算。并且功率谱功率谱Sn(ej)是短时自相关函是短时自相关函数数Rn(k)的傅里叶变换。的傅里叶变换。2*)()()()(jnjnjnjneXeXeXeS2*)()

16、()()(kXkXkXkSnnnn112)()()(NNkkjnjnjnekReXeS3.4.2 语音的短时谱的临界带特征矢语音的短时谱的临界带特征矢量量 利用短时傅立叶变换求取的语音信号的短时谱是按照实际频率分布的,而符合人耳的听觉特性的频率分布应该是按临界带频率分布的。所以,如果用按实际频率分布的频谱作为语音特征,由于它不符合人耳的听觉特性,将会降低语音信号处理系统的性能。 下面介绍一种把实际的线性频谱转化为临界带频谱特征的方法。 第一步,首先求出一帧加窗语音xn(m):m=0(N-1)的DFT的模平方值|Xn(k)|2,即功率谱。DFT可用FFT计算,设定DFT的点数为512(在实际的语

17、音信号数字处理系统中的DFT点数一般在128、256、512、1024中任选一个,点数越高则频谱分辨精度提高,计算开销相应提高),则可以得到|Xn(k)|2与原始加窗模拟语音的频谱模平方 具有下列关系: (3-35)式中,k=2fk,fk=kfs/512。 第二步,依据下面公式,在f=0fs/2中确定若干个 (单位Hz)临界带频率分割点,将i=1,2,3代入;26.810.531960iifif1234,.ffff 22exp,0 511nnXkXj kk2expnXj k 由此可求出123161718118.6,188.7,297.2,.,3151,3702,4386,.fHz fHz fH

18、zfHz fHz fHz这样12231,2ffff构成第 临界带构成第 临界带,等等。如果fs=8kHz,在0.14000Hz范围内需要安排16个临界带。若fs=10kHz,在0.35000Hz范围内可安排16个临界带。将每个临界带中|Xn(k)|2取和即可得到相应的临界带特征矢量。如果用 表示临界带特征矢量,对于上面举的第一个例子( ,频谱范围0.13.7kHz),L=16,其中的每一个分量可用下式计算:12,.,.,lLGg ggg8sfkHz 12,116lkllnfffgXkl临界带特征矢量从人耳对频率高低的非线性心理感觉角度反映了语音短时幅度谱的特征。它的畸变可以用欧式距离来度量,所

19、需的变换可以用高效的FFT来完成,因而使用该特征矢量时计算开销较小。所以可用它作为语音识别系统的特征矢量。3.5 语音信号的倒谱分析语音信号的倒谱分析 语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态处理来实现。可以通过同态处理来实现。 同态信号处理也称为同态滤波,它实现了将卷积关系变换为同态信号处理也称为同态滤波,它实现了将卷积关系变换为求和关系的分离处理,即解卷。求和关系的分离处理,即解卷。 解卷算法分为两大类:一类是参数解卷:为线性系统建立一解卷算法分为两大类:一类是参数解卷:为线性系统建立一个模型,然后按照某种准则对模

20、型进行参数估计,如线性预个模型,然后按照某种准则对模型进行参数估计,如线性预测分析;另一种是非参数解卷:无需为线性系统建立模型,测分析;另一种是非参数解卷:无需为线性系统建立模型,如同态处理。如同态处理。 对语音信号进行解卷,得到声门激励信息用于判断清浊音、对语音信号进行解卷,得到声门激励信息用于判断清浊音、求基音周期;得到声道响应信息用于求得共振峰;用于语音求基音周期;得到声道响应信息用于求得共振峰;用于语音编码、合成、识别等。编码、合成、识别等。 3.5.1 同态信号处理的基本原理同态信号处理的基本原理我们日常生活中遇到的许多信号,它们并不是加性信号我们日常生活中遇到的许多信号,它们并不是

21、加性信号(即组成各分量按加法原即组成各分量按加法原则组合起来则组合起来)而是乘积性信号或卷积性信号,如语音信号、图像信号、通信中的而是乘积性信号或卷积性信号,如语音信号、图像信号、通信中的衰落信号、调制信号等。这些信号要用非线性系统来处理。衰落信号、调制信号等。这些信号要用非线性系统来处理。 同态信号处理同态信号处理就是将非线性问题转化为线性问题的处理方法就是将非线性问题转化为线性问题的处理方法。 按被处理的信号来分类,大体分为乘积同态处理和卷积同态按被处理的信号来分类,大体分为乘积同态处理和卷积同态处理两种。处理两种。 由于语音信号可视为声门激励信号和声道冲击响应的卷积,由于语音信号可视为声

22、门激励信号和声道冲击响应的卷积,所以这里仅讨论卷积同态信号处理。所以这里仅讨论卷积同态信号处理。 下面看一个同态系统模型。下面看一个同态系统模型。线性系统复倒谱第一个子系统第一个子系统D*完成将卷积性信号转化为加性信号的运算,即对于信号完成将卷积性信号转化为加性信号的运算,即对于信号x(n)=xl(n)*x2(n)进行了如下运算处理:进行了如下运算处理:)()()()() 1 (21zXzXzXnxZ)()()()(ln)(ln)(ln)2(2121zXzXzXzXzXzX)( )()()()()()3(212111nxnxnxzXzXZzXZ由于由于x(n)为加性信号,所以第二个子系统可对其

23、进行需要的线性处理得到为加性信号,所以第二个子系统可对其进行需要的线性处理得到y(n)。第三个子系统是逆特征系统。第三个子系统是逆特征系统D*-1 ,它对,它对y(n)= y1(n)+y2(n)进行进行逆变换,使其恢复为卷积性信号,即进行了如下处理:逆变换,使其恢复为卷积性信号,即进行了如下处理:)()()()( ) 1 (21zYzYzYnyZ)()()()(exp)2(21zYzYzYzY)(*)()()()()3(21211nynyzYzYZny从而得到卷积性的恢复信号。从而得到卷积性的恢复信号。我们感兴趣的是第一个子系统的运算,若语音信号为x(n),通过第一个子系统后,就可将声门激励信

24、号和声道冲击响应的卷积运算转换为线性运算,从而分解两信号。 3.5.2 复倒谱和倒谱复倒谱和倒谱 x(n)是是x(n)的的“复倒频谱复倒频谱”,简称为,简称为“复倒谱复倒谱”,有时也称作对,有时也称作对数复倒谱。其英文原文为数复倒谱。其英文原文为“Complex Cepstrum”,Cepstrum是一个新造的英文词,它是由是一个新造的英文词,它是由Spectrum这个词这个词的前四个字母倒置而构成的。同样,序列的前四个字母倒置而构成的。同样,序列y(n)也是也是y(n)的复的复倒谱。倒谱。 虽然虽然D* 与与D*-1 系统中的系统中的x(n)和和y(n)信号也均是时域序信号也均是时域序列,但

25、它们所处的离散时域显然不同于列,但它们所处的离散时域显然不同于x(n)和和y(n)所处的离所处的离散时域,所以我们把它称之为散时域,所以我们把它称之为“复倒频谱域复倒频谱域”。在绝大多数数字信号处理中,在绝大多数数字信号处理中,X(z),X(z),Y(z),Y(z)的收敛域均包含单位的收敛域均包含单位圆,则序列的傅里叶变换存在,复倒谱计算中的圆,则序列的傅里叶变换存在,复倒谱计算中的Z变换可用傅里叶变换代变换可用傅里叶变换代替,因而替,因而D* 与与D*-1 系统有如下形式:系统有如下形式:D* =D*-1 =)(ln)(jjeXeX)()(jneXxF)()( 1jeXFnx)()(nyFe

26、Yj)(exp)(jjeYeY)()(1jeYFny设设:)(arg)()(jeXjjjeeXeX则取其对数得则取其对数得:)(arg)(ln)(jjjeXjeXeX 即复数的对数仍是复数,它包含实部和虚部。注意,这时对即复数的对数仍是复数,它包含实部和虚部。注意,这时对数的虚部数的虚部argX(ej)由于是由于是X(ej)的相位的相位,所以将产生不一致所以将产生不一致性。如果,我们只考虑性。如果,我们只考虑X(ej)的实部,令:的实部,令: 显然显然c(n)是序列是序列x(n)对数幅度谱的傅里叶逆变换。对数幅度谱的傅里叶逆变换。c(n)称为称为“倒频谱倒频谱”或简称为或简称为“倒谱倒谱”,有

27、时也称,有时也称“对数倒频谱对数倒频谱”。倒谱对。倒谱对应的量纲是应的量纲是“Quefrency”,它也是一个新造的英文词,是由,它也是一个新造的英文词,是由“Frequency”转变而来的,因此也称为转变而来的,因此也称为“倒频倒频”,它的量纲是,它的量纲是时间。时间。c(n)实际上就是我们要求取的语音信号倒谱特征。实际上就是我们要求取的语音信号倒谱特征。)(ln)(1jeXFnc下面我们根据上面的讨论来分析一下下面我们根据上面的讨论来分析一下复倒谱和倒谱特点和关系复倒谱和倒谱特点和关系。 复倒谱 1( )lnx nZX z倒谱)(ln)(1jeXFnc (1)复倒谱要进行复对数运算,而倒谱

28、只进行实对数运算。复倒谱要进行复对数运算,而倒谱只进行实对数运算。 (2)在倒谱情况下一个序列经过正逆两个特征系统变换后,不在倒谱情况下一个序列经过正逆两个特征系统变换后,不能还原成自身,因为在计算倒谱的过程中将序列的相位信息能还原成自身,因为在计算倒谱的过程中将序列的相位信息丢失了。丢失了。 (3)与复倒谱类似,如果与复倒谱类似,如果c1(n)和和c2(n)分别是分别是x1(n)和和x2(n)的倒的倒谱,并且谱,并且x(n)= x1(n)*x2(n),则,则x(n)的倒谱的倒谱c(n)= c1(n)+c2(n) 。 (4)已知一个实数序列已知一个实数序列x(n)的复倒谱的复倒谱x(n),可以

29、由,可以由x(n)求出它求出它的倒谱的倒谱c(n)。 (5)已知一个实数序列已知一个实数序列x(n)的倒谱的倒谱c(n),能否用它来求出复倒,能否用它来求出复倒谱谱x(n)? (1)如何由复倒谱求倒谱。)如何由复倒谱求倒谱。首先将首先将 表示成一个偶对称序列表示成一个偶对称序列 和一个奇对称序列和一个奇对称序列 之和。之和。 x n ,eoeeoox nxnxnxnxnxnxn 其中 exn oxn易于证明 1212eoxnx nxnxnx nxn由于一个偶对称序列的由于一个偶对称序列的DTFTDTFT是一个实函数,而一个奇对是一个实函数,而一个奇对称序列的称序列的DTFTDTFT是一个虚函数

30、,对照式子是一个虚函数,对照式子)(arg)(ln)(jjjeXjeXeX 可得可得 11RelnjjeXnFX eFX e由公式由公式3-44可得可得1( )ln()jec nFX ex所以有所以有 12ec nxx nxn这样可由这样可由 求得求得 x n c n同理可以导出相位倒谱同理可以导出相位倒谱 12op nxnx nxn (2)由倒谱求复倒谱已知一个实数序列x(n)的倒谱c(n),能否用它来求出复倒谱 ? x n要做到这一点, 必须满足一定的条件,例如 是一个因果序列,该条件可表示为 x n x n x nx n u n其中,u(n)是一个单位阶跃函数。可以看出,在满足此条件时,

31、式(3-50)可以表示为下列形式 1,02,01,02x nnc nx nnxnn 因此,立刻得到 2,0,00,0c nnx nc nnn 如果 是一个反因果序列,即满足下列条件 x n x nx n un 则可以导出 0,0,02,0onxnc nnc nn 在什么情况下 才是一个因果稳定序列呢? 可以证明,只有当 是一个因果最小相位序列时, 才是一个因果稳定序列。 这说明 应满足两个条件: (1) (2) 的零极点都应该在单位圆之内。 同理可以证明,只有当 是一个反因果最大相位序列时, 才是一个反因果稳定序列。 于是,只有当 是因果最小相位序列或反因果最大相位序列时,可由 求出 。 x

32、n x n x n x n x nx n u n X ZZ x n x n x n c n c n x n 3.5.3 语音信号倒谱分析实例语音信号倒谱分析实例1由同态分析求出的语音信号倒谱实例由同态分析求出的语音信号倒谱实例 一个信号的倒谱定义为信号频谱模的自然对数的逆傅里叶变一个信号的倒谱定义为信号频谱模的自然对数的逆傅里叶变换换(即设相位恒定为零即设相位恒定为零)。设信号为。设信号为s(n),则其倒谱为:则其倒谱为: 根据语音信号产生模型,语音信号根据语音信号产生模型,语音信号s(n)是由声门脉冲激励是由声门脉冲激励e(n)经声道响应经声道响应v(n)滤波而得到,即:滤波而得到,即: 设

33、三者的倒谱分别为设三者的倒谱分别为s(n)、e(n)及及v(n),则有:,则有:)(ln)( nsDFTIDFTns)(*)()(nvnens)( )( )( nvnens从上面的图中可以看出:从上面的图中可以看出: 浊音信号的倒谱中存在着峰值,它的出现位置等于该语音浊音信号的倒谱中存在着峰值,它的出现位置等于该语音段的基音周期。清音的倒谱中则不存在峰值。段的基音周期。清音的倒谱中则不存在峰值。 加汉明窗的倒谱基音蜂清晰突出,加矩形窗的倒谱基音蜂加汉明窗的倒谱基音蜂清晰突出,加矩形窗的倒谱基音蜂变得不清晰甚至消失。可见,窗口函数应选择缓变窗。变得不清晰甚至消失。可见,窗口函数应选择缓变窗。 利

34、用这个特点我们可以进行清浊音的判断,并且可以估计利用这个特点我们可以进行清浊音的判断,并且可以估计浊音的基音周期。浊音的基音周期。 2MEL频率倒谱参数(频率倒谱参数(MFCC) MEL频率倒谱系数频率倒谱系数MFCC:mel frequency cepstrum coefficient, MFCC将人耳的听觉感知特性与语音的产生机制相结合,是将人耳的听觉感知特性与语音的产生机制相结合,是目前语音识别中广泛使用的特征。目前语音识别中广泛使用的特征。 人耳具有一些特殊功能,可以在嘈杂的环境中分辨出各种声人耳具有一些特殊功能,可以在嘈杂的环境中分辨出各种声 音,主要原因是耳蜗起了关键作用,耳蜗相当

35、于一个滤波器音,主要原因是耳蜗起了关键作用,耳蜗相当于一个滤波器组,其滤波作用是在对数频率尺度上进行,在组,其滤波作用是在对数频率尺度上进行,在1000Hz以下以下为线性尺度,带宽大约为线性尺度,带宽大约100Hz左右,以上为对数尺度,这就左右,以上为对数尺度,这就使得人耳对低频信号更加敏感。这种特性类似于临界带的划使得人耳对低频信号更加敏感。这种特性类似于临界带的划分,即可以将语音频率划分成一系列三角形的滤波器序列。分,即可以将语音频率划分成一系列三角形的滤波器序列。 Mel频率尺度则更符合人耳的听觉特性。所谓频率尺度则更符合人耳的听觉特性。所谓Mel频率尺度频率尺度,它的值大体上对应于实际

36、频率的对数分布关系。,它的值大体上对应于实际频率的对数分布关系。Mel频率频率与实际频率的具体关系可用式(与实际频率的具体关系可用式(3-89)表示:)表示: 这里,实际频率这里,实际频率f的单位是的单位是Hz。)700/1lg(2595)(ffMelMFCC参数的计算过程:参数的计算过程:1)根据下面公式将实际频率尺度转换为)根据下面公式将实际频率尺度转换为Mel频率尺度。频率尺度。)700/1lg(2595)(ffMel2)在)在Mel频率轴上配置频率轴上配置L个通道的三角形滤波器组,个通道的三角形滤波器组,L的个的个数由信号的截止频率决定。每一个三角形滤波器的中心频数由信号的截止频率决定

37、。每一个三角形滤波器的中心频率率 在在Mel频率轴上等间隔分配。设频率轴上等间隔分配。设 、 和和 分别是第分别是第l个三角形滤波器的下限、中心和上限频率,则相个三角形滤波器的下限、中心和上限频率,则相邻三角形滤波器之间的下限、中心和上限频率有图邻三角形滤波器之间的下限、中心和上限频率有图3-14所示所示的如下关系成立:的如下关系成立: c l c l o l h l 11c lh lo l 3)根据语音信号幅度谱)根据语音信号幅度谱 求每一个三角形滤波器求每一个三角形滤波器的输出的输出 nXk ,1,2,.,h llnk o lm lW kXklL lko lo lkc lc lo lW kh lkc lkh lh lc l4)对所有滤波器输出作对数运算,再进一步作离散余弦)对所有滤波器输出作对数运算,再进一步作离散余弦变换即可得到变换即可得到MFCC 121lgcos2Lmfcclicim llNL

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 其他杂项

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁