《语音信号的频域分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《语音信号的频域分析优秀PPT.ppt(36页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第5章语音信号的频域分析5.2基于滤波器组的频域分析 5.1概述5.4STFT 的实现5.3短时 Fourier 变换(STFT)的定义和性质5.5短时 Fourier 谱的取样5.6语音的短时合成技术5.7基于 FFT 的短时 Fourier 分析5.8频域基音检测5.9语音信号的时-频表示(略)第第5 5章语音信号的频域分析章语音信号的频域分析5.15.1概述概述 语音感知与语谱特性关系亲密,人对语谱特性更语音感知与语谱特性关系亲密,人对语谱特性更敏感。敏感。幅频谱特性相像的两段语音,感知相像。幅频谱特性相像的两段语音,感知相像。语谱具有语言声学意义,反应了重要的语语谱具有语言声学意义,反
2、应了重要的语音特征;音特征;如共振峰频率、带宽等。如共振峰频率、带宽等。进行语音频谱分析是相识和处理语音信号的重要进行语音频谱分析是相识和处理语音信号的重要方法。方法。Fourier Fourier 分析是有效手段,是语音的重要分析工分析是有效手段,是语音的重要分析工具。具。语音是非平稳信号,源于发声器官的物理运动过语音是非平稳信号,源于发声器官的物理运动过程。程。在短时间段(如在短时间段(如10 30 ms10 30 ms)内可认为是)内可认为是平稳的;平稳的;用时间依靠处理方法分析处理。用时间依靠处理方法分析处理。第 5 章 语 音 信 号 的 频 域 分 析 5.1 概 述同 济 大 学
3、 电 子 与 信 息 工 程 学 院 -2-赵 晓 群 教 授短时短时 Fourier Fourier 分析(时间依靠分析(时间依靠 Fourier Fourier 变换):变换):用稳态分析处理非平稳信号的一种方法用稳态分析处理非平稳信号的一种方法语音的频域分析:包括语音信号的频谱、功率谱、倒频谱、语音的频域分析:包括语音信号的频谱、功率谱、倒频谱、频谱包络等,频谱包络等,常用频域分析方法:带通滤波器组法、常用频域分析方法:带通滤波器组法、Fourier Fourier 变换法、变换法、同态分析、线性预料法等。同态分析、线性预料法等。本章:带通滤波器组法、本章:带通滤波器组法、Fourier
4、 Fourier 变换法、频域基音检测、变换法、频域基音检测、时时-频表示频表示同 济 大 学 电 子 与 信 息 工 程 学 院 -3-赵 晓 群 教 授第 5 章 语 音 信 号 的 频 域 分 析 5.1 概 述第第5 5章语音信号的频域分析章语音信号的频域分析5.25.2基于滤波器组的频域分析基于滤波器组的频域分析 最早的频谱分析:滤波器组来实现。最早的频谱分析:滤波器组来实现。特点:简洁、实时性好、受外界影响小。特点:简洁、实时性好、受外界影响小。常用模拟滤波器实现,也可用数字滤波器实现。常用模拟滤波器实现,也可用数字滤波器实现。宽带带通滤波器:平坦特性,可粗略求取宽带带通滤波器:平
5、坦特性,可粗略求取语音频谱,辨别率较低,相当于短时处理时窄语音频谱,辨别率较低,相当于短时处理时窄窗状况。窗状况。窄带带通滤波器:频率辨别率较高,窄带带通滤波器:频率辨别率较高,相当于短时处理时宽窗较宽的状况。相当于短时处理时宽窗较宽的状况。图图5.15.1:滤波器组法频谱分析原理图。:滤波器组法频谱分析原理图。图图5.1滤波器组法频率分析原理图滤波器组法频率分析原理图f1f2fn x1(t)x(t)x2(t)xn(t)同 济 大 学 电 子 与 信 息 工 程 学 院 -4-赵 晓 群 教 授第5章语音信号的频域分析 5.2基于滤波器组的频域分析第第5 5章语音信号的频域分析章语音信号的频域
6、分析5.35.3短时短时 Fourier Fourier 变换变换(STFT)(STFT)的定义和性质的定义和性质 5.3.1 5.3.1STFT STFT 的定义的定义语音序列是时变的。语音序列是时变的。分段方法:加一个沿时间轴滑动的窗函数;分段方法:加一个沿时间轴滑动的窗函数;通常窗的宽度有限;通常窗的宽度有限;对应于不同的对应于不同的 n n 值,窗处于不同位置;值,窗处于不同位置;窗函数对语音信号的每个样本进行加权。窗函数对语音信号的每个样本进行加权。图图5.25.2:移动窗函数选取语音段的示意图:移动窗函数选取语音段的示意图 图中运用的是非矩形窗,图中运用的是非矩形窗,时刻时刻 n
7、n 位于窗的中心位于窗的中心 同 济 大 学 电 子 与 信 息 工 程 学 院 -5-赵 晓 群 教 授图图5.2用移动窗选取语音段示意图用移动窗选取语音段示意图第5章语音信号的频域分析 5.3短时 Fourier 变换(STFT)的定义和性质 x(m)的短时 Fourier 变换(STFT)Xn(ej)的定义:式中,w(n)是窗函数。为位于 n 处的窗口视察到的窗选语音短段的 Fourier 变换;n 取不同值时,取出不同的语音短段;Xn(ej)是频率 和时间 n 的函数;有时-频性。要求:STFT 存在,则对全部 n 值,确定确定可和。因窗宽有限,或无限冲激响应窗函数,其有效宽度有限,故
8、满足确定可和。同 济 大 学 电 子 与 信 息 工 程 学 院 -6-赵 晓 群 教 授第5章语音信号的频域分析 5.3短时 Fourier 变换(STFT)的定义和性质 依据依据 STFT,复原原语音信号,复原原语音信号 x(m)的方法:的方法:式式 的逆变换为:的逆变换为:若若w(0)0,由上式得:,由上式得:精确地复原原信号的唯一约束条件是精确地复原原信号的唯一约束条件是 w(0)0。同 济 大 学 电 子 与 信 息 工 程 学 院 -7-赵 晓 群 教 授第5章语音信号的频域分析 5.3短时 Fourier 变换(STFT)的定义和性质 由由STFT的谱的谱 Xn(ej)求解求解
9、x(m)的的 Fourier 变换变换 X(ej)方法。方法。假设假设 x(m)和和 w(m)的的 Fourier 变换都存在,即:变换都存在,即:因因 Xn(ej)是是 x(m)w(n-m)的的 Fourier 变换,变换,则则 Xn(ej)是是 X(ej)与与 ejnW(e-j)的卷积,即的卷积,即 为使为使 Xn(ej)精确代替精确代替 X(ej),移动窗的,移动窗的 W(ej)应是冲激函应是冲激函数;即要求移动窗无限宽。数;即要求移动窗无限宽。同 济 大 学 电 子 与 信 息 工 程 学 院 -8-赵 晓 群 教 授第5章语音信号的频域分析 5.3短时 Fourier 变换(STFT
10、)的定义和性质 留意:由于语音是时变的,故其留意:由于语音是时变的,故其 Fourier Fourier 变换可能不存在。变换可能不存在。通常,通常,窗函数是有限时宽,故窗选语音段可看成从无限长的基窗函数是有限时宽,故窗选语音段可看成从无限长的基本性质持续不变的平稳信号中截取出来的;本性质持续不变的平稳信号中截取出来的;对于爆破音等暂态音,则可看成在窗外取值为零。对于爆破音等暂态音,则可看成在窗外取值为零。若把若把X(ej)X(ej)看成是基本性质在窗外持续不变或窗外取值为零看成是基本性质在窗外持续不变或窗外取值为零的某个平稳信号的的某个平稳信号的 Fourier Fourier 变换,则式变
11、换,则式 就是有意义的。就是有意义的。观点:观点:STFT STFT 是平稳信号的是平稳信号的 Fourier Fourier 变换经加窗平滑的结果。变换经加窗平滑的结果。同 济 大 学 电 子 与 信 息 工 程 学 院 -9-赵 晓 群 教 授第5章语音信号的频域分析 5.3短时 Fourier 变换(STFT)的定义和性质 5.3.2窗函数及窗宽对窗函数及窗宽对STFT的影响的影响图图5.3a:元音:元音 i 的波形和短时频谱图。的波形和短时频谱图。元音元音 i 的基音周期大约是的基音周期大约是 13 ms;短时频谱图有两种变更:短时频谱图有两种变更:快变更:周期性激励引起,快变更:周期
12、性激励引起,基音频率的各次谐波;基音频率的各次谐波;慢变更:声道共振特性引起,慢变更:声道共振特性引起,各共振峰的频率和带宽。各共振峰的频率和带宽。两个频谱图间的差别:两个频谱图间的差别:矩形窗时:谐波各峰较尖锐,矩形窗时:谐波各峰较尖锐,谱图较裂开(类似于噪声),谱图较裂开(类似于噪声),主瓣较窄(较高频率辨别率);主瓣较窄(较高频率辨别率);旁瓣较高,旁瓣较高,“泄漏泄漏”严峻;严峻;Hamming 窗时:短时频谱平滑些。窗时:短时频谱平滑些。短时谱分析,短时谱分析,Hamming 窗较普遍。窗较普遍。同 济 大 学 电 子 与 信 息 工 程 学 院 -1 0-赵 晓 群 教 授第5章语
13、音信号的频域分析 5.3短时 Fourier 变换(STFT)的定义和性质 图图5.3a元音元音i的波形和短时频谱图的波形和短时频谱图(10 kHz取样取样,窗长窗长256)分析窗宽对短时频谱的影响:分析窗宽对短时频谱的影响:图图5.4(a):元音:元音 i 的波形和短时频谱图。的波形和短时频谱图。窗宽窗宽 6.4 ms,元音,元音 i 的基音周期大约是的基音周期大约是 13 ms;窗选语音段长不到一个基音周期,窗选语音段长不到一个基音周期,丢失了基音周期的信息;丢失了基音周期的信息;频的快变更(谐波频率)消逝。频的快变更(谐波频率)消逝。频的慢变更(较宽的峰)保留,频的慢变更(较宽的峰)保留
14、,是声道的共振特性。是声道的共振特性。矩形窗比矩形窗比 Hamming 时,时,呈现较多的细致结构,呈现较多的细致结构,由于矩形窗比由于矩形窗比 Hamming 窗窗 具有更高的频率辨别率。具有更高的频率辨别率。同 济 大 学 电 子 与 信 息 工 程 学 院 -1 1-赵 晓 群 教 授第5章语音信号的频域分析 5.3短时 Fourier 变换(STFT)的定义和性质 图图5.4a元音元音i的波形和短时频谱图的波形和短时频谱图(10 kHz取样取样,窗长64)图图5.3,5.4(b):清辅音:清辅音 j 短时频谱图。短时频谱图。图图5.3(b):窗较长,频率辨别率高,很多快变更,:窗较长,
15、频率辨别率高,很多快变更,反映了激励源的白噪声特性反映了激励源的白噪声特性随机起伏。随机起伏。矩形窗时,快变更尤为突出。矩形窗时,快变更尤为突出。仍旧看出声道滤波器的共振特性。仍旧看出声道滤波器的共振特性。同 济 大 学 电 子 与 信 息 工 程 学 院 -1 2-赵 晓 群 教 授第5章语音信号的频域分析 5.3短时 Fourier 变换(STFT)的定义和性质 图图5.3b清音清音j的波形和短时频谱图的波形和短时频谱图(10 kHz取样取样,窗长窗长256)图图5.4b清音清音j的波形和短时频谱图的波形和短时频谱图(10 kHz取样取样,窗长窗长64)5.3.3结论结论长窗具有较高的频率
16、辨别率,较低的时间辨别率;长窗具有较高的频率辨别率,较低的时间辨别率;短窗具有较低的频率辨别率,较高的时间辨别率;短窗具有较低的频率辨别率,较高的时间辨别率;窗宽的选择需折衷考虑;窗宽的选择需折衷考虑;语音的基音周期值范围很大,窗宽选择应考虑该因素。语音的基音周期值范围很大,窗宽选择应考虑该因素。矩形窗和矩形窗和 Hamming 窗的频谱特性都具有低通的性质。窗的频谱特性都具有低通的性质。截止频率处都较尖锐,截止频率处都较尖锐,当通带较窄时(窗较宽),频谱能很好靠近短时语音谱。窗越当通带较窄时(窗较宽),频谱能很好靠近短时语音谱。窗越宽靠近效果越好。宽靠近效果越好。同 济 大 学 电 子 与
17、信 息 工 程 学 院 -1 3-赵 晓 群 教 授第5章语音信号的频域分析 5.3短时 Fourier 变换(STFT)的定义和性质 第第5 5章语音信号的频域分析章语音信号的频域分析5.45.4STFTSTFT的实现的实现 STFT STFT的定义:的定义:将窗函数的位置参数将窗函数的位置参数 n n 看成是参变量,看成是参变量,给定给定 n n,是连续变量,是连续变量 的函数,为语音段的的函数,为语音段的标准标准Fourier Fourier 变换变换 从不同角度来说明从不同角度来说明 STFT STFT,可得不同的实现方法。,可得不同的实现方法。线性滤波的角度:线性滤波的角度:为参变量
18、,给定为参变量,给定 时,时,是是 n n 的函数。的函数。重写定义式:重写定义式:表明:表明:卷积实现,卷积实现,w(n)w(n)与与 x(n)e-jn x(n)e-jn,序列序列 x(n)e-jn x(n)e-jn 通过冲激响应通过冲激响应为为 w(n)w(n)的线性滤波器的输出的线性滤波器的输出 此时,此时,看成是固定值。看成是固定值。图图5.55.5:STFT STFT 的线性滤波实现的线性滤波实现同 济 大 学 电 子 与 信 息 工 程 学 院 -1 4-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.4S T F T 的 实 现图图5.5STFT的线性滤波实现
19、的线性滤波实现w(n)x(n)e-jnXn(ejn)图图5.5:STFT 的的线性滤波线性滤波实现实现图图5.6:图图5.5方案的方案的实数运算实数运算 图图5.6方案原理方案原理:设设:则可计算:则可计算:同 济 大 学 电 子 与 信 息 工 程 学 院 -1 5-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.4S T F T 的 实 现图图5.5STFT的线性滤波实现的线性滤波实现w(n)x(n)e-jnXn(ej)图图5.6STFT分析用线性滤波实现分析用线性滤波实现 cosn an()x(n)bn()sinnw(n)w(n)令令 ,代入式,代入式 将将 用用 m
20、 表示,得:表示,得:上式可用上式可用图图5.7方案实现;方案实现;图图5.8:图图5.7方案的方案的实数运算实数运算(推导略)同 济 大 学 电 子 与 信 息 工 程 学 院 -1 6-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.4S T F T 的 实 现图图5.7STFT分析线性滤器的另一种形式分析线性滤器的另一种形式 w(n)ejnx(n)e-jnXn(ej)图图5.8用实数实现图用实数实现图5.7的方框图的方框图 x(n)sinnw(n)sinnw(n)cosn cosncosn an()bn()可推得:可推得:须要计算须要计算Xn(ej)时,用图时,用图5
21、.8实现简洁;实现简洁;须要计算须要计算 an()、bn()时,用图时,用图5.6实现较简洁。实现较简洁。线性滤波实现线性滤波实现 STFT 的主要优点:的主要优点:利用了成熟的线性滤波器的成果,实现方法特别简洁。利用了成熟的线性滤波器的成果,实现方法特别简洁。线性滤波分有限冲激响应的和无限冲激响应的、因果的和线性滤波分有限冲激响应的和无限冲激响应的、因果的和非因果的线性滤波方法,非因果的线性滤波方法,相应地,相应地,STFT 或时变频谱分析也可分成有限窗宽和无限或时变频谱分析也可分成有限窗宽和无限窗宽、因果窗和非因果窗等类型。窗宽、因果窗和非因果窗等类型。同 济 大 学 电 子 与 信 息
22、工 程 学 院 -1 7-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.4S T F T 的 实 现第第5 5章语音信号的频域分析章语音信号的频域分析5.55.5短时短时 Fourier Fourier 谱的取样谱的取样STFT STFT 谱:一维时变信号的二维时谱:一维时变信号的二维时-频表示,频表示,n n 和和 的函数。的函数。采样定理:以不低于其最高频率两倍的取样频率采样定理:以不低于其最高频率两倍的取样频率取样,取样,由样本精确复原出原由样本精确复原出原始信号。始信号。STFT STFT 的取样:是一个更困难的问题。的取样:是一个更困难的问题。在时在时-频变量频
23、变量 n n 和和 上同时进行,并保证上同时进行,并保证不产生混叠失真。不产生混叠失真。同 济 大 学 电 子 与 信 息 工 程 学 院 -1 8-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.5 短 时 Fourier 谱 的 取 样 时域取样时域取样 STFT线性滤波实现线性滤波实现:图图5.5示。示。w(n):窄带低通滤波器窄带低通滤波器,带宽带宽为为 B。则:则:Xn(ej)的的带宽带宽也为也为 B。在时域内,在时域内,以以 2B 速率速率对对 Xn(ej)取样取样,不产生不产生混叠失真。混叠失真。Hamming 窗时:窗时:w(n)的带宽的带宽 B=2fs/N
24、,(fs 取样频率,取样频率,N 窗宽窗宽)时域内的取样频率时域内的取样频率 2B=4fs/N。例:例:设设 N=100,fs=10 kHz,则取样频率,则取样频率400 Hz,语音信号语音信号每输入每输入 25 个样本个样本计算计算一次一次短时谱即可。短时谱即可。多数实际窗函数,多数实际窗函数,频带宽度频带宽度 B 与与 fs/N 成正比例,即:成正比例,即:式中,式中,k 为为比例常数比例常数。Hamming 窗窗 k=2,矩形窗,矩形窗 k=1。在时域内,在时域内,Xn(ej)的的取样频率取样频率为:为:同 济 大 学 电 子 与 信 息 工 程 学 院 -1 9-赵 晓 群 教 授第
25、5章 语 音 信 号 的 频 域 分 析 5.5 短 时 Fourier 谱 的 取 样图图5.5STFT的线性滤波实现的线性滤波实现w(n)x(n)e-jnXn(ej)5.5.2频域取样频域取样 Xn(ej):角频率:角频率 的周期函数,周期的周期函数,周期 2。在在 2 范围内探讨频域取样问题。范围内探讨频域取样问题。02 内匀整取样内匀整取样 L 点,取样角频率点,取样角频率k=2k/L,k=0,1,L-1探讨探讨 L 取值:取值:设设w(n)的窗宽为的窗宽为 N。由于由于 Xn(ej)是是 x(m)w(n-m)的的 Fourier 变换,变换,则其则其 Fourier 逆变换的宽度也应
26、当为逆变换的宽度也应当为 N(有限时宽)。(有限时宽)。频域内,在频域内,在 L 个角频率点上对个角频率点上对 Xn(ej)取样,依据样本复原的信取样,依据样本复原的信号应当是号应当是 x(m)w(n-m)的周期延拓(周期的周期延拓(周期 2k/k=L)。使复原的时域信号不产生混叠失真,要求:使复原的时域信号不产生混叠失真,要求:即:在即:在 02 范围内,频域取样至少有范围内,频域取样至少有 N 点。点。例:若窗宽例:若窗宽 N=100,在频域中,在频域中 Xn(ej)的取样的取样100点。点。同 济 大 学 电 子 与 信 息 工 程 学 院 -2 0-赵 晓 群 教 授第 5章 语 音
27、信 号 的 频 域 分 析 5.5 短 时 Fourier 谱 的 取 样 5.5.3时域和频域的总取样时域和频域的总取样 因为:因为:时域取样率:时域取样率:频域取样率:频域取样率:则:时频域总取样率:则:时频域总取样率:k 值由窗函数确定,值由窗函数确定,2k 值称为值称为“过取样比过取样比”。STFT:用数倍于信号波形取样率的速率取样,:用数倍于信号波形取样率的速率取样,其代价有时是很值得的。其代价有时是很值得的。同时在时、频域取样时,两个域的取样率可以相互调剂,同时在时、频域取样时,两个域的取样率可以相互调剂,供应了敏捷性。供应了敏捷性。欠取样:可用低于欠取样:可用低于 2kfs 的取
28、样率,虽发生混叠失真,但仍有方的取样率,虽发生混叠失真,但仍有方法精确复原出原语音信号(见法精确复原出原语音信号(见5.6.2节)节)。如:谱估计、基音和共振峰分析、数字谱图以及声码器等如:谱估计、基音和共振峰分析、数字谱图以及声码器等 应用中。应用中。同 济 大 学 电 子 与 信 息 工 程 学 院 -2 1-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.5 短 时 Fourier 谱 的 取 样第第5 5章语音信号的频域分析章语音信号的频域分析5.65.6语音的短时合成技术语音的短时合成技术语音的短时合成:从语音的短时合成:从 STFT STFT 样本中复原原始语音
29、样本中复原原始语音信号。信号。5.6.1 5.6.1滤波器组相加法滤波器组相加法当当 固定时,固定时,STFT STFT 的线性滤波说明有两种;的线性滤波说明有两种;Xn(ej)Xn(ej)是序列是序列 x(n)e-jn x(n)e-jn 通过冲激通过冲激响应为响应为 w(n)w(n)的的 低通窄带滤波器产生(见图低通窄带滤波器产生(见图5.55.5););Xn(ej)Xn(ej)是序列是序列 x(n)x(n)通过冲激响应为通过冲激响应为 w(n)ejn w(n)ejn 的的 窄带带通滤波器后,再用窄带带通滤波器后,再用 e-jn e-jn 进行调进行调制产生(见图制产生(见图5.75.7)。
30、)。已有的采样结论:已有的采样结论:窗宽为窗宽为 N N,频域内对,频域内对 Xn(ej)Xn(ej)进行进行 N N 点取样,点取样,不引起时域混叠失真。不引起时域混叠失真。STFT STFT可以用它在可以用它在 02 02 范围内范围内 N N 个等间个等间隔频率点隔频率点 k=2k/L k=2k/L,k=0,1,L-1k=0,1,L-1上的样原上的样原来代替。来代替。同 济 大 学 电 子 与 信 息 工 程 学 院 -2 2-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.6 语 音 的 短 时 合 成 技 术图图5.9:语音的短时分析:语音的短时分析-合成系统合成
31、系统 图图5.7的的 STFT 的线性滤波实现方案为图的线性滤波实现方案为图5.9的左半部分;的左半部分;用用 N 个滤波器(通道):个滤波器(通道):构成的滤波器组进行短时构成的滤波器组进行短时 Fourier 分析。分析。N个带通滤波器的中心频率在个带通滤波器的中心频率在 02 范围内是范围内是 等间隔匀整分布,但也可以是非匀整分布。等间隔匀整分布,但也可以是非匀整分布。非匀整分布状况下,需满足关于非匀整分布状况下,需满足关于=对称的条件。对称的条件。同 济 大 学 电 子 与 信 息 工 程 学 院 -2 3-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.6 语 音
32、 的 短 时 合 成 技 术传 输h0(n)h1(n)hN-1(n)图图5.9语音短时分析语音短时分析合成系统图合成系统图短时短时 Fourier 分析的合成问题:从短时分析的合成问题:从短时 Fourier 分析的结果分析的结果 复原出原始语音信号复原出原始语音信号 x(n)的方法。的方法。是以是以 k 为中心的带通信号的低通表示。为中心的带通信号的低通表示。这说明,从这说明,从 复原原始信号,应当将低通信号搬回到复原原始信号,应当将低通信号搬回到带通的位置去,即将零频率搬到上去。带通的位置去,即将零频率搬到上去。合成原理:第合成原理:第 k 个通道的输出个通道的输出 应乘以应乘以 ,并将并
33、将 N 个通道的结果相加就可得到原始信号个通道的结果相加就可得到原始信号 x(n)。短时分析短时分析合成系统的输出(见图合成系统的输出(见图5.9):):从从 x(n)到到 y(n)的系统的冲激响应的系统的冲激响应h(n)和其频率特性为:和其频率特性为:式中式中 分别是分别是 h(n)和和 hk(n)的频率特性。的频率特性。同 济 大 学 电 子 与 信 息 工 程 学 院 -2 4-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.6 语 音 的 短 时 合 成 技 术 W(ej)分析窗分析窗 w(n)的频率特性。的频率特性。由于由于 ,所以:,所以:W(ej)的的 N 个
34、等间隔频率点个等间隔频率点 上取样为上取样为 ,的逆变换为时间序列的逆变换为时间序列 w(n),是周期为是周期为 N 的延拓,的延拓,即:即:由于由于,w(n)是宽度为是宽度为 N 的有限时宽序列,的有限时宽序列,W(ej)的频域取样点在的频域取样点在 02 范围内有范围内有 N 个,个,所以,上式的逆变换得到的周期序列没有重叠失真,所以,上式的逆变换得到的周期序列没有重叠失真,其中的一个周期将精确等于其中的一个周期将精确等于 w(n)。令令 n=0,计算,计算 w(0)为:为:同 济 大 学 电 子 与 信 息 工 程 学 院 -2 5-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域
35、 分 析 5.6 语 音 的 短 时 合 成 技 术将将频率点频率点 k 换成另外换成另外 N 个个频率点频率点-k,代入上页式,得:代入上页式,得:由式由式 ,考虑上式关系,得:考虑上式关系,得:可见:可见:联系联系 x(n)和和 y(n)的的带通滤波器组带通滤波器组的总的的总的冲激响应冲激响应 所对应的所对应的频率特性频率特性是一个取决于窗函数在是一个取决于窗函数在 n=0 时的值,时的值,而与窗函数的形式无关的一个常量。而与窗函数的形式无关的一个常量。由此可以得到相应的由此可以得到相应的冲激响应冲激响应为:为:于是,于是,短时分析短时分析合成系统合成系统的输出为:的输出为:综上,综上,短
36、时分析短时分析合成系统合成系统的带通滤波器组的的带通滤波器组的约束条件约束条件为:为:同 济 大 学 电 子 与 信 息 工 程 学 院 -2 6-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.6 语 音 的 短 时 合 成 技 术5.6.2叠接相加法叠接相加法x(n)的短时谱为的短时谱为 Xn(ej),是,是 x(m)w(n-m)的的 Fourier 变换;变换;对对 Xn(ej)求离散求离散 Fourier 逆变换,可得逆变换,可得 x(n)。问题是,计算数据只有问题是,计算数据只有 ,而不是,而不是 Xn(ej)。公式推导如下:公式推导如下:假设窗假设窗 w(n-m
37、)每次移动每次移动R个取样间隔,即个取样间隔,即 n=rR,r=,0,1,。于是可相继复原出位于于是可相继复原出位于n=0,R,2R,.处各窗口内的各处各窗口内的各 N 个取样个取样信号值,这些样本可表示为:信号值,这些样本可表示为:是窗口位于是窗口位于 n=rR 处的处的 的值。的值。将各窗口内复原出来的信号样本中,相互重叠的样本相加,得:将各窗口内复原出来的信号样本中,相互重叠的样本相加,得:同 济 大 学 电 子 与 信 息 工 程 学 院 -2 7-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.6 语 音 的 短 时 合 成 技 术假如假如w(m)是有限窗宽,且是
38、有限窗宽,且 在时域内满足取样定理,在时域内满足取样定理,(矩形窗(矩形窗 RN/2,Hamming 窗窗 RN/4)可以证明对于任何可以证明对于任何 m 值,恒有值,恒有 于是,有:于是,有:可见,用叠接相加法的可见,用叠接相加法的 主要运算是逆离散主要运算是逆离散Fourier变换。变换。图图5.10:该算法流程图。:该算法流程图。图图5.11:前:前5段语音叠接相加的状况。段语音叠接相加的状况。同 济 大 学 电 子 与 信 息 工 程 学 院 -2 8-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.6 语 音 的 短 时 合 成 技 术图图5.10短时合成叠接相加
39、法流程图短时合成叠接相加法流程图n=N/4,r=1x(n)w(rR-n)补点构成补点构成L点序列点序列L 点点 FFT短时谱修正短时谱修正L 点逆点逆 FFTy(m)=y(m)+yr(m)m=n-N+1,nn=n+N/4,r=r+1w(n)y(m)=0,所有所有 m窗宽窗宽 N加加Hamming窗窗取取R=N/4注:滤波器组相加法基于短时频谱的线性滤波说明导出;注:滤波器组相加法基于短时频谱的线性滤波说明导出;叠接相加法基于短时频谱的标准叠接相加法基于短时频谱的标准 Fourier 变换说明导;变换说明导;两种算法恰成一种对偶关系。两种算法恰成一种对偶关系。同 济 大 学 电 子 与 信 息
40、工 程 学 院 -2 9-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.6 语 音 的 短 时 合 成 技 术图图5.11用叠接相加法合成语音的示意图用叠接相加法合成语音的示意图第第5 5章语音信号的频域分析章语音信号的频域分析5.75.7基于基于 FFT FFT 的短时的短时 Fourier Fourier 分析分析 x(m)x(m)的短时的短时 Fourier Fourier 变换变换 Xn(ej)Xn(ej)经时频采经时频采样后,为离散信号,样后,为离散信号,经适当处理,可以用快速经适当处理,可以用快速 FFT FFT 完成计算。完成计算。推导过程(略)。推导过程(
41、略)。计算步骤:计算步骤:由由x(m)x(m)构造序列构造序列 xn(m)=x(n+m)w(-m)xn(m)=x(n+m)w(-m);依据依据 m=Lr+q,(q=0,1,L-1;m=Lr+q,(q=0,1,L-1;r=0,1,N/L-1)r=0,1,N/L-1),将将 xn(m)xn(m)分成长为分成长为 L L 的的 N/L N/L 个短段,个短段,并将全部短段各对应元素相加,得到长为并将全部短段各对应元素相加,得到长为 L L 的的序列序列 un(q)un(q);将将 un(q)un(q)循环移位循环移位 n n,得到,得到 un(m-nL),un(m-nL),(m=0,1,L)(m=0
42、,1,L);用用FFTFFT计算以计算以 un(m-nL)un(m-nL)的的 L L 点点DFTDFT,得到,得到 同 济 大 学 电 子 与 信 息 工 程 学 院 -3 0-赵 晓 群 教 授第5章语音信号的频域分析 5.7基于 FFT 的短时 Fourier 分析 第第5 5章语音信号的频域分析章语音信号的频域分析5.85.8频域基音检测频域基音检测频域基音检测:计算困难性较高。频域基音检测:计算困难性较高。目前目前 DSP DSP 技术,计算困难性变得不太重要。技术,计算困难性变得不太重要。已用于编码标准中,如海事卫星系统已用于编码标准中,如海事卫星系统 INMARSAT-INMAR
43、SAT-M M。5.8.1 5.8.1 谐波峰值基音检测法谐波峰值基音检测法 频域基音检测方法:抽取基频上的频谱峰值。频域基音检测方法:抽取基频上的频谱峰值。要求:语音中存在第一谐波重量;但预处理等可要求:语音中存在第一谐波重量;但预处理等可能丢失信息,能丢失信息,更实际的方法:更实际的方法:检测全部的谐波峰值,检测全部的谐波峰值,运用这些谐波的公约数或者相邻谐波运用这些谐波的公约数或者相邻谐波的距离来测量基频。的距离来测量基频。可以运用梳状滤波器完成匹配工作。可以运用梳状滤波器完成匹配工作。同 济 大 学 电 子 与 信 息 工 程 学 院 -3 1-赵 晓 群 教 授第 5章 语 音 信
44、号 的 频 域 分 析 5.8 频 域 基 音 检 测梳状滤波器梳状滤波器的特性:的特性:式中,式中,C(,0)和语音的和语音的频谱相关频谱相关。相关输出相关输出是是加权加权的的梳状峰值梳状峰值之和:之和:式中式中,m 是所考虑的是所考虑的最大频率最大频率。若若 0 等于等于基频基频,则则梳状响应梳状响应能够匹配能够匹配谐波的峰值谐波的峰值,会得到会得到最大最大的的输出输出。图图5.13:谐波峰值的匹配方法。谐波峰值的匹配方法。同 济 大 学 电 子 与 信 息 工 程 学 院 -3 2-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.8 频 域 基 音 检 测图图5.13
45、谐波峰值的匹配方法谐波峰值的匹配方法5.8.2频谱相像度基音检测法频谱相像度基音检测法 比较原始频谱和重构频谱的相像性,从而确定基音周期。比较原始频谱和重构频谱的相像性,从而确定基音周期。运用方均频谱误差的相像性误差评价准则。运用方均频谱误差的相像性误差评价准则。误差函数为:误差函数为:式中,式中,为候选的基音周期;为候选的基音周期;2M+1为分析窗的大小;为分析窗的大小;Xw()为窗选语音的原始频谱,为依靠于基音的重构频谱为窗选语音的原始频谱,为依靠于基音的重构频谱W()为窗函数的为窗函数的 Fourier 变换,有关表达式为:变换,有关表达式为:同 济 大 学 电 子 与 信 息 工 程
46、学 院 -3 3-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.8 频 域 基 音 检 测1988 年,该方法用于年,该方法用于Griffin建议的建议的多带激励声码器标准多带激励声码器标准中。中。图图5.14:典型的典型的具有正确基音具有正确基音的原始频谱和合成频谱。的原始频谱和合成频谱。同 济 大 学 电 子 与 信 息 工 程 学 院 -3 4-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.8 频 域 基 音 检 测图图5.14原始语音频谱和合成的语音频谱的相似性比较原始语音频谱和合成的语音频谱的相似性比较第第5 5章语音信号的频域分析章语音信
47、号的频域分析5.95.9语音信号的时语音信号的时-频表示(略)频表示(略)5.9.15.9.1传统传统FourierFourier变换的缺点刚好变换的缺点刚好-频分析思频分析思想想 (1)Fourier (1)Fourier变换的时间辨别率为零变换的时间辨别率为零 (2)Fourier (2)Fourier变换基于信号平稳的假设变换基于信号平稳的假设 (3)Fourier (3)Fourier变换在全频域范围内辨别率变换在全频域范围内辨别率相同相同 5.9.25.9.2信号的时信号的时-频表示频表示 (1)(1)线性时线性时-频表示频表示 (2)(2)二次时二次时-频表示频表示 (3)(3)其他时其他时-频表示:频表示:Cohen-Posch Cohen-Posch类分类分布、布、L-Wigner L-Wigner分布分布5.9.35.9.3不确定性原理不确定性原理 有效时域半径和有效频域半径的约束关有效时域半径和有效频域半径的约束关系:系:5.9.45.9.4GaborGabor变换变换5.9.55.9.5小波变换及在语音中的应用小波变换及在语音中的应用 同 济 大 学 电 子 与 信 息 工 程 学 院 -3 5-赵 晓 群 教 授第 5章 语 音 信 号 的 频 域 分 析 5.9 语 音 信 号 的 时-频 表 示谢 谢!