新版语音信号处理培训ppt课件.ppt-淘文阁

资源描述

《新版语音信号处理培训ppt课件.ppt》由会员分享，可在线阅读，更多相关《新版语音信号处理培训ppt课件.ppt（177页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、语音信号处理院定选修课学时：32学分：2信号信息处理的重要研究方向精选1第一章第一章绪绪论论研究对象研究对象语音：语语言言的的声声学学表表现现。由由人人的的发发音音器器官官发发出出的的、具具有有一一定语法和意义的声音定语法和意义的声音。重要性：最最重重要要、最最有有效效、最最常常用用、最最方方便便的的信信息息交交换换手段。手段。“四会四会”语音信号处理：用用数数字字信信号号处处理理技技术术对对语语音音信信号号进进行行处处理。理。新兴、综合性、交叉学科；新兴、综合性、交叉学科；涉及到语言学、声学、认知学、涉及到语言学、声学、认知学、心理学。心理学。信号与信息处理的重要组成部分信号与信息处

2、理的重要组成部分热门学科，存在大量机遇热门学科，存在大量机遇精选2研究内容包括：研究内容包括：语音编码语音编码压缩压缩语音合成语音合成计算机讲话读文章计算机讲话读文章语音识别语音识别口授打字机等，翻译口授打字机等，翻译关键词识别关键词识别语音增强语音增强说话人识别说话人识别“声纹声纹”身份识别。身份识别。精选3教学内容与目标教学内容与目标：课程内容课程内容：基本概念的建立；各种理论和算法介绍。教学目标教学目标：对语音信号处理有基本了解，为以后的研究工作做储备。精选4发展概况发展概况：39年的声码器用于通讯年的声码器用于通讯40年代后期的语谱仪年代后期的语谱仪60年代的数字模型年代的数字模型70

3、年代的年代的LPC80年代的年代的VQ以及以及HMM90年代的神经元等新技术年代的神经元等新技术精选5第二章语音信号处理的基础知识2.1 概述概述本章讨论内容1、语音产生模型语音产生模型线性模型线性模型2、语音学基本内容语音学基本内容信息交流信息交流“发音传递感知发音传递感知”三个阶段三个阶段发音语音学发音语音学确定发音机理确定发音机理声学语音学声学语音学信号分析理论解释语音现象信号分析理论解释语音现象听觉语音学听觉语音学认识感知的过程认识感知的过程精选62.2 语音产生的过程语音产生的过程语音是具有一语音是具有一定意义的声音。定意义的声音。经分析：经分析：欲表达欲表达选择词、语句

4、选择词、语句控制肌肉运动控制肌肉运动振动空气形成语音振动空气形成语音波波与箫、唢呐比较与箫、唢呐比较精选7等效为激励源声道喇叭口精选8等效为激励源声道喇叭口激励源：声带声带振动频率基频(基音频率)清音声带不振动浊音声带振动声道：可变谐振腔不同形状、不同音共振(谐振)频率c为声速，L为声道长度，n为谐振频率的序号分析认为，声道的谐振频率(设截面均匀)：精选9共振峰Fn的局部最大值，称为共振峰。与声道对应，反映语音的频率特性，是语音的主要特征之一。不同人不同，同一人发不同音时也不同。第一共振峰F1第二共振峰F2第三共振峰F3精选10一般地：语音识别，取前3个共振峰，而对语音合成，需取5个频率

5、范围(Hz)成年男子成年女子带宽F120080025010004070F2600280070033005090F3130034001500400060180精选112.3语音信号的特性2.3.1 语言和语音的基本特性语言和语音的基本特性语言，特殊的声音，按一定规则排列声音的物理属性声音的物理属性音质：基本特征音调：频率音强：量、响度、幅度音长：声音的长短语音特有的属性语音特有的属性音节：语音流的最小单位音素：语音的最小单位，音素构成音节感情：重音语调声调等精选122.3.2 语音的时间波形和频谱特性语音的时间波形和频谱特性看一段实际语音放大结论1：时间的连续函数、频率幅度随时间变化是随机的精选

6、13元音元音其中一段再放大结论2：短时间短时间内近似认为不变结论3：元音是准周期函数(基频)基音周期精选14清音清音结论4：清音为随机起伏精选152.4语音信号产生的数字模型理想模型标准准确但不可能，必近似、简化简单最好用成熟的理论线性模型线性系统语音信号脉冲序列脉冲序列激励源，线性系统声道喇叭口激励源周期序列(浊音)/随机序列(清音)线性系统短时内不变精选16一个实用模型P16图212激励模型声道模型辐射模型精选17小结语音的时间波形连续、随机、短时性、基频、清/浊音、共振峰线性模型激励声道辐射精选182.4.1 激励模型激励模型根据前节分析，激励源在清、浊音时不同，分别讨论

7、浊音浊音有人测量知，声带振动产生斜三角型脉冲波Tp为冲激脉冲的周期，声门波模型产生单个声门脉冲将其表示为Z变换，有：冲激序列：E(z)浊音激励模型：U(z)=AVG(z)E(z)清音清音随机白噪声精选192.4.2声道模型声音在声道的传播涉及到许多物理定律(能量守恒、流体力学)，需简化。有不同的模型。1、声管模型“短时”间声道是一个形状稳定的级联管道声音在不同截面积间传输会有反射，反射系数：km(Am+1-Am)/(Am+1+Am)Am,Am+1是第m、m+1段的截面积Km是声道的特性，确定Km，就确定了声道！A1A2A3.精选202、共振峰模型根据声道近似为谐振腔的特性，有另外模型模拟其共

8、振峰。35个(1)级联型用串联网络模拟声道。一般元音用全极点模型，转移函数：G 幅值因子Ak 模型系数P 极点个数(阶数)P、ak决定了声道地特性(人的特征)，p越大越吻合。一般p=812利用Z变换的知识，把H(z)分解为多个二阶极点网络的级联：H1H2H3Hp/2精选21(2)级联型用并联网络模拟声道。大部分音用零极点模型，转移函数：级联简单，可用于一般元音，一般35级并联复杂，可用于许多音，但Ai难控制精选221)辐射+声门脉冲的作用合并在线性系统中2)时变参数：基频、开关、增益、参数3)“终端模拟”(听输出结果)验证有效4)模型可能要修正2.4.3辐射模型声道输出的速度波，经口唇变成声压

9、辐射效应研究得模型R(z)=R0(1Z-1)2.4.4完整的语音信号数字模型综上，激励声道辐射有V(z)=U(z)H(z)R(z)准周期脉冲序列发生器随机序列发生器线性时变系统基音周期系统参数清/浊音控制增益控制语音信号精选232.5语音感知研究人对声音的感知，对语音编码识别很重要MP3。对人的感知认识还有过程。研究发现：听觉(主观感觉)与声波不完全一样声音三要属(响度、音调、音色)在人听起来相互影响，且人的敏感度不同，分配不同bit。听觉掩蔽效应利用感知加权滤波器改善语音质量精选24第三章语音信号的时域分析3.1概述为甚分析与怎样分析1、通过分析，进一步了解、区别语音，提取少量参数描述语音，

10、获得基音、开关、增益等模型参数2、分析方法：模型分析LPC、共振峰等非模型分析时域、频域、倒谱域等3、“短时分析技术”基本方法，帧，加窗4、必要时考虑时变性，用HMM本章用短时分析技术，在时域提取基频、清浊、增益精选253.2语音信号的数字化和预处理3.2.1取样率与量化字长的选择1、抽样定理抽样频率8K、16K等2、量化误差e(n)平稳、均匀分布，大小与量化间隔、编码字长(最小8bit)有关3、量化信噪比SNR与信号的峰值、量化字长有关一般分析，字长为16bit反混叠滤波器抽样量化模拟信号x(t)离散信号x(n)抽样信号精选263.2.2预处理1、语音信号处理框图2、滤波器特性要求使混叠失真

11、足够小，阻带66dB，用9阶椭圆滤波器 3、加重减小动态范围H(z)=1uz-1与滤波器同时实现，也有在AD后精选273.3短时能量分析1、“短时分析”本章一直在用。取一段的方法：加窗“分帧”帧长与帧移：取的点数为帧长，乘以采样周期得帧长时间两帧间隔为帧移两帧一定有重叠，否则有参数突变！信号x(n)，窗函数w(n)，加窗后为x(m)w(n-m)精选282、短时平均能量及含义根据前法，对加窗后的信号求解XX得短时XX短时平均能量：每取一个n，得到一个En。n的间隔为帧移。上式变形：H(z)X2(n)En精选293、窗口选择以上分析见，加窗为一滤波器取出一部分。同前，滤波器的特性影响结果。希望直角

12、窗1,0nN-1h(n)=0,其他海明窗(Hamming)h(n)=0.54-0.46cos2npi/(N-1),0n m=m1+n 则：计算自相关，先乘后加，运算量大！用来求基音周期！精选363.5.2修正的短时自相关函数1、存在的问题随k的变化，参加运算的项减少。极限k=N-1时无运算项！2、修正的短时自相关函数两个不同长度的窗w1(n)【0N-1】与w2(n)【0N-1+K-k】Kk当w1,w2为直角窗时(0kK)k=250k=0精选373.5.3短时平均幅度差函数问题的提出：自相关计算量大，大在乘法！短时平均幅度差函数(AMDF)定义：式中R为x(n)的平均值w1、w2同修正的自相关函

13、数中的定义对于浊音信号，在周期倍数点上，幅值相等，Fn0精选38第三章小结采样与反混叠短时分析方法、窗口与长度选择短时能量定义短时过零分析短时相关分析与修正短时平均幅度分析(AMDF)精选39第四章语音信号的短时傅立叶分析4.1概述傅立叶重要性，时域频域，信号的某些特性短时谱：分帧处理4.2短时傅立叶变换4.2.1短时傅立叶变换的定义1、短时傅立叶变换对于第n帧语音信号，xn(m)=x(m)w(n-m)可见既是时间n的离散函数，又是角频率的连续函数精选40讨论：(1)n不变，记y(m)=xn(m)，标准的傅立叶变换(2)不变，记l=两者卷积w(n)系统y(n)信号信号经过线性系统据此：短时傅立

14、叶变换有两层含义2、离散的短时傅立叶变换令=2k/N，在0 k N-1精选41用傅立叶变换解释窗口与长度4.2.2标准傅立叶变换的解释n不同，得不同值。n不变，一个一般傅立叶变换短时功率谱：海明海明直角直角分辨率衰减共振峰精选42改写短时傅立叶表达式：由时域特性：因此可见，短时谱为信号谱与窗口谱的卷积，受窗影响(1)窗口形状的选择若.内为冲激函数，则Xn(.)=X(.)同谱！比较矩形与海明窗主瓣主瓣(2)窗口宽度的选择f01=1/NT,T为采样周期。N大，f01接近0，W(.)类冲激函数!但N大，短时性差，要综合考虑！精选43P44图4-2与图4-3海明比较，N=500(上)与N=50(下)比

15、较精选444.2.3滤波器的解释与通信原理中的幅度调制比较精选454.3短时傅立叶变换的取样率短时谱既是时间n的函数，又是频率的函数二维即：每个n都有一个X()。为用计算机保存短时谱既要对取样，又要对n取样。1、时域取样率(对n)固定Xn(.)是w(n)的输出，设w(n)带宽为BHz，则带宽为B，时域取样率2B(点/秒)B的确定：由的第一零点01确定,01=2/N N点对应的时间为NTs=N/fs 故模拟角频率01fs B=01fs/2=fs/N 对于直角窗的时域取样率2B=2fs/N(直角窗)精选462、频域取样率当n固定时，Xn(.)是的周期函数。根据“傅立叶变换的离散性与周期性”(如图)

16、，3、总取样率n固定时：L=N时域取样率：2B总取样率：SR=2BL两者关系如下图，对Xn()抽样后，为了时域不重叠，取：T1NTs即LN取等共共N N点，点，T1=NTsT1=NTs共共L L点，点，fsfs=Lf1=Lf1精选474.4语音信号的短时综合由Xn()恢复x(n)的方法：滤波器组求和法/FFT求和法1、单一频率k 已知则：hk(m)取样率：x(n)10KHzXn()也要10KHz？否！w(m)为低通，故Xn()带宽远小于X()可降低采样率综合：网络综合精选482、L个频率取样后，有L个频率点，每个频率点有一个yk(n)。根据线性系统的理论，总输出：可以证明y(n)=x(n)精

17、选494.5语谱图一种分析短时谱的仪器，Xn()是时间n，频率的函数，要用三维显示。二维易显，三维？nXn早期用亮度现有用图形为实时，也有仍用亮度声纹精选50第四章小结与作业第四章小结1、短时傅立叶变换定义及两层含义2、窗口形状、长度对短时谱的影响3、短时谱的取样率(n,w)4、短时综合5、语谱图精选51第五章语音信号的同态滤波及倒谱分析5.1概述从模型看，激励系统，如何从语音信号中取出激励序列、声道冲击响应？语音信号激励与声道的卷积解卷积算法：“参数解卷”线性预测分析“非参数解卷”同态滤波(同态信号处理)把求卷积求和倒谱分析：同态分析的结果称为倒谱精选525.2同态信号处理的基本原理1、不

18、同信号的处理方法加性信号线性关系、叠加原理，处理方法成熟乘性信号卷积信号非线性关系，不能用叠加原理，处理困难2、卷积同态系统y(n)=Hx(n)=Hx1(n)*Hx2(n)*表示离散时间卷积运算卷积同态系统模型任何同态系统可表示为三个子系统的级联D*L*D*-1*+特特征征系系统统线性系统逆逆特特征征系系统统精选53特征系统D*把卷积转换为和，把非线性变为线性逆特征系统D*1把和转换为卷积，把线性变为非线性线性系统L*真正需要的处理算法，可利用信号与系统中所学过的各种处理手段，满足叠加原理ZlnZ-1*+ZexpZ-1+*+精选543、同态滤波的基本原理设有x(n)=x1(n)*x2(n)(1

19、)D*Z-ln-Z-1(2)D*-1Z-exp-Z-1Y1(z)Y2(z)名称？名称？精选555.3复倒谱和倒谱1、概念是x(n)经特征系统后的值，是时域序列，是信号的频谱取对数的反变换。由于与x(n)的谱间的关系，给他起名：复倒频谱Complex Cepstrum Spectrum2、DFT下的特征系统DFT运算快，一般用DFT、IDFT代替z变换(1)D*(2)D*-1x(n)的频谱x(n)的对数频谱x(n)的复倒谱精选563、复倒谱的幅度与相位同傅立叶变换，复倒谱有幅频特性、相频特性复数计算量大复数计算量大考虑人的听觉对相位不敏感，为减少运算量，丢掉相位4、倒谱若c1(n)c1(n)、

20、c2(n)c2(n)是x1(n)x1(n)、x2(n)x2(n)的倒谱，且x(n)=x1(n)*x2(n)x(n)=x1(n)*x2(n)有有c(n)=c1(n)+c2(n)c(n)=c1(n)+c2(n)C(n)与x(n)一对多的关系，由c(n)不可还原x(n)，因丢相位精选575.4语音信号两个卷积分量复倒谱的性质从模型知，在时域语音为声门序列*声道序列。用前述方法，分析这两个序列。复倒谱求解方法5.4.1 声门激励信号求x(n)的复倒谱(1)求z变换(2)取对数用泰勒级数展开ln()精选585.4.2(3)求逆变换式中结论：声门激励信号的复倒谱是无限冲激序列，幅度变、周期不变5.4.2声

21、道冲激响应序列模型实系数值小于值小于1 1零点、极点；园内、园外精选59求对数，展开为泰勒级数再求逆Z变换得：(n=0)(n0)(n0)结论：(1)双边序列(2)衰减序列(3)集中在原点附近据此，可以用低倒谱窗从x(n)的倒谱中取出声道特性的复倒谱。(分离声道、声门)推导过程见机械工业出版社赵力编的推导过程见机械工业出版社赵力编的语音信号处理语音信号处理精选605.5避免相位卷绕的算法1、什么是相位卷绕？对于傅立叶的乘积取对数后的振幅与相位和的值可能大于2，而计算只在02间，即：主值称为相位卷绕2、对复倒谱的影响计算时，相位与实际相位差2k，不是实际相位。误！3、对策改进算法，避开相位求和

22、相位求和！精选615.5.1微分法利用傅立叶变换的微分特性与对数微分特性，来避开相位卷绕由傅立叶变换的微分特性，若则由于同理：把ln(.)代入上式可求的nx(n)避开了相位求和！缺点：nx(n)比x(n)含更多的高频成分，用x(n)的采样率会带来频谱混叠！精选626.5.2最小相位信号法设有因果序列x(n)，则可分解为奇和偶：零极在Z平面单位园内可见：通过xe(n)求x(n)结论：求x(n)变为求xe(n)精选63由傅立叶变换的奇偶虚实性知：精选64加窗信号傅氏幅值傅氏相位主值复倒谱倒谱声道的倒谱高通：声门低通：声道精选65声道、声门序列估计取出倒谱，经逆特征系统得到的y(n)分析得到的声道幅

23、频分析得到的声道相频声道冲激响应估值声门序列估值清音信号的例子得共振峰基音周期X(n)复倒谱低倒谱窗复倒谱低倒谱窗声道的复倒谱声道的复倒谱逆特征逆特征声道冲激声道冲激高倒谱窗高倒谱窗声门的复倒谱声门的复倒谱逆特征逆特征声门序列声门序列精选66第五章小结同态滤波作用，特征、逆特征系统复倒谱与倒谱声门序列、声道序列的复倒谱分析相位卷绕与避免方法精选67第六章语音信号的线性预测分析6.1概述67年用于语音信号处理。核心技术/用于各方面/真正实用能精确地估计语音参数，效率高预测参数：LPC、PARCOR参数、LSP参数基本概念：用过去的一组值估计(预测)新值6.2线性预测分析的基本原理6

24、.2.1基本原理全极点模型，原因P70设输出的语音信号为s(n)激励信号为u(n)，则过去P个值的加权求和预测预测语音特征：Np、G、ai这些系数如何求？精选686.2.2线性预测怎样求ai?方法多样。其中一种：若则称c(n)为误差。在最小均方误差准则下，可确定一组系数ai，称为线性预测系数(LPC)(LinearPredictiveCoefficients)6.3线性预测方程组的建立F(z)s(n)s(n)A(z)s(n)e(n)1、线性预测系数求解预测值预测误差显然A(z)称为“逆滤波器”或“预测误差滤波器”e(n)是随机序列，均方误差表示为集平均？时间平均？令求出一组系数ai均方误差精选

25、692线性预测方程按前述方法，对误差求偏倒数，并令其为0，可得方程组线性预测的标准方程组s若定义则方程式为精选703线性预测增益最小预测误差e(n)=s(n)s(n)。可见e(n)=Gu(n)式中，u(n)为声门激励序列方差/短时为常数可见，声道的线性预测增益6.4线性预测分析的解法(一)自相关法、协方差法有了线性方程组，如何求解？方法很多，介绍几种自相关法是利用短时自相关函数，改写、求解方程1、改写方程式序列信号s(n)加窗后记为sn(k)，其短时自相关函数为精选71改写方程式写成矩阵形式Yule-Walker方程Toeplitz矩阵线性预测方程精选722求解该矩阵的一种常用递推算法Levi

26、nson-Durbin递推步骤：1、i0，E0=Rn(0),a1(0)=1递推次数初值2、i从1到p计算：(2)ai(i)=ki递推0次时的a值(3)j从1到i-1计算aj(i)=aj(i-1)kiai-j(i-1)(4)Ei=(1-ki2)Ei-13、aj=aj(p)(1)以一个二阶预测器为例，求aj第一步、求Rn(0),Rn(1),Rn(2)得方程第二步、按左示步骤递推1、i=0,a1(0)=1,E0=Rn(0)2、i=1(1)k1=Rn(1)/E0(2)a1(1)=k1(3)不执行(4)E1=(1-k12)E0a1(0)i=2(1)k2=a1(1)Rn(-1)+Rn(2)(2)a2(2)

27、=k2(3)a1(2)=a1(1)-k2a1(1)(4)E2=(1-k22)E13、a1=a1(2),a2=a2(2)精选733反射系数ki与算法稳定性出现一个重要参数ki，称为反射系数或偏相关(PARCOR)系数由(4)Ei=(1-ki2)Ei-1和E0=Rn(0)知，第P次运算后的均方误差算法稳定条件若|ki|A(z)=H(z)把z=ej代入得同ai一样，具有短时性2、语音信号谱S(ej)由模型，冲激作用于系统，故S具有H包络3、|S(ej)|2与|H(ej)|2的比较可以用LPC分析得到得H，近似表示S估计精选784、p与N的选择p大，|H(ej)|精确匹配于|S(ej)|，但计算量大!

28、选择原则：保证有足够的极点来模拟声道响应的谐振结构经验公式：p=fs/1000+2或3一般10kHz取样时，p取1214N：参加运算的样点数，一般N取23个基音周期6.6.2LPC复倒谱用LPC系数表示的语音模型中线性系统冲激响应的复倒谱设系统的冲激响应h(n)，则：求h(n)的复倒谱：两边对z-1求偏导数比较等式两边对应项，得：称为LPC复倒谱精选796.5.3LPC谱估计和其他谱分析方法的比较1、三种短时谱估计方法(1)LPC系数=H(z)=H(ej)=当p无穷大，近似为S(ej)(2)LPC复倒谱ai=h(n)=s(n)=S(ej)(3)FFT复倒谱用倒谱法，求出声道特性，估计出S(ej

29、)2、结果比较精选806.7线谱对(LSP)分析(LineSpectrumPair)LPC分析：用s(n)的时域表示，求解H(z)。应用这种参数，可构造2.4kbps的声码器。为构造更低码率，有人从另一个角度求解H(z)LSP分析(也是线性预测的一种)已知由L-D算法01两边同乘得精选81定义kp+1=-1时的A(p+1)(z)为P(z),kp+1=1时的A(p+1)(z)为Q(z)则有：去掉右上角的(p)：有人证明：当p为偶数A(z)的零点在z平面单位圆内时，P(z)、Q(z)的零点都在单位圆上，且交替出现交替出现。进一步把P(z)Q(z)进行因式分解精选82 ii是频域参数，称为是频域参数

30、，称为“SpectrumSpectrum”；成对出现，；成对出现，称为称为“PairPair”；P(z)Q(z)P(z)Q(z)由由LPCLPC分析导出，称为分析导出，称为“LineLine”求解方法：代数方程求根(牛顿迭代)、DFT法说明：1、LSP参数是LPC系数的频域表示，是LPC分析一种2、LSP用p个离散频率ii表示|H(ej)|2 3、一对LSP参数表示一个谐振点，因此一对参数的误差只影响该对点附近的语音特性；可根据听觉特性分配量化比特数 4、应用在低编码速率极零模型全极模型不能表示时解法：同态预测法极零-全极-LPC精选83第六章小结LPC分析目标、原理、误差、方程自相关求解

31、Levison-Durbin递推算法格型法正(反)向误差、准则LPC复倒谱谱估计了解LSP分析精选84第九章语音检测分析检测语音特征基音、共振峰9.1基音检测重要性：十分重要，基音携带具有辨意作用的信息困难性：1、声门激励不是完全周期的2、清音与低电平的浊音难区分3、声道共振峰的谐波在基音范围4、每个周期的开始与结束的判断5、背景噪声的影响6、基音频率范围大提取方法：精选859.1.1自相关法问题：噪声、声道的共振特性，使得语音信号在求自相关函数时出现假峰值误解决方法：中心削波法y(n)=cx(n)y(n)求其自相关精选86问题与改进由于大于门限CL保留原数值，计算时要乘以削波系数，计算复杂修

32、正：自相关函数：选直角窗：y()只有+1、-1、0三种取值，不必作乘法！精选879.1.2并行处理法时域法，比较成功少数服从多数m1(n)取峰值m2(n)峰值减前一谷值m3(n)峰值减前一峰值m4(n)取谷值m5(n)谷值减前一峰值m6(n)谷值减前一谷值精选889.1.3倒谱法(CEP)语音信号倒谱分析从倒谱中用高倒谱滤波，取出声门序列的倒谱得周期窗的选择(两周)倒谱分析峰值位置清浊判断清：不输出浊：基音受噪声干扰，易误判。一种改进用预测误差Gu(n)代替语音！声门脉冲精选899.1.4简化逆滤波法(SIFT)是自相关法，只是用Gu(n)代替语音信号s(n)。由于去除了声道干扰，效果更佳！由

33、于5:1抽取，自相关的计算量降低。结果比较(以男声a为例)精选909.1.5基音检测的后处理基音检测每帧都要作。若有异常数据，称为“野点”，得滤除方法是，对得到的基音值进行处理，去除干扰1、中值平滑处理前后各取L点(共2L+1)，从大到小排序，取中点保留了跳变，但可能未滤除噪声2、线性平滑处理加权平均。例前后各一点记为x-1、x0、x1，权值0.25,0.5,0.25则当前值x=0.25*(x-1+x1)+0.5*x0 滤除了噪声，但模糊了跳变3、组合平滑处理1、2的组合，先中值后线性多种组合，满足要求精选919.2共振峰估值重要性：声道特性困难性：1、虚假共振峰(声门)2、共振峰合并(太近)

34、3、高基音语音(影响谱估计)9.2.1带通滤波器法如何选精选929.2.2DFT对语音信号进行DFT分析，从中提出共振峰浊音时：误差大(声门)，清音时：较准确9.2.3倒谱法原理：可分离声门声道序列(“语音信号两个序列的复倒谱”)框图：效果：清浊不同，浊音较好缺点：运算量大对假峰无法区分峰合并无法分9.2.4LPC法LPC分析，误差=声门/ai=声道特性。共振峰即H(z)的极点；解法1、求A(z)的根(解多项式)2、LPC谱估计(在峰值处匹配得好)精选93第九章小结基音检测自相关法/改进自相关并行处理倒谱法简化逆滤波法共振峰估值带通滤波DFT倒谱法LPC法检测的后处理精选94第十章语音编码(一

35、)波形编码10.1概述需求：通信通信目的：可接收的失真条件下，采用尽可能少的比特数表示语音可接收的失真条件下，采用尽可能少的比特数表示语音编码就是压缩！综合考虑：可懂度、数码率、计算量综合考虑：可懂度、数码率、计算量应用：传输传输移动电话、保密通信等。移动电话、保密通信等。低比特率的优势：窄带、小功率低比特率的优势：窄带、小功率(信道容量信道容量)、大容量、大容量存储存储数字录音、电子字典等。要求实时、语音质量数字录音、电子字典等。要求实时、语音质量进展：起步早，有很多标准，热点是更低比特率起步早，有很多标准，热点是更低比特率分类：波形编码：尽可能保持波形不变波形编码：尽可能保持波形不变(

36、不仅语音不仅语音)，一般，一般1664Kps 参数编码：提取语音特征，对特载编码、传输、重构合成参数编码：提取语音特征，对特载编码、传输、重构合成又称又称“声码器技术声码器技术”。不要求波形。不要求波形评价：客观标准：客观标准：SNR (对声码器无效对声码器无效)主观标准：听后打分。主观标准：听后打分。MOS(平均意见得分平均意见得分)，DRT(可懂度评价可懂度评价)，DAM(判断满意度判断满意度)。精选9510.2语音信号的压缩编码原理10.2.1语音压缩的基本原理1、压缩依据客观冗余信号本身特征信号本身特征(4)(1)(1)语音信号样本间的相关性很强语音信号样本间的相关性很强(8kHz8

37、kHz时两点相关时两点相关0.850.85)(2)(2)浊音段的准周期性浊音段的准周期性(一个周期的参数，多处用一个周期的参数，多处用)(3)(3)声道的形状及其变化比较慢声道的形状及其变化比较慢 (4)(4)取值的概率分布是非均匀的取值的概率分布是非均匀的 (5)(5)静止系数静止系数(语音间隔语音间隔)主观冗余人的听觉特性人的听觉特性听觉掩蔽特性听不到或不灵敏的语音分量视为冗余听不到或不灵敏的语音分量视为冗余 2、极限码速按信息论，可计算语音的平均信息量按信息论，可计算语音的平均信息量人们认为，语音中基本元素为音素，大约不到人们认为，语音中基本元素为音素，大约不到256256个，个

38、，等概时，按等概时，按1010音素音素/秒，秒，I=logI=log2 2(256)(256)1010=8080(bit/(bit/秒秒)精选9610.2.2语音通信中的语音质量一般分为：CD质量FM广播质量AM广播质量长途电话质量通信质量合成质量质量高，采样率高，比特率高10.2.3两种压缩编码方式的优缺点波形编码：任何任何声音声音，音质好，但比特率高。，音质好，但比特率高。评价：SNR参数编码：只对只对语音语音，音质较差，算法复杂，比特率低。，音质较差，算法复杂，比特率低。评价：主观评价。主观评价。10.3 PCM及其自适应 (通信原理中讨论过，均匀通信原理中讨论过，均匀/非均匀量化，非均

39、匀量化，APCM等等)精选9710.4预测编码及其自适应10.4.1预测编码及自适应预测编码(APC)原理1、原理据据LPCLPC，预测误差，预测误差 e(n)=s(n)-se(n)=s(n)-s(n)(n)动态范围和平均能量远远动态范围和平均能量远远小于小于s(n)s(n)，同时发送，同时发送e(n)e(n)与预测系数，可得低码率语音编码，与预测系数，可得低码率语音编码，称为称为“预测编码”若预测系数若预测系数固定不变，为DPCM。若预测系数若预测系数随语音而变，称为称为自适应预测编码自适应预测编码(APC)。2、自适应能改善信噪比量化噪声：能量预测增益量化器量化器定的信定的信噪比噪比x(n

40、)y(n)e(n)Es,Eq,Ee是信号、量化噪声、预测误差的平均能量！是信号、量化噪声、预测误差的平均能量！精选9810.4.2短时预测与长时预测利用前后取样点间相关性，称这种预测为利用前后取样点间相关性，称这种预测为“短时预测”(LPC)由于浊音具有周期性，由于浊音具有周期性，e(n)e(n)也是周期的，对也是周期的，对e(n)e(n)再次预测，可再次预测，可进一步压缩码率，称之为进一步压缩码率，称之为“长时预测”。一段预测误差一段预测误差10.4.3噪声整形利用人的听觉掩蔽效应，对噪声的感觉还取决于噪声的谱包络，利用人的听觉掩蔽效应，对噪声的感觉还取决于噪声的谱包络，将量化噪声谱整形，使

41、人不易察觉。称为将量化噪声谱整形，使人不易察觉。称为“噪声整形”,“感知加权”实现：让噪声和信号谱包络相近精选9910.6子带编码(SBC)也称频带分割编码，属于频域编码也称频带分割编码，属于频域编码子带子带平移为低通平移为低通低采样率低采样率编码编码1、听觉特性与SBC听觉：不同频率敏感度不同！一般不同频率敏感度不同！一般1KHz1KHz左右左右SBC：对不同频段的语音区别对待对不同频段的语音区别对待敏感频段分配敏感频段分配多bit，以减少量化误差不敏感频段分配不敏感频段分配少bit，误差大点但感觉不到误差大点但感觉不到，以压缩码率2、原理精选1003、“整数带”取样法选择带宽和采样频

42、率，避开频率搬移选择滤波器的选择滤波器的下下截止频率为带宽的截止频率为带宽的整数倍整数倍设带宽为设带宽为WWk k，则下截止频率，则下截止频率f flklk n n W Wk k，如图，如图,以以2 2WWk k采样采样Lk:1抽取(Lk=W/Wk)345带通滤波器：过渡特性影响采用VSB类似的方法，这种滤波器称为QMF(正交镜像)以以2 2子带为例子带为例一般要一般要128128256256阶阶FIRFIR 而而QMFQMF只要只要16163232阶阶通道通道2 2通道通道1 1两种基于两种基于SBC的编码标准：的编码标准：1、AT&T的的SBC QMF+APCM 4kHz分为分为5个子

43、带个子带比特数分配比特数分配16kbps 4/4/2/2/0 24kbps 5/5/4/3/0 2、CCITT的的G722 QMF+ADPCM 7khz分为分为2个子带个子带总码率总码率64kbps 低频带低频带48kbps 高频带高频带16kbps精选10110.7自适应变换编码(ATC)变换编码高质量语音压缩编码，有较高的压缩效率1、原理时域-正交变换-变换域-系数量化编码-传输-反变换-时域一般地：一帧语音信号s(n),0n 周期，合成中有人为特性周期，合成中有人为特性 3 3、简单的清浊音划分、简单的清浊音划分 4 4、参数更新速率不适合爆破音等、参数更新速率不适合爆破音等 5 5

44、、背景噪声被分析后，在合成端性质变换、背景噪声被分析后，在合成端性质变换精选10511.3相位声码器和通道声码器基于短时傅立叶变换，怎样求与传Xn(.)11.3.1相位声码器相位导数对和进行编码、传输，称为相位声码器精选10611.3.2通道声码器早期声码器为易实现，分析时提取短时谱的幅度，不传相位。为易实现，分析时提取短时谱的幅度，不传相位。(类似共振峰)从模型看，还要激励从模型看，还要激励按听觉非均匀取幅值低取样缺点：准确基音估计困难-误差，传输值为|Xn|的一个值通道串扰加大落入某通道的串扰落入某通道的串扰某通道特性某通道特性采样实验证明：音质较差但可懂度好抗背景干扰强！精选10711.

45、4同态声码器11.4.1基于倒谱的分析与合成11.4.2同态声码器据报道：20mS计算一次倒谱(每秒50次)，共用26个倒谱值，每个值用6bit量化，可产生高质量的语音改进：c(n)差分值、不同长度的时窗高时窗不便量化高时窗不便量化改为传基音周期等改为传基音周期等精选10811.5线性预测声码器最成功、最广泛，可压缩2030倍原理：LPC分析波形编码中，编码端中，编码端LPCLPC产生预测误差产生预测误差e(n)e(n)【APC】参数编码中，传预测系数，用模型产生语音中，传预测系数，用模型产生语音【LPC声码器】精选10911.5.1LPC参数的变换和量化因因ai决定决定H(z)的极点，的极点

46、，H(z)对对ai的量化误差的量化误差敏感，不易直接传，不易直接传ai实用的系统中都须实用的系统中都须变换后传输。介绍三种方法。介绍三种方法。方法1、反射系数研究表明，研究表明，ki的取值概率分布不同。的取值概率分布不同。k1接近接近-1，k2接近接近+1 k3,k4,是均值为零的高斯分布。是均值为零的高斯分布。谱灵敏度：|ki|越接近越接近1，对谱的影响，对谱的影响越大！可采用非均匀量化，以降低码率。一般可采用非均匀量化，以降低码率。一般k1,k2用用56bits，渐少，渐少方法2、对数面积比把把ki再次变换，以取得更好的效果再次变换，以取得更好的效果当当时时量化时量化时gi的误差，变

47、换回的误差，变换回ki时，引起的时，引起的ki变换变换很小很小。降低谱灵敏度。降低谱灵敏度方法3、预测多项式的根求求A(z)的根再量化。的根再量化。精选11011.5.2变帧率LPC声码器根据语音信号的相关性，前后两帧间根据语音信号的相关性，前后两帧间可能很相近。很相近。变帧率：后帧与前帧比较，有较大：后帧与前帧比较，有较大差异才传输，才传输，降低码率用欧氏距离用欧氏距离11.5.3 LPC-10编码器1981年作为美国国家标准。年作为美国国家标准。2.4kbps，较简单，抗噪与自然度较差，较简单，抗噪与自然度较差RMS增益、增益、RC反射系数，反射系数，pitch基音周期、基音周期、V/U

48、V清浊音清浊音(三帧平滑三帧平滑)对数面积比、查表法编码，对数面积比、查表法编码，180个样点个样点/帧帧 8K采样采样44.4帧帧/秒秒V/UV00稳定的清音稳定的清音01清向浊转换清向浊转换10浊向清转换浊向清转换11稳定的浊音稳定的浊音精选111LPC-10比特分配(Gray)44.4帧帧/秒秒*54bits/帧帧 2.4kbps精选112LPC-10接收端译码问题：损失语音的自然度、坚韧性：损失语音的自然度、坚韧性(Robustness)差差原因：二元激励。：二元激励。(问题简单化了问题简单化了)改进：混合激励：混合激励(多元多元)、混合编码、混合编码声门脉冲声门脉冲精选11311.6

49、混合编码据前，编码效果由于二元据前，编码效果由于二元激励，解决之道，解决之道改激励混合编码：分析时也合成，检验用何种，检验用何种激励合成效果最合成效果最佳一般模型LPC分析分析LPCH(z)感知加权感知加权激励产生激励产生误差最小误差最小发送端参数参数激励激励原始语音原始语音误差误差不再是基音不再是基音清浊清浊精选11411.6.1Multi-PulseLPC(MPLPC)每个每个短时期期,用用7/8个脉冲个脉冲(位置位置.幅度变幅度变)为激励。以便达到为激励。以便达到误差最小！流程:(如何确定脉冲位置与幅度)1、加一个脉冲，调整并、加一个脉冲，调整并记下记下位置、幅度，使位置、幅度，使|e(

50、n)|最小最小 2、再加一个脉冲，同、再加一个脉冲，同1 3、重复、重复2，直到，直到|e(n)|达到设定最小值或脉冲数达到设定个数达到设定最小值或脉冲数达到设定个数编码结果：声道声道脉冲位置、幅度脉冲位置、幅度关键点：如何找位置和幅度？“最大互相关函数搜索法”精选11511.7.1 波形编码的信号压缩技术11.7.2 波形编码和声码器的比较11.7.3 各种声码器的比较11.7各种语音编码方法的比较设第第i个脉冲幅度为个脉冲幅度为gi，位置，位置mi，语音语音s(n)，合成滤波器，合成滤波器h(n)K个脉冲合成的信号与原始语音信号的误差为个脉冲合成的信号与原始语音信号的误差为Ek对gi、m

展开阅读全文