第5讲语音编码优秀PPT.ppt-淘文阁

资源描述

《第5讲语音编码优秀PPT.ppt》由会员分享，可在线阅读，更多相关《第5讲语音编码优秀PPT.ppt（30页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第5讲语音编码现在学习的是第1页，共30页回声的产生在实时通信中，回声是不可避免的，A端发送的声音在B端放出后，会随着B的声音再传送到A端，形成回声。当A-B间延时很小，则A的回声与A语音近似重叠，人耳无法分辨。在PSTN网中，对于普通的市话呼叫，就属于这种情况。如果A-B延时较大，则回声和语音就能被人耳所分辨，形成干扰。卫星电话和IP电话就属于这种情况ABEcho of AVoutVin现在学习的是第2页，共30页回声的分类分为声回声(Acoustic Echo)和线回声(Line Echo)声回声：Vout播放出来，经空气传播，通过直射、反射等各种方式，形成Vin。声回声形成复杂，回声路径

2、多样化，回声延时较大。线回声：在公用电话网中，干线传输采用4线方式（收、发各两线），而到交换局和电话终端之间，则采用2线方式（收发语音合并）。在2-4线转换过程中，由于阻抗匹配的问题，总会有些语音直接回传到发端，形成回声。这种回声路径比较固定（就是2-4线转换器），回声延时也比较小。现在学习的是第3页，共30页线回声抵消技术对于Line Echo，由于回声路径固定，回声延时较小，一般采用自适应滤波技术，用一个滤波器来模拟回声路径，并将滤波器输出与实际的采样语音相减，从而抵消掉回声。2-42-4Echo CancellerFilter-128阶滤波器，可抵消16ms的回声。一般采用LMS算法估计

3、滤波器系数。现在学习的是第4页，共30页声回声抵消技术与Line Echo相比，Acoustic Echo的回声路径更加复杂，而且路径的时变性更大，因此LMS算法已无法及时跟踪。而且由于回声延时很大，如果继续采用线性滤波器，则运算量将大幅增加。首先要选择更好的自适应滤波算法，有更快的收敛速度。其次要采用一些特殊的滤波器结构，以减小运算量。还可以采用多点语音输入输出方式，利用他们的空间相对位置进行计算。现在学习的是第5页，共30页在多媒体通信中的应用和公用电话网相比，基于Internet的语音通信有巨大的延时。编解码延时（10-30ms）网络延时（几十至几百ms）处理延时（取决于处理器，一般几m

4、s）因此收发两端延时往往能达到上百ms，必须采用回声抵消技术。在端对端通信中，一般采用线回声抵消，在会议通信中，一般采用声回声抵消。现在学习的是第6页，共30页语音降噪在一些恶劣的通信环境下，往往通话中含有极大的噪声（如坦克之间的通信），对通信造成很大的影响。噪声和语音在特性上有很大的不同。可以利用这些特征，将噪声和语音分离，再单独对语音作编码。语音的例子，噪音的例子。语音编辑处理软件CoolEdit2000现在学习的是第7页，共30页噪音和语音的特征过零率：噪音的过零率高，而语音的过零率低。基因周期：噪声没有周期性，而语音有比较明显的周期特征。短时能量：噪声的短时能量稳定，语音的短时能量变化

5、较大。现在学习的是第8页，共30页增益控制在企业的会议通信中，两个Group之间的会议是很典型的应用。此时一个Group中的每个成员，距离通信终端的距离都不同。自动增益控制（AGC）通过检测输入信号的能量，并进行调整，使得发送到对端的语音信号能量基本相同，让对端有一个较好的听觉效果。现在学习的是第9页，共30页增益控制（二）增益控制的基本技术是让语音的短时能量逼近其长时能量。长时能量的更新较慢，比较稳定。短时能量变化虽然快，但对于每个音节来说，相差不大。因此由于距离调整所引起的短时能量变化，如果向长时能量逼近，则可以保持语音能量的平稳性。对于更复杂的增益控制算法，应考虑对噪声放大所产生的问题。

6、现在学习的是第10页，共30页语音压缩声音的分类语音编码的性能评价指标和国际标准语音的特点和模型几种基本的语音编码技术CELP编码模型的分析现在学习的是第11页，共30页声音的分类声音的分类语音(Telephone Speech)，2003400Hz，8KHz采样，主要应用于数字电话波形编码波形编码参数编码参数编码混合编码混合编码宽带语音（Wideband Speech），507000HZ 16KHz采样，主要应用于会议电视，相当于调幅广播质量音频(Audio)，10-20000Hz，主要应用在娱乐与欣赏对于重建信号的音质有很高的要求，目前采用比特率较高的波形编码技术进行压缩。现在学习的

7、是第12页，共30页语音编码性能指标语音编码性能指标 1.编码速率（编码速率（KBPS、KB/S）信号带宽：2003400Hz、507000Hz、1020000Hz采样频率：8K、16K、32K、44.1/48K（Hz）压缩码流速率（kb/s）2.编解码延时编解码延时公用电话网公用电话网510ms，移动蜂窝网不超过，移动蜂窝网不超过100ms 3.算法复杂度和可扩展性算法复杂度和可扩展性用MIPS衡量，现在的DSP运算能力达到几百上千MIPS。G729和G729A，可扩展性的例子。4.抗误码，抗丢包的能力抗误码，抗丢包的能力5.鲁棒性鲁棒性对不同音源，不同环境下有同样的质量。系统级联后多次编

8、码解码后语对不同音源，不同环境下有同样的质量。系统级联后多次编码解码后语音的质量。音的质量。现在学习的是第13页，共30页语音编码性能评价语音编码性能评价 1.编码速率（编码速率（KBPS、KB/S）信号带宽：2003400Hz、507000Hz、1020000Hz采样频率：8K、16K、32K、44.1/48K（Hz）压缩码流速率（kb/s）2.重建语音质量重建语音质量客观评价：信噪比主观评价：MOS分（1-5分）3.编解码延时（编解码延时（ms）4.算法复杂度算法复杂度 5.抗误码，抗丢包的能力，多次编码解码后语音的质量抗误码，抗丢包的能力，多次编码解码后语音的质量现在学习的是第14页，共

9、30页语音编码质量评价（一）语音编码质量评价（一）可懂度评价：判断韵字测试，改进韵字测试音质评价：MOS（Mean Opinion Score),DMOS(Degradation MOS)得分MOSDMOS5优不察觉4良刚察觉3中有察觉，稍觉可厌2差明显察觉，勉强忍受1劣不可忍受语音编码的速率、复杂度和语音质量有着相互制约的关系。速率和复杂度都有客观的评价标准，而语音质量更多的是主观感受。主观评价方法：可懂度评价和音质评价。可懂度反映对语音内容的识别程度，音质包括语音的自然度和讲话人的可识别性。音质高-可懂度高；反之不一定成立。现在学习的是第15页，共30页语音编码质量评价（二）语音编码质量评

10、价（二）时域测度信噪比(SNR)，分段信噪比。越大越好。频域测度对数谱距离，倒谱距离，Mel谱。越小越好主观评价方法的执行受人员的很大制约，受到测试者的内在的不可重复性的影响，而且无法直接反映出系统参数的一些影响。为此需要客观标准。一般采用下图进行客观质量评价，其关键点是同步。待测语音系统同步客观评价标准评价结果输出语音输入语音现在学习的是第16页，共30页一些语音编码标准名称名称采采样样率率KHz编码编码速率速率Kb/s编码编码制式制式年代年代MOSDRT备备注注G.711864PCM19724.395G.72681640ADPCM1984884.19432kb/sG.728816LD-CE

11、LP19924.194G.729(A/D/E)88/6.4/11.4CS-ACELP19954.1G.723.185.3ACELP19953.8G.723.186.3MP-MLQ19954.0G.722164864SUB-ADPCM19883.74.1现在学习的是第17页，共30页发声特点时变性，短时不变性发声器官：喉（激励），声道（滤波器），嘴清音与浊音，声母与韵母现在学习的是第18页，共30页发声模型周期脉冲发生器声门脉冲模型G(z)声道模型V(z)辐射模型R(z)随机噪声发生器XX基音频率F0声道参数AvAv语音现在学习的是第19页，共30页语音编码技术的分类有损压缩波形编码：主要基于语

12、音波形预测，目标是使重建语音波形保持不变。语音质量好，简单易实现，但编码速率较高。参数编码：通过语音信号的数学模型提取语音的参数并编码，目标是使重建信号尽可能保持原信号的语意。一般我们称之为声码器。一般用于4.8kb/s以下的低速信道。混合编码：结合波形编码的高质量和参数编码的低码率，被广泛采用。现在学习的是第20页，共30页波形编码PCM：对每个样点独立编码，利用非均匀量化，将每个样点编码为8比特。DPCM：利用相邻两个样点的相关性，对相邻样点的差值进行编码，这样减小了编码数据的动态范围，用较少的比特就可以得到同样的量化误差。M：类似DPCM，但只用一个比特对差值进行编码，因此需要较高的采样

13、率。以上编码方法都属于波形编码，其特点是对采样点逐点处理。现在学习的是第21页，共30页参数编码（一）由于人的发声器官的特点，发声过程可以被抽象为一定的模型。参数编码就是将实际语音信号作为模型输出，去求模型输入与模型参数，并将其作为编码结果。语音存在周期性，为了提取该周期，需要的语音数据长度至少要大于一个周期。一般选10ms的倍数，最低为10ms。现在学习的是第22页，共30页参数编码（二）重要的语音参数：基因频率：语音时域波形周期性信号的频率。男性一般是60-200Hz，女性和儿童是200-450Hz。共振峰：频谱中的凸起点。与声道的谐振频率相对应。短时过零率：单位时间内，语音信号过零点的次

14、数。短时能量：短时自相关函数：现在学习的是第23页，共30页混合编码参数编码得到的解码语音，和原始语音相比，有较多的损伤，原因是模型的参数无法控制语音的所有特性。因此，为了得到较高质量的解码语音，必须引入波形编码的一些技术。事实上，语音的激励信号中的固定码本，就是利用大量实际语音统计得到的。现在学习的是第24页，共30页预测编码(一)由于语音信号存在关联性，可利用前面的一个或多个信号对下一个信号进行预测，得到预测值，然后将实际值和预测值求差，并对差值信号进行编码传送。由于差值信号的动态范围很小，用较少的比特就可以精确的量化，从而压缩数据。线形预测编码(LPC,Linear Predictive

15、 Coding)采样值为f(n)，预测值为f(n)。差值为e(n)=f(n)-f(n).线形预测器f(n)e(n)f(n)现在学习的是第25页，共30页预测编码(二)调制与DPCM调制是PCM的变形，是对实际采样信号与预测信号差值的极性进行编码。若差值大于量化阶，输出为1，否则输出0，每个样点编码为1个比特。当输入信号变化过快，就会出现斜率过载。DPCM，用上一个样点值作为本次样点的预测值，对差值进行编码。现在学习的是第26页，共30页CELP编码采用分帧技术，帧长20-30ms。基于合成分析(A-B-S)的搜索过程，感觉加权矢量量化和线性预测技术。CELP一般将每一帧语音分为2-5个子帧，在

16、每个子帧内搜索最佳的码矢量。现在学习的是第27页，共30页CELP编码模型固定码本自适应码本+线性预测滤波器1/A(z)感觉加权滤波器W(z)+最小感觉加权误差gsga现在学习的是第28页，共30页码本的获得固定码本：经过大量语音的统计获得自适应码本：随着输入语音的变化而变化，编解码两端同步更新。一般当前帧所用的自适应码本，是由前一帧或若干帧构成。这种方式，对丢包很敏感。新的自适应码本生成方式，都是采用本帧的语音信息，生成本帧使用的码本，如ilbc.现在学习的是第29页，共30页作业1利用C语言，完成Huffman编码与解码。要求：1）自由选择编码的输入文件2）提交源程序3）计算所处理的文件中符号的熵率，以及实际的编码效率。检查方法是使用老师这里的一个文本文件作为输入，检查输出与输入是否一致。现在学习的是第30页，共30页

展开阅读全文