《多媒体技术话音编码优秀PPT.ppt》由会员分享,可在线阅读,更多相关《多媒体技术话音编码优秀PPT.ppt(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多媒体技术话音编码第1页,本讲稿共32页主要内容话音的形成原理话音编译码器原理脉冲编码调制(PCM)增量调制与自适应增量调制自适应差分脉冲编码调制(ADPCM)子带编码其他编码2第2页,本讲稿共32页话音的形成原理 肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。话音信号具有很强的相关性(长期相关、短期相关)。3第3页,本讲稿共32页话音的分类浊音(voiced sounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励
2、源被等效为准周期的脉冲信号。清音(unvoiced sounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。4第4页,本讲稿共32页话音产生的数字模型周期脉冲序列周期脉冲序列发生器发生器伪随机噪声产伪随机噪声产生器生器周期周期时变数字滤波时变数字滤波器器音量控制音量控制声道参数声道参数语音语音输出输出浊浊/清选择清选择5第5页,本讲稿共32页话音技术的研究热点话音压缩编码(Speech Codin
3、g)话音识别(Speech Recognition)文本话音转换(Text To Speech)6第6页,本讲稿共32页话音编译码器A/D话音编码信道编码信道信道译码话音译码D/A7第7页,本讲稿共32页衡量话音编码器的参数数据输出速率延迟时间话音质量价格(实现代价)8第8页,本讲稿共32页语音质量等级划分广播质量:带宽为7000Hz的高质量话音长途电话质量:带宽为3400Hz,信噪比为30db,有失真通信质量:完全可以听懂,但和长途电话质量相比有明显的失真。合成质量:8090的可懂度,听起来象机器讲话,失去了讲话者的特征9第9页,本讲稿共32页话音编译码器的分类波形编译码器(waveform
4、 coder):不利用生成话音的信号的任何知识,将话音视为一种普通的声音,直接对波形信号进行采样和量化。例如PCM、DPCM、ADPCM等。音源编译码器(Source coder):也叫参数编译码器、声码器(vocoder)。它从话音波形信号中提取话音生成模型的参数,使用这些参数通过话音生成模型重构出话音。混合编译码器(Hybrid coder):综合使用上述两种技术。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。10第10页,本讲稿共32页三种话音编译码器的对比11第11页,本讲稿共32页语音信号的冗余度幅度非均匀分布样本之间的相关性周期之间的相关性基音之间的相关性静止系数
5、(话音间隙)长期相关性(long term correlation)12第12页,本讲稿共32页脉冲编码调制(PCM)Pulse Code Modulation13第13页,本讲稿共32页PCM的量化方式均匀量化与非均匀量化14第14页,本讲稿共32页非均匀量化对小信号采用小的量化间隔,对大信号采用大的量化间隔,这样可以用较少的位数编码。对大信号来说,虽然绝对量化误差较大,但是因为:(1)大信号出现的机会不多,(2)信噪比(相对误差)与小信号是一致的,所以对总的话音质量影响不大。非均匀量化也是一种压缩。15第15页,本讲稿共32页律压扩与A律压扩m 律(m-Law)压扩(G.711)主要用在北
6、美和日本等地区的数字电话通信中。x为x 为输入信号,规格化为1=x=1m 为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取100=m=500。16第16页,本讲稿共32页律压扩与A律压扩0 0=|x x|=1/A 1/A1/A1/A =|x x|=1 1A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中对于采样频率为8 kHz,样本精度为13位、14位或者16位的输入信号,使用m 律压扩编码或者使用A律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准。17第17页,本讲稿共32
7、页PCM与时分多路复用(TDM)18第18页,本讲稿共32页差分脉冲编码调制(DPCM)关键在于预测器与量化器的设计量化器预测器xkekekxkxk-自适应预测逆量化器自适应量化阶ek产生误差19第19页,本讲稿共32页差分脉冲编码调制(DPCM)逆量化器预测器ekekxkxk译码过程20第20页,本讲稿共32页预测方程式 线性预测:如果ai是常数,则为时不变线性预测,否则为自适应线性预测 最简单的预测方程:第21页,本讲稿共32页最简单的DPCMx0121123344x0012112334e011-101101022第22页,本讲稿共32页增量调制(M)增量调制(delta modulati
8、on,DM)是一种预测编码技术,是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示。DM编码系统又称为“1位系统”。23第23页,本讲稿共32页自适应增量调制(ADM)CVSD(连续可变斜率增量调制):如果编码器的输出连续出现三个相同的值,量化阶就加上一个大的增量;反之,就加一个小的增量。24第24页,本讲稿共32页自适应脉冲编码调制(APCM)APCM是一种根据输入信号幅度大小自动改变量化阶大小的一种波形编码技术。25第25页,本讲稿共32页自适应差分脉冲
9、编码调制自适应差分脉冲编码调制(ADPCM)综合了APCM的自适应特性和DPCM系统的差分特性26第26页,本讲稿共32页自适应差分脉冲编码调制ADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术,CCITT为此制定了G.721推荐标准,这个标准叫做32 kb/s ADPCM。在此基础上还制定了G.721的扩充推荐标准G.723,使用该标准的编码器的数据率可降低到40 kb/s和24 kb/s。G.721 的输入信号是G.711 PCM代码,它的数据率为64 kb/s。而G.721 ADPCM的输出是用4位表示的差分信号,它的采样率仍然是8 kHz,它的数据率为
10、32 kb/s,这样就获得了21的数据压缩。27第27页,本讲稿共32页子带自适应差分脉冲编码调制 28第28页,本讲稿共32页G.722编码标准G.722是CCITT推荐的音频信号编码译码标准。G.722标准的数据率为64 kb/s,采样频率由8 kHz提高到16 kHz,是G.711 PCM采样率的2倍,因而要被编码的信号频率由原来的3.4 kHz扩展到7 kHz。这就使音频信号的质量有很大改善,由数字电话的话音质量提高到调幅(AM)无线电广播的质量。29第29页,本讲稿共32页其它语音编码方法线性预测声码器(LPC10,LPC10e)数据速率为2.4kb/s。多脉冲激励线性预测编码器(MPELPC)数据速率为10kb/s左右。规则脉冲激励线性预测编码器(RPELTP被定位GSM标准,速率为13kb/s)码激励线性预测编码器(CELP),数据速率在4.816kb/s之间30第30页,本讲稿共32页音频编码算法和标准一览31第31页,本讲稿共32页MTIMTIXIDIANXIDIAN结束第32页,本讲稿共32页