多媒体技术话音编码.ppt

上传人:石*** 文档编号:38768535 上传时间:2022-09-05 格式:PPT 页数:32 大小:2.92MB
返回 下载 相关 举报
多媒体技术话音编码.ppt_第1页
第1页 / 共32页
多媒体技术话音编码.ppt_第2页
第2页 / 共32页
点击查看更多>>
资源描述

《多媒体技术话音编码.ppt》由会员分享,可在线阅读,更多相关《多媒体技术话音编码.ppt(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、多媒体技术话音编码现在学习的是第1页,共32页主要内容 话音的形成原理 话音编译码器原理 脉冲编码调制(PCM)增量调制与自适应增量调制 自适应差分脉冲编码调制(ADPCM)子带编码 其他编码2现在学习的是第2页,共32页话音的形成原理 肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。话音信号具有很强的相关性(长期相关、短期相关)。3现在学习的是第3页,共32页话音的分类 浊音(voiced sounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,

2、变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。清音(unvoiced sounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。4现在学习的是第4页,共32页话音产生的数字模型周期脉冲序列周期脉冲序列发生器发生器伪随机噪声产伪随机噪声产生器生器周期周期时变数字滤波时变数字滤波器器音量控制音量控制声道参数声道参数语音语音输出输出浊浊/清选择清选择5现在学习的是第5页,共32页话音技术的研究

3、热点 话音压缩编码(Speech Coding)话音识别(Speech Recognition)文本话音转换(Text To Speech)6现在学习的是第6页,共32页话音编译码器A/D话音编码信道编码信道信道译码话音译码D/A7现在学习的是第7页,共32页衡量话音编码器的参数 数据输出速率 延迟时间 话音质量 价格(实现代价)8现在学习的是第8页,共32页语音质量等级划分 广播质量:带宽为7000Hz的高质量话音 长途电话质量:带宽为3400Hz,信噪比为30db,有失真 通信质量:完全可以听懂,但和长途电话质量相比有明显的失真。合成质量:8090的可懂度,听起来象机器讲话,失去了讲话者的

4、特征9现在学习的是第9页,共32页话音编译码器的分类 波形编译码器(waveform coder):不利用生成话音的信号的任何知识,将话音视为一种普通的声音,直接对波形信号进行采样和量化。例如PCM、DPCM、ADPCM等。音源编译码器(Source coder):也叫参数编译码器、声码器(vocoder)。它从话音波形信号中提取话音生成模型的参数,使用这些参数通过话音生成模型重构出话音。混合编译码器(Hybrid coder):综合使用上述两种技术。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。10现在学习的是第10页,共32页三种话音编译码器的对比11现在学习的是第11页

5、,共32页语音信号的冗余度 幅度非均匀分布 样本之间的相关性 周期之间的相关性 基音之间的相关性 静止系数(话音间隙)长期相关性(long term correlation)12现在学习的是第12页,共32页脉冲编码调制(PCM)Pulse Code Modulation13现在学习的是第13页,共32页PCM的量化方式均匀量化与非均匀量化14现在学习的是第14页,共32页非均匀量化 对小信号采用小的量化间隔,对大信号采用大的量化间隔,这样可以用较少的位数编码。对大信号来说,虽然绝对量化误差较大,但是因为:(1)大信号出现的机会不多,(2)信噪比(相对误差)与小信号是一致的,所以对总的话音质量

6、影响不大。非均匀量化也是一种压缩。15现在学习的是第15页,共32页律压扩与A律压扩 m 律(m-Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中。x为x 为输入信号,规格化为1=x=1m 为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取100=m=500。16现在学习的是第16页,共32页律压扩与A律压扩0 0=|x x|=1/A 1/A1/A1/A =|x x|=1 1A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中对于采样频率为8 kHz,样本精度为13位、14位或者16位的输入信号,使用m 律压扩编码或者使用A律压扩编码,经

7、过PCM编码器之后每个样本的精度为8位,输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准。17现在学习的是第17页,共32页PCM与时分多路复用(TDM)18现在学习的是第18页,共32页差分脉冲编码调制(DPCM)关键在于预测器与量化器的设计量化器预测器xkekekxkxk-自适应预测逆量化器自适应量化阶ek产生误差19现在学习的是第19页,共32页差分脉冲编码调制(DPCM)逆量化器预测器ekekxkxk译码过程20现在学习的是第20页,共32页预测方程式 线性预测:如果ai是常数,则为时不变线性预测,否则为自适应线性预测 最简单的预测方程:=11)(kiiikxk

8、ax),.,(1321kxxxxfxkk=1=kkxx现在学习的是第21页,共32页最简单的DPCMx0121123344x0012112334e011-101101022现在学习的是第22页,共32页增量调制(M)增量调制(delta modulation,DM)是一种预测编码技术,是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示。DM编码系统又称为“1位系统”。23现在学习的是第23页,共32页自适应增量调制(ADM)CVSD(连续可变斜率增量调制):

9、如果编码器的输出连续出现三个相同的值,量化阶就加上一个大的增量;反之,就加一个小的增量。24现在学习的是第24页,共32页自适应脉冲编码调制(APCM)APCM是一种根据输入信号幅度大小自动改变量化阶大小的一种波形编码技术。25现在学习的是第25页,共32页自适应差分脉冲编码调制 自适应差分脉冲编码调制(ADPCM)综合了APCM的自适应特性和DPCM系统的差分特性26现在学习的是第26页,共32页自适应差分脉冲编码调制 ADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术,CCITT为此制定了G.721推荐标准,这个标准叫做32 kb/s ADPCM。在此基础

10、上还制定了G.721的扩充推荐标准G.723,使用该标准的编码器的数据率可降低到40 kb/s和24 kb/s。G.721 的输入信号是G.711 PCM代码,它的数据率为64 kb/s。而G.721 ADPCM的输出是用4位表示的差分信号,它的采样率仍然是8 kHz,它的数据率为32 kb/s,这样就获得了2 1的数据压缩。27现在学习的是第27页,共32页子带自适应差分脉冲编码调制 28现在学习的是第28页,共32页G.722编码标准 G.722是CCITT推荐的音频信号编码译码标准。G.722标准的数据率为64 kb/s,采样频率由8 kHz提高到16 kHz,是G.711 PCM采样率

11、的2倍,因而要被编码的信号频率由原来的3.4 kHz扩展到7 kHz。这就使音频信号的质量有很大改善,由数字电话的话音质量提高到调幅(AM)无线电广播的质量。29现在学习的是第29页,共32页其它语音编码方法 线性预测声码器(LPC10,LPC10e)数据速率为2.4kb/s。多脉冲激励线性预测编码器(MPELPC)数据速率为10kb/s左右。规则脉冲激励线性预测编码器(RPELTP被定位GSM标准,速率为13kb/s)码激励线性预测编码器(CELP),数据速率在4.816kb/s之间30现在学习的是第30页,共32页音频编码算法和标准一览31现在学习的是第31页,共32页MTIMTIXIDIAN结束现在学习的是第32页,共32页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁