《第4章音频媒体的压缩编码优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第4章音频媒体的压缩编码优秀PPT.ppt(90页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第4章音频媒体的压缩编码现在学习的是第1页,共90页本章内容音频信号的相关概念 音频信号的基本概念;数字化方法;压缩编码音频信号的基本概念;数字化方法;压缩编码的可行性与分类;声音类别与数据率的可行性与分类;声音类别与数据率音频信息压缩编码技术标准体系 G.7XX G.7XX系列和系列和MPEG-XMPEG-X系列系列G.7XX声音压缩编码技术 各标准的编码方法;编各标准的编码方法;编/解码器等解码器等MPEG-X声音压缩编码语音识别现在学习的是第2页,共90页话音技术的研究热点话音压缩编码(Speech Coding)话音识别(Speech Recognition)文本话音转换(Text T
2、o Speech)现在学习的是第3页,共90页4.1 音频信号声音的产生源于物体的震动,这种震动引起物体周围气压的变化并传播,最后形成了声音。声音是一种波,由两个参数描述:频率:声音的尖锐程度。频率:声音的尖锐程度。振幅:声音的大小,又称响度。振幅:声音的大小,又称响度。音频信号是指处在音频信号是指处在20Hz20Hz20kHz20kHz频率范围的声音。频率范围的声音。音频频率范围音频频率范围 低频声音低频声音低频声音低频声音(Infra-sound)(Infra-sound):0Hz 0Hz20Hz20Hz 人类听觉频率范围的声音:人类听觉频率范围的声音:人类听觉频率范围的声音:人类听觉频率
3、范围的声音:20Hz 20Hz20kHz20kHz 高频高频高频高频(Ultrasound)(Ultrasound):20kHz 20kHz1GHz1GHz 超声波超声波超声波超声波(Hypersound)(Hypersound):1GHz 1GHz10THz10THz现在学习的是第4页,共90页音频信号声波图示,其中包含两个重要参数:频率和振幅声波图示,其中包含两个重要参数:频率和振幅现在学习的是第5页,共90页音频信号根据音频信号占用频谱的不同,可以将音频信号分为3类:1.1.语音信号:又称话音信号,是人在正常情况下发语音信号:又称话音信号,是人在正常情况下发出的一种声音,频率范围大约为出
4、的一种声音,频率范围大约为300Hz300Hz3.4KHz3.4KHz。2.2.音乐信号:各种乐器发出的声音,频率范围大约为音乐信号:各种乐器发出的声音,频率范围大约为20Hz20Hz20kHz20kHz。3.3.噪音信号:人们不感兴趣的一类声音,通常研究噪音信号:人们不感兴趣的一类声音,通常研究如何去掉它。如何去掉它。现在学习的是第6页,共90页4.1.1 音频信号的数字化音频信号通常是连续信号,要利用计算机来处理,首先需要对其数字化。模拟模拟模拟模拟语音语音语音语音采样采样采样采样量化量化量化量化编码编码编码编码samplessamples-0.25-0.25-0.5-0.5-0.75-0
5、.750 00.250.250.50.50.750.75samplessamples01001110100111数字数字数字数字序列序列序列序列现在学习的是第7页,共90页音频信号的数字化 对声音信号进行采样时,一般使用音频范围的对声音信号进行采样时,一般使用音频范围的ADCADC(模数转换器)进行。不同的(模数转换器)进行。不同的ADCADC主要区别于主要区别于以下两个重要参数:以下两个重要参数:(1 1)采样频率:)采样频率:采样频率是指每秒钟采集声音样本的个数。它的取值采样频率是指每秒钟采集声音样本的个数。它的取值应该满足应该满足Nyquist TheoryNyquist Theory,
6、即采样频率,即采样频率f fs s应该大于等于声应该大于等于声音信号中最高频率音信号中最高频率f fmm的两倍。的两倍。采样频率的单位是:采样频率的单位是:HzHz或或samples/ssamples/s。如:数字电话的采样率为如:数字电话的采样率为8KHz8KHz。(2 2)采样精度:)采样精度:采样精度用样本位数来表示。采样精度用样本位数来表示。样本位数越多,则声音质量越高,因为每个样本的量样本位数越多,则声音质量越高,因为每个样本的量化值与原样本值越接近。化值与原样本值越接近。采样精度的单位是:采样精度的单位是:bits/samplebits/sample。现在学习的是第8页,共90页
7、采样频率越高,采样精度越大,则数字化声音效果越采样频率越高,采样精度越大,则数字化声音效果越好,但是需要的存储量就越大。因此在实际应用中,需好,但是需要的存储量就越大。因此在实际应用中,需要折中考虑声音质量和存储量的问题。要折中考虑声音质量和存储量的问题。0 0-0.25-0.25-0.5-0.5-0.75-0.750.250.250.50.50.750.75samplessamplesSampling HeightSampling Height-1-1另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(SNRSNR)
8、,表示为:),表示为:),表示为:),表示为:其中,其中,其中,其中,V Vsignalsignal表示信号电压,表示信号电压,表示信号电压,表示信号电压,V Vnoisenoise表示噪声电压,表示噪声电压,表示噪声电压,表示噪声电压,SNRSNR的的的的单位为分贝(单位为分贝(单位为分贝(单位为分贝(dBdB)。信噪比越高,声音质量越好。)。信噪比越高,声音质量越好。)。信噪比越高,声音质量越好。)。信噪比越高,声音质量越好。现在学习的是第9页,共90页声音硬件:MicrophoneMicrophoneADCADCStored/Stored/TransmittedTransmittedDA
9、CDACSoundAnalog SignalSpeakerSpeakerAnalog SignalDigital SignalReproduced Sound Input DevicesDigital ProcessorOutput Devices现在学习的是第10页,共90页4.1.2 音频信号压缩编码的可行性与分类对于高质量和长时间的音频数据,由于数据量都特别大,为了有效地存储和传输,需要进行压缩编码。压缩的可能性存在于:(1 1)声音信号中包含大量的冗余信息,如样本相关性、)声音信号中包含大量的冗余信息,如样本相关性、时间周期相关性、基音相关性等。时间周期相关性、基音相关性等。(2 2)
10、利用人的感知特性进行压缩。)利用人的感知特性进行压缩。(3 3)根据话音产生机理进行压缩。)根据话音产生机理进行压缩。衡量语音编码性能的主要因素有:编码质量;编码质量;编码速率;编码速率;算法复杂度。算法复杂度。现在学习的是第11页,共90页音频信号压缩技术音频信号压缩技术 音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点:1.人的听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号人耳听不到.2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时,强声使弱声难以听到,并且两者之间的关系与其相对频率的大小有关.声音编码算法就是通过这些特性来去掉更多的冗余数据,来达到压缩数据的目的。现
11、在学习的是第12页,共90页无失真压缩音频压缩方法有失真压缩Huffman编码行程编码波形编码参数编码混合编码全频带编码PCMDPCMADPCM子带编码 自适应变换编码ATC 心理学模型矢量量化线性预测LPC矢量和激励线性预测VSELP多脉冲线性预测MP-LPC码本激励线性预测CELP音频信号压缩编码的分类现在学习的是第13页,共90页 根据压缩编码思想的不同,把音频编码技术分为三类:根据压缩编码思想的不同,把音频编码技术分为三类:(1 1)波形编码()波形编码(Waveform CodingWaveform Coding)(2 2)源编码()源编码(Source CodingSource C
12、oding),参数编码参数编码(3 3)混合编码()混合编码(Hybrid CodingHybrid Coding)波形编码:没有利用语音信号自身的特点。波形编译码的想法是,没有利用语音信号自身的特点。波形编译码的想法是,不利用生成话音信号的任何知识而企图产生一种重构信号,不利用生成话音信号的任何知识而企图产生一种重构信号,它的波形与原始话音波形尽可能地一致。一般来说,这种编它的波形与原始话音波形尽可能地一致。一般来说,这种编译码器的复杂程度比较低,数据速率在译码器的复杂程度比较低,数据速率在16 kb/s16 kb/s以上,质量以上,质量相当高。低于这个数据速率时,音质急剧下降。如:相当高。
13、低于这个数据速率时,音质急剧下降。如:1.CD1.CD质量音频数据量:质量音频数据量:2x44100 x16 b/s2x44100 x16 b/s2.2.电话质量音频数据量:电话质量音频数据量:8Kx8 b/s PCM(DPCM 8Kx8 b/s PCM(DPCM 56Kb/s;ADPCM 32Kb/s).56Kb/s;ADPCM 32Kb/s).现在学习的是第14页,共90页源编码(参数编码):参数化,利用语音信号的特点进行数据压缩。音源编译码的想法是企图从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。例如:信道声码器的工作原理:将语音信号基于语音分析原理分解成一
14、系列频率分量,将这些分量在信道中传输。接收方基于收到的数据进行语音重建:将收到的数据中的频率分量作为语音的基频,产生一系列脉冲作为浊音,用噪声发生器的输出作为清音。此方法可以将语音的传输速率降低至2.4Kb/s,甚至更低。现在学习的是第15页,共90页l混合编码:混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于它们之间。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。下图表示了目前这三种编译码器的话音质量和数据率的关系。图 普通编译码器的音质与数据率 现在学习的是第16页,共90页4.1.3 声音类别与数据率声音根据频带分为5类:(1)电话(Telephone)
15、声音(2)调幅(Amplitude Modulation)广播声音(3)调频(Frequency Modulation)广播声音(4)数字音频光盘(CD-Audio)声音(5)数字录音带(Digital Audio Tape)声音这些不同的声音数据区别于采样频率、采样精度、通道数、数据率和频率范围等参数。现在学习的是第17页,共90页声音类别与数据率声音类别声音类别采样率采样率(kHz)(kHz)精度精度(bit/s)(bit/s)单声道单声道/立体声立体声数据速率数据速率(未经压缩)(未经压缩)频率范围频率范围(HzHz)PhonePhone8 88 8singlesingle8kBps8k
16、Bps200-3400Hz200-3400HzAMAM11.02511.0258 8singlesingle11.0kBps11.0kBps50-7000Hz50-7000HzFMFM22.05022.0501616stereostereo88.2kBps88.2kBps20-15000Hz20-15000HzCDCD44.144.11616stereostereo176.4kBps176.4kBps20-20000Hz20-20000HzDATDAT48481616stereostereo192.0kBps192.0kBps20-20000Hz20-20000Hz宽带音响宽带音响宽带音响宽带
17、音响:20Hz:20Hz20kHz20kHz现在学习的是第18页,共90页声音类别与数据率我们所熟悉的数字音频文件格式如下表所示:我们所熟悉的数字音频文件格式如下表所示:文件扩展名文件扩展名说明说明.PCM.PCMPCM PCM 数据序列数据序列.VOC.VOC声卡使用的音频文件格式声卡使用的音频文件格式.WAV.WAV微软使用的波形音频文件格式微软使用的波形音频文件格式.SND.SNDNeXTNeXT计算机使用的波形音频文件格式计算机使用的波形音频文件格式.AIF.AIF苹果计算机使用的波形音频文件格式苹果计算机使用的波形音频文件格式.MID.MIDMIDI MIDI 文件格式文件格式.RM
18、I.RMI微软使用的微软使用的MIDI MIDI 文件格式文件格式未压缩的声音文件的存储量可用下式计算:未压缩的声音文件的存储量可用下式计算:存储量(存储量(B B)=(采样频率(采样频率HZHZ采样位数采样位数bitbit声道数声道数时间秒)时间秒)/8/8 现在学习的是第19页,共90页4.1.4 声音质量的度量声音质量的度量分为:客观质量度量和主观质量度量。声音客观质量的度量用信噪比信噪比来展开:信噪比(信噪比(SNRSNR)越大,声音质量越好;反之,信噪比越小,)越大,声音质量越好;反之,信噪比越小,声音质量越差声音质量越差声音主观质量的度量是利用人的感觉(听觉)来进行度量,主观平均判
19、分法(MOS),通常分5分:1 1分分:劣劣(极反感极反感);2);2分分:差差(讨厌但不反感讨厌但不反感);3);3分分:中中(有点讨有点讨厌厌);4);4分分:良良(基本可以接受基本可以接受);5);5分分:优优(效果很好效果很好)现在学习的是第20页,共90页声音质量的度量Kbit/s1248163264poorsufficientsatisfactorygoodexcellentAchievable Quality year 1980year 1990year 2000 部分编码器的部分编码器的MOS分分 编码器MOS分64 kb/s脉冲编码调制(PCM)4.332 kb/s自适应差分
20、脉冲编码调制(ADPCM)4.116 kb/s低时延码激励线性预测编码(LD-CELP)4.08 kb/s码激励线性预测编码(CELP)3.73.8 kb/s码激励线性预测编码(CELP)3.02.4 kb/s线性预测编码(LPC)2.5现在学习的是第21页,共90页4.2音频信息压缩编码技术标准体系常见的音频压缩编码准则有ITU制定的G.7XX系列和ISO/IEC制定的MPEG-X系列。G.7XX是一组 ITU-T 标准,用于音频压缩和解压缩。它主要用于电话方面。在电话技术中,有两个主要的算法标准,分别定义在-law 算法(美国使用)和 A-law 算法(欧洲及世界其他国家使用)中。两者都是
21、基于对数关系的,但对于计算机的处理来说,后者更为简单。MPEG-X是一组用于视频的编码方案,其中也有音频的编码部分,可以用于音频压缩编码。现在学习的是第22页,共90页1 1电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准信号频率规定在信号频率规定在300Hz300Hz3.4kHz3.4kHz,采用标准的脉冲编码调制,采用标准的脉冲编码调制(PCM)(PCM),当采样频率为,当采样频率为8kHz8kHz,进行,进行8bit8bit量化时,所得数据速率量化时,所得数据速率为为64kb/s64kb/s,即一个数字电话。,即一个
22、数字电话。PCMPCM标准标准G G.711,1972711,1972年年CCITTCCITT为电话质量和语音压缩制为电话质量和语音压缩制定,其速率为定,其速率为64Kb64Kbs s,使用非线性量化技术,主要用于公,使用非线性量化技术,主要用于公共电话网中。共电话网中。ADPCMADPCM是利用样本与样本之间的高度相关性和量化阶自是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术,适应来压缩数据的一种波形编码技术,CCITTCCITT为此制定为此制定了了G.721G.721推荐标准,这个标准叫做推荐标准,这个标准叫做32 kb/s ADPCM32 kb/s ADPCM
23、。在此基础。在此基础上还制定了上还制定了G.721G.721的扩充推荐标准的扩充推荐标准G.723G.723,使用该标准的编,使用该标准的编码器的数据率可降低到码器的数据率可降低到40 kb/s40 kb/s和和24 kb/s24 kb/s。G.721 G.721 的输入信号是的输入信号是G.711 PCMG.711 PCM代码,它的数据率为代码,它的数据率为64 kb/s64 kb/s。而而G.721 ADPCMG.721 ADPCM的输出是用的输出是用4 4位表示的差分信号,它的采样率位表示的差分信号,它的采样率仍然是仍然是8 kHz8 kHz,它的数据率为,它的数据率为32 kb/s32
24、 kb/s,这样就获得了,这样就获得了2 2 1 1的数的数据压缩。据压缩。现在学习的是第23页,共90页2 2 2 2调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准 频率在频率在频率在频率在50Hz50Hz50Hz50Hz一一一一7kHz7kHz7kHz7kHz范围。范围。范围。范围。G.722G.722G.722G.722标标标标准是采用准是采用准是采用准是采用16kHz16kHz16kHz16kHz采采采采样样样样,14bit14bit14bit14bit量化,信号数据速率量化,信号数据速率量化,信
25、号数据速率量化,信号数据速率为为为为224kbit224kbit224kbit224kbits s s s,224kbit 224kbit 224kbit 224kbits s s s可以被可以被可以被可以被压缩压缩压缩压缩成成成成64kbit64kbit64kbit64kbits.s.s.s.采用子采用子采用子采用子带编码带编码带编码带编码方法,将方法,将方法,将方法,将输输输输入音入音入音入音频频频频信号信号信号信号经滤经滤经滤经滤波器分成高子波器分成高子波器分成高子波器分成高子带带带带和低子和低子和低子和低子带带带带两个部两个部两个部两个部分,分分,分分,分分,分别进别进别进别进行行行行
26、ADPCMADPCMADPCMADPCM编码编码编码编码,再混合形成,再混合形成,再混合形成,再混合形成输输输输出出出出码码码码流,流,流,流,224kbit224kbit224kbit224kbits s s s可以被可以被可以被可以被压缩压缩压缩压缩成成成成64kbit64kbit64kbit64kbits s s s,最后,最后,最后,最后进进进进行数据插入行数据插入行数据插入行数据插入(最高插入速率达最高插入速率达最高插入速率达最高插入速率达16kbit16kbit16kbit16kbits)s)s)s),因此利用,因此利用,因此利用,因此利用G.722G.722G.722G.722标
27、标标标准可以在窄准可以在窄准可以在窄准可以在窄带综带综带综带综合服合服合服合服务务务务数据网数据网数据网数据网N-ISDNN-ISDNN-ISDNN-ISDN中的一个中的一个中的一个中的一个B B B B信道上信道上信道上信道上传传传传送送送送调调调调幅广幅广幅广幅广播播播播质质质质量的音量的音量的音量的音频频频频信号信号信号信号)。现在学习的是第24页,共90页3 3高保真度立体声音频压缩编码技术标准高保真度立体声音频压缩编码技术标准 高高高高保保保保真真真真立立立立体体体体声声声声音音音音频频频频信信信信号号号号频频频频率率率率范范范范围围围围是是是是50Hz50Hz50Hz50Hz20k
28、Hz20kHz20kHz20kHz,采采采采用用用用444444441kHz1kHz1kHz1kHz采采采采样样样样频率,频率,频率,频率,16bit16bit16bit16bit量化进行数字化转换,其数据速率每声道达量化进行数字化转换,其数据速率每声道达量化进行数字化转换,其数据速率每声道达量化进行数字化转换,其数据速率每声道达705kbit705kbit705kbit705kbits s s s。采样频率为采样频率为采样频率为采样频率为48kHz48kHz48kHz48kHz,44.1kHz44.1kHz44.1kHz44.1kHz,32kHz32kHz32kHz32kHz MPEGMPE
29、GMPEGMPEG音频压缩技术的数据速率为每声道音频压缩技术的数据速率为每声道音频压缩技术的数据速率为每声道音频压缩技术的数据速率为每声道32323232448kbit448kbit448kbit448kbits s s s,适合于,适合于,适合于,适合于CDCDCDCDDADADADA光盘应用。光盘应用。光盘应用。光盘应用。目前国际上比较成熟的高保真立体声音频压缩标准为MPEG音频。MPEG-1和MPEG-2的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码(perceptual audio c
30、oding)。现在学习的是第25页,共90页4.2.1 G.7XX系列音频信号压缩编码标准G.711 64 kbps 信道上的语音频率脉冲编码调制(PCM)G.721 32 kbit/s 自适应差分脉冲编码调制(ADPCM)G.722 64 kbit/s 下的 7 kHz 音频编码 G.722.1 G.722.1 带有低帧损耗的具有免提操作的系统在带有低帧损耗的具有免提操作的系统在 24 24 kbit/s kbit/s 和和 32 kbit/s 32 kbit/s 上的编码上的编码 G.722.2 G.722.2 利用自适应多频率宽带(利用自适应多频率宽带(AMR-WBAMR-WB)以)以
31、16 16 kbit/s kbit/s 多频率语音编码多频率语音编码现在学习的是第26页,共90页G.723:G.723是一种以是一种以24Kbps运行的基于运行的基于 ADPCM 的有损耗压缩标准。其音质不如非压的有损耗压缩标准。其音质不如非压缩的缩的 G.711PCM 标准以及基于标准以及基于 SBSBADPCM ADPCM 的的 G.722标准。标准。G.723.1和和G.723.2用于用于H.324标准。标准。G.726 40、32、24、16 kbit/s 自适应差分脉冲编码调制 ADPCM G.727 5-、4-、3-和 2-bit/s 嵌入式自适应差分脉冲编码调制 ADPCMG.
32、728 利用低延迟代码线性预测以 16 bit/s 进行语音编码G.729 利用共扼结构代数激励编码线性预测(CS-ACELP)以 8 bit/s 进行语音编码现在学习的是第27页,共90页4.2.2 MPEG-X系列音频信号压缩标准MPEG-1制定于1992年,为工业级标准而设计。它处理音频时,具有CD(指激光唱盘)音质,质量级别基本与VHS相当。MPEG-1是针对整个音频范围的声音进行编码,采样频率为48kHz、采样精度为16位的立体声数据压缩到256b/s时,即在6:1的压缩率下,即使是专业测试员,也难以分辨出是解压声音还是原始声音。现在学习的是第28页,共90页4.2.2 MPEG-X
33、系列音频信号压缩标准MPEG-2制定于1994年,设计目标是高级工业标准的图象质量以及更高的传输率。MPEG-2可提供CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道(DVD可有8种语言配音的原因)。由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也可播放MPEG-1格式的数据,如VCD。现在学习的是第29页,共90页4.2.2 MPEG-X系列音频信号压缩标准两种声音数据压缩格式(1 1)MPEG-2 AudioMPEG-2 Audio,或者称为,或者称为MPEG-2MPEG-2多声道多声道(MultichannelMu
34、ltichannel)声音,又称为)声音,又称为MPEG-2 MPEG-2 BCBC(Backward CompatibleBackward Compatible,后向兼容),与,后向兼容),与MPEG-MPEG-1 Audio1 Audio是兼容的是兼容的。(2 2)MPEG-2 AACMPEG-2 AAC(Advanced Audio CodingAdvanced Audio Coding,先进,先进的音频编码),通常称为非后向兼容的音频编码),通常称为非后向兼容MPEG-2 MPEG-2 NBC(Non-Backward-CompatibleNBC(Non-Backward-Compat
35、ible,非后向兼容,非后向兼容)标标准,与准,与MPEG-1MPEG-1声音格式不兼容。声音格式不兼容。现在学习的是第30页,共90页MPEG-4音频编码 19961996年年1111月月在在MaceioMaceio举举行行的的MPEGMPEG第第3737次次会会议议正正式式确确定定的的MPEG-2MPEG-2先先进进音音频频编编码码AACAAC(Advanced Advanced Audio Audio CodingCoding),已已被被作作为为目目前前正正在在制制定定的的MPEG-4MPEG-4音频标准的一部分。音频标准的一部分。19961996年年3 3月月在在意意大大利利Flore
36、nceFlorence举举行行的的MPEGMPEG第第3434次次会会议议上上给给出出了了MPEG-4MPEG-4音音频频验验证证模模型型VMVM的的第第一一个个完完整整描描述述。通通过过大大量量的的核核心心实实验验(Core Core ExperimentExperiment),音音频频验验证证模型得到了迅速的发展。模型得到了迅速的发展。19961996年年1111月月就就公公布布了了第第一一个个MPEG-4MPEG-4的的音音频频工工作作草草案案。在在MPEGMPEG第第4040次次会会议议 上上,结结 构构 音音 频频SASA(Structured Structured AudioAud
37、io)和和 文文 语语 转转 换换TTSTTS(Text Text to to SpeechSpeech)被加到)被加到MPEG-4MPEG-4音频标准中,作为合成的音频编码部分。音频标准中,作为合成的音频编码部分。19971997年年1111月月在在FribourgFribourg举举行行的的MPEGMPEG第第4141次次会会议议公公布布了了音音频频标标准准的的最最终终标标准准草案(草案(Final Draft International StandardFinal Draft International Standard),内容与正式标准基本相同。),内容与正式标准基本相同。1999 1
38、999年年1 1月公布正式标准版本月公布正式标准版本1 1 2000 2000年年1 1月公布标准的版本月公布标准的版本2 24.2.2 MPEG-X系列音频信号压缩标准现在学习的是第31页,共90页4.2.2 MPEG-X系列音频信号压缩标准MPEG-4音频标准(ISO/IEC 14496-3)分为自然音频编码和合成音频编码两大类。MPEG-4(ISO/IEC 14496)已建立了两个版本,正在开发第3版。MPEG-4音频部分促进广泛的应用,这些应用可能包括从智能语音到高质量多声道音频,从自然声音到合成声音。特别是,它支持由下述成分组成的音频对象的高效表示:语音信号:语音信号:合成语音:它允
39、许一个文本或带有韵律参数的文本合成语音:它允许一个文本或带有韵律参数的文本(基音轮廓,音素持续期等等)作为输入产生可理解的(基音轮廓,音素持续期等等)作为输入产生可理解的合成语音。合成语音。现在学习的是第32页,共90页4.3 G.7XX声音压缩编码G.711声音压缩编码G.722声音压缩编码G.723声音压缩编码G.729声音压缩编码各自的编码方法各自的编码方法编编/解码器结构及工作原理解码器结构及工作原理现在学习的是第33页,共90页4.3.1 G.722声音压缩编码G.722基于子带 ADPCM技术(SBADPCM),它是将现有的带宽分成两个独立的子带信道分别采用差分脉冲编码调制算法。G
40、.722压缩信号的带宽范围为50Hz到7kHz,而G.711仅限于4.4kHz。其比特率为48、56、64Kbps,在标准模式下,采样速率是16KHz,幅度深度为14比特。现在学习的是第34页,共90页1、G.722的编码方法采用子带自适应差分脉冲编码调制技术(SB-ADPCM)。以上技术的操作方法是:用正交镜像滤波器(用正交镜像滤波器(QMFQMF)把频带分割成两个等带宽)把频带分割成两个等带宽的子带,分别是高频带和低频带。的子带,分别是高频带和低频带。对两个子带中的信号采用对两个子带中的信号采用ADPCMADPCM进行编码。进行编码。其基本思想是将信号分解为若干子频带内的分量其基本思想是将
41、信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。取不同的压缩策略以降低码率。现在学习的是第35页,共90页2、G.722的编/解码器G.722音频编/解码器结构如下图所示:a.编码器编码器高子带高子带ADPCM编码编码音频音频信号信号输入输入声音声音数据数据传送传送部件部件发送正发送正交镜像交镜像滤波器滤波器低子带低子带ADPCM编码编码多多路路复复合合器器IH16Kbit/sIL16Kbit/sXinXHXL附加数据附加数据0Kbit/s,8Kbit/s,16Kbit/s数据输入数据输入部件部件高
42、子带高子带ADPCM解码解码音频音频信号信号输出输出声音声音数据数据传送传送部件部件发送正发送正交镜像交镜像滤波器滤波器低子带低子带ADPCM解码解码多多路路复复合合器器IH16Kbit/sIL16Kbit/sYoutYHYL附加数据附加数据0Kbit/s,8Kbit/s,16Kbit/s数据输出数据输出部件部件b.解码器解码器现在学习的是第36页,共90页4.3.2 G.723声音压缩编码G.723是ITU-T在1996年制订成型的一种多媒体语音编解码标准。其典型应用包括IP电话服务、H.324视频电话、无线电话、数字卫星系统、数电倍增设备(DCME)、公共交换电话网(PSTN)、ISDN及
43、各种多媒体语音信息产品。G.723标准传输码率有5.3kb/s和6.3kb/s两种,在编程过程中可随时切换,两种速率的区别在于采用的激励技术不同。该标准主要包含了编码算法和解码算法。现在学习的是第37页,共90页G.723声音压缩编码5.3kb/s的编码器采用代数码线预测激励(ACELP);6.3kb/s的编码器则采用多脉冲最大似然量化(MP-MLQ)激励。编码原理:从采集的语音信号中解析出声道模型参数,构造一个合成滤波器,采用合适的激励源激励,编码传输的参数主要是激励源与合成滤波器的参数。接收端根据传输编码参数,重构出激励源与合成滤波器进行解码,还原出来的数字语音信号经D/A转换器转换成模拟
44、语音信号。G.723是基于分析合成的声音压缩编码标准。现在学习的是第38页,共90页参数编码此编码方法又称音源编码,其原理参见下图。此编码方法又称音源编码,其原理参见下图。预加重预加重加窗加窗自相关函数自相关函数清清/浊音判浊音判断断基音提取基音提取线性预测编码线性预测编码MUX及及量量化化编编码码语音样本语音样本编码编码ai下面,首先介绍G.723中的参数编码方法,再由于参数编码方法中语音生成模型里使用的激励信号过于简单而造成话音质量不高的缺点,再介绍一种将波形编码与音源编码混合的编码方法。现在学习的是第39页,共90页参数编码原理:参数编码原理:通过分析声音的产生机理,建立数学模型。编码时
45、从声音波形信号中通过分析声音的产生机理,建立数学模型。编码时从声音波形信号中提取生成声音的参数;解码时使用这些参数通过声音生成模型,重构出提取生成声音的参数;解码时使用这些参数通过声音生成模型,重构出声音。声音。话音生成模型把声音的产生过程看成是由声带振动脉冲激励声道滤波器的话音生成模型把声音的产生过程看成是由声带振动脉冲激励声道滤波器的结果。结果。话音参数包括:清浊音比例、浊音周期、增益系数、滤波器参数等。话音参数包括:清浊音比例、浊音周期、增益系数、滤波器参数等。根据接收到的话音参数,基于下图中的生成过程进行话音重构:根据接收到的话音参数,基于下图中的生成过程进行话音重构:脉冲序列发生器脉
46、冲序列发生器随机噪声发生器随机噪声发生器声道滤波器声道滤波器基音周期基音周期T滤波器参数滤波器参数音源幅度音源幅度音源幅度音源幅度语音输出语音输出浊音浊音清音清音ai现在学习的是第40页,共90页4.3.3 GSM编译码器简介编译码器简介 除了除了ADPCMADPCM算法已经得到普遍应用之外,还有一种使用较普遍的波形声算法已经得到普遍应用之外,还有一种使用较普遍的波形声音压缩算法叫做音压缩算法叫做GSMGSM算法。算法。GSMGSM是是G Global lobal S System for ystem for MMobile obile communicationscommunications
47、的缩写,可译成全球数字移动通信系统。的缩写,可译成全球数字移动通信系统。GSMGSM算法是算法是19921992年柏林技术大学根据年柏林技术大学根据GSMGSM协议开发的,这个协议是欧协议开发的,这个协议是欧洲最流行的数字蜂窝电话通信协议。洲最流行的数字蜂窝电话通信协议。GSMGSM的输入是帧的输入是帧(frame)(frame)数据,一帧数据,一帧(20(20毫秒毫秒)由采样频率为由采样频率为8 kHz8 kHz的带符的带符号的号的160160个样本组成,每个样本为个样本组成,每个样本为1313位或者位或者1616位的线性位的线性PCM(linear PCM)PCM(linear PCM)码
48、。码。GSMGSM编码器可把一帧编码器可把一帧(16016(16016位位)的数据压缩成的数据压缩成260260位的位的GSMGSM帧,压缩后的数帧,压缩后的数据率为据率为16251625字节,相当于字节,相当于13 kb/s13 kb/s。由于。由于260260位不是位不是8 8位的整数倍,因此编码位的整数倍,因此编码器输出的器输出的GSMGSM帧为帧为264264位的线性位的线性PCMPCM码。采样频率为码。采样频率为8 kHz8 kHz、每个样本为、每个样本为1616位位的未压缩的话音数据率为的未压缩的话音数据率为128 kb/s128 kb/s,使用,使用GSMGSM压缩后的数据率为:
49、压缩后的数据率为:(264(264位位80008000样本样本/秒秒)/160)/160样本样本=13.2=13.2 千位千位/秒秒GSMGSM的压缩比:的压缩比:128:13.2=9.7128:13.2=9.7,近似于,近似于10:110:1。现在学习的是第41页,共90页4.4 MPEG-X声音压缩编码由于有必要确定一套通用的视频和音频声音编码方案,由于有必要确定一套通用的视频和音频声音编码方案,ISO/IECISO/IEC标准组织成立了标准组织成立了ISO/IES JTC1/SC29/WG11ISO/IES JTC1/SC29/WG11,即,即MPEGMPEG(活动图像专家组)。该小组负
50、责比较和评估几(活动图像专家组)。该小组负责比较和评估几种低码速率数字声音编码技术,以产生一套国际标准,种低码速率数字声音编码技术,以产生一套国际标准,用于活动图像、相关声音信息及其结合,和用数字存储用于活动图像、相关声音信息及其结合,和用数字存储媒体(媒体(DSMDSM)存储与重现。)存储与重现。MPEGMPEG针对的针对的DSMDSM包括包括CD-CD-ROMROM、DATDAT、磁光碟和电脑磁盘。、磁光碟和电脑磁盘。MPEG AudioMPEG Audio标准是指标准是指标准是指标准是指MPEG-1 AudioMPEG-1 Audio、MPEG-2 MPEG-2 AudioAudio和和