《第4章音频媒体的压缩编码PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第4章音频媒体的压缩编码PPT讲稿.ppt(90页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第4章音频媒体的压缩编码第1页,共90页,编辑于2022年,星期一本章内容音频信号的相关概念 音频信号的基本概念;数字化方法;压缩编码的可行音频信号的基本概念;数字化方法;压缩编码的可行性与分类;声音类别与数据率性与分类;声音类别与数据率音频信息压缩编码技术标准体系 G.7XX G.7XX系列和系列和MPEG-XMPEG-X系列系列G.7XX声音压缩编码技术 各标准的编码方法;编各标准的编码方法;编/解码器等解码器等MPEG-X声音压缩编码语音识别第2页,共90页,编辑于2022年,星期一话音技术的研究热点话音压缩编码(Speech Coding)话音识别(Speech Recognition
2、)文本话音转换(Text To Speech)第3页,共90页,编辑于2022年,星期一4.1 音频信号声音的产生源于物体的震动,这种震动引起物体周围气压的变化并传播,最后形成了声音。声音是一种波,由两个参数描述:频率:声音的尖锐程度。频率:声音的尖锐程度。振幅:声音的大小,又称响度。振幅:声音的大小,又称响度。音频信号是指处在音频信号是指处在20Hz20Hz20kHz20kHz频率范围的声音。频率范围的声音。音频频率范围音频频率范围 低频声音低频声音低频声音低频声音(Infra-sound)(Infra-sound):0Hz 0Hz20Hz20Hz 人类听觉频率范围的声音:人类听觉频率范围的
3、声音:人类听觉频率范围的声音:人类听觉频率范围的声音:20Hz 20Hz20kHz20kHz 高频高频高频高频(Ultrasound)(Ultrasound):20kHz 20kHz1GHz1GHz 超声波超声波超声波超声波(Hypersound)(Hypersound):1GHz 1GHz10THz10THz第4页,共90页,编辑于2022年,星期一音频信号声波图示,其中包含两个重要参数:频率和振幅声波图示,其中包含两个重要参数:频率和振幅第5页,共90页,编辑于2022年,星期一音频信号根据音频信号占用频谱的不同,可以将音频信号分为3类:1.语音信号:又称话音信号,是人在正常情况下发出的一
4、种声音,频率范围大约为300Hz3.4KHz。2.2.音乐信号:各种乐器发出的声音,频率范围大约为音乐信号:各种乐器发出的声音,频率范围大约为20Hz20Hz20kHz20kHz。3.3.噪音信号:人们不感兴趣的一类声音,通常研究如何去噪音信号:人们不感兴趣的一类声音,通常研究如何去掉它。掉它。第6页,共90页,编辑于2022年,星期一4.1.1 音频信号的数字化音频信号通常是连续信号,要利用计算机来处理,首先需要对其数字化。模拟模拟模拟模拟语音语音语音语音采样采样采样采样量化量化量化量化编码编码编码编码samplessamples-0.25-0.25-0.5-0.5-0.75-0.750 0
5、0.250.250.50.50.750.75samplessamples01001110100111数字数字数字数字序列序列序列序列第7页,共90页,编辑于2022年,星期一音频信号的数字化 对声音信号进行采样时,一般使用音频范围的ADC(模数转换器)进行。不同的ADC主要区别于以下两个重要参数:(1 1)采样频率:)采样频率:采样频率是指每秒钟采集声音样本的个数。它的取值采样频率是指每秒钟采集声音样本的个数。它的取值应该满足应该满足Nyquist TheoryNyquist Theory,即采样频率,即采样频率f fs s应该大于等于声应该大于等于声音信号中最高频率音信号中最高频率f fmm
6、的两倍。采样频率的单位是:Hz或samples/s。如:数字电话的采样率为8KHz。(2)采样精度:采样精度用样本位数来表示。采样精度用样本位数来表示。样本位数越多,则声音质量越高,因为每个样本的量样本位数越多,则声音质量越高,因为每个样本的量化值与原样本值越接近。化值与原样本值越接近。采样精度的单位是:bits/sample。第8页,共90页,编辑于2022年,星期一 采样频率越高,采样精度越大,则数字化声音效果越好,采样频率越高,采样精度越大,则数字化声音效果越好,但是需要的存储量就越大。因此在实际应用中,需要折中但是需要的存储量就越大。因此在实际应用中,需要折中考虑声音质量和存储量的问题
7、。考虑声音质量和存储量的问题。0 0-0.25-0.25-0.5-0.5-0.75-0.750.250.250.50.50.750.75samplessamplesSampling HeightSampling Height-1-1另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(SNRSNR),表示为:),表示为:),表示为:),表示为:其中,其中,Vsignalsignal表示信号电压,表示信号电压,Vnoisenoise表示噪声电压,表示噪声电压,表示噪声电压,表示噪声电压,SNRSNR的单的单的单的单位为分贝
8、(位为分贝(位为分贝(位为分贝(dBdB)。信噪比越高,声音质量越好。)。信噪比越高,声音质量越好。)。信噪比越高,声音质量越好。)。信噪比越高,声音质量越好。第9页,共90页,编辑于2022年,星期一声音硬件:MicrophoneMicrophoneADCADCStored/Stored/TransmittedTransmittedDACDACSoundAnalog SignalSpeakerSpeakerAnalog SignalDigital SignalReproduced Sound Input DevicesDigital ProcessorOutput Devices第10页,共
9、90页,编辑于2022年,星期一4.1.2 音频信号压缩编码的可行性与分类对于高质量和长时间的音频数据,由于数据量都特别大,为了有效地存储和传输,需要进行压缩编码。压缩的可能性存在于:(1)声音信号中包含大量的冗余信息,如样本相关性、时间周期相关性、基音相关性等。(2)利用人的感知特性进行压缩。(3)根据话音产生机理进行压缩。衡量语音编码性能的主要因素有:编码质量;编码速率;编码速率;算法复杂度。算法复杂度。第11页,共90页,编辑于2022年,星期一音频信号压缩技术音频信号压缩技术 音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点:1.人的听觉系统中存在一个听觉阈值电平,低于这个电平的
10、声音信号人耳听不到.2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时,强声使弱声难以听到,并且两者之间的关系与其相对频率的大小有关.声音编码算法就是通过这些特性来去掉更多的冗余数据,来达到压缩数据的目的。第12页,共90页,编辑于2022年,星期一无失真压缩音频压缩方法有失真压缩Huffman编码行程编码波形编码参数编码混合编码全频带编码PCMDPCMADPCM子带编码 自适应变换编码ATC 心理学模型矢量量化线性预测LPC矢量和激励线性预测VSELP多脉冲线性预测MP-LPC码本激励线性预测CELP音频信号压缩编码的分类第13页,共90页,编辑于2022年,星期一根据压缩编码思想的不
11、同,把音频编码技术分为三类:根据压缩编码思想的不同,把音频编码技术分为三类:(1 1)波形编码()波形编码(Waveform CodingWaveform Coding)(2 2)源编码()源编码(Source CodingSource Coding),参数编码参数编码(3 3)混合编码()混合编码(Hybrid CodingHybrid Coding)波形编码:没有利用语音信号自身的特点。波形编译码的想法是,不利用生成话音信号的任何知识而企图产生一种重构信号,它的波形与原始话音波形尽可能地一致。一般来说,这种编译码器的复杂程度比较低,数据速率在16 kb/s以上,质量相当高。低于这个数据速率
12、时,音质急剧下降。如:1.CD1.CD质量音频数据量:质量音频数据量:2x44100 x16 b/s2x44100 x16 b/s2.2.电话质量音频数据量:电话质量音频数据量:8Kx8 b/s PCM(DPCM 56Kb/s;ADPCM 8Kx8 b/s PCM(DPCM 56Kb/s;ADPCM 32Kb/s).32Kb/s).第14页,共90页,编辑于2022年,星期一源编码(参数编码):参数化,利用语音信号的特点进行数据压缩。音源编译码的想法是企图从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。例如:信道声码器的工作原理:将语音信号基于语音分析原理分解成一系
13、列频率分量,将这些分量在信道中传输。接收方基于收到的数据进行语音重建:将收到的数据中的频率分量作为语音的基频,产生一系列脉冲作为浊音,用噪声发生器的输出作为清音。此方法可以将语音的传输速率降低至2.4Kb/s,甚至更低。第15页,共90页,编辑于2022年,星期一l混合编码:混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于它们之间。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。下图表示了目前这三种编译码器的话音质量和数据率的关系。图 普通编译码器的音质与数据率 第16页,共90页,编辑于2022年,星期一4.1.3 声音类别与数据率声音根据频带分为5类:(1)
14、电话(Telephone)声音(2)调幅(Amplitude Modulation)广播声音(3)调频(Frequency Modulation)广播声音(4)数字音频光盘(CD-Audio)声音(5)数字录音带(Digital Audio Tape)声音这些不同的声音数据区别于采样频率、采样精度、通道数、数据率和频率范围等参数。第17页,共90页,编辑于2022年,星期一声音类别与数据率声音类别声音类别采样率采样率(kHz)(kHz)精度精度(bit/s)(bit/s)单声道单声道/立体声立体声数据速率数据速率(未经压缩)(未经压缩)频率范围频率范围(HzHz)PhonePhone8 88
15、8singlesingle8kBps8kBps200-3400Hz200-3400HzAMAM11.02511.0258 8singlesingle11.0kBps11.0kBps50-7000Hz50-7000HzFMFM22.05022.0501616stereostereo88.2kBps88.2kBps20-15000Hz20-15000HzCDCD44.144.11616stereostereo176.4kBps176.4kBps20-20000Hz20-20000HzDATDAT48481616stereostereo192.0kBps192.0kBps20-20000Hz20-2
16、0000Hz宽带音响宽带音响宽带音响宽带音响:20Hz:20Hz20kHz20kHz第18页,共90页,编辑于2022年,星期一声音类别与数据率我们所熟悉的数字音频文件格式如下表所示:我们所熟悉的数字音频文件格式如下表所示:文件扩展名文件扩展名说明说明.PCM.PCMPCM PCM 数据序列数据序列.VOC.VOC声卡使用的音频文件格式声卡使用的音频文件格式.WAV.WAV微软使用的波形音频文件格式微软使用的波形音频文件格式.SND.SNDNeXTNeXT计算机使用的波形音频文件格式计算机使用的波形音频文件格式.AIF.AIF苹果计算机使用的波形音频文件格式苹果计算机使用的波形音频文件格式.M
17、ID.MIDMIDI MIDI 文件格式文件格式.RMI.RMI微软使用的微软使用的MIDI MIDI 文件格式文件格式未压缩的声音文件的存储量可用下式计算:未压缩的声音文件的存储量可用下式计算:存储量(存储量(B B)=(采样频率(采样频率HZHZ采样位数采样位数bitbit声道数声道数时间秒)时间秒)/8/8 第19页,共90页,编辑于2022年,星期一4.1.4 声音质量的度量声音质量的度量分为:客观质量度量和主观质量度量。声音客观质量的度量用信噪比信噪比来展开:信噪比(信噪比(SNRSNR)越大,声音质量越好;反之,信噪比越小,声)越大,声音质量越好;反之,信噪比越小,声音质量越差音质
18、量越差声音主观质量的度量是利用人的感觉(听觉)来进行度量,主观平均判分法(MOS),通常分5分:1分:劣(极反感);2分:差(讨厌但不反感);3分:中(有点讨厌);4分:良(基本可以接受);5分:优(效果很好)第20页,共90页,编辑于2022年,星期一声音质量的度量Kbit/s1248163264poorsufficientsatisfactorygoodexcellentAchievable Quality year 1980year 1990year 2000 部分编码器的部分编码器的MOS分分 编码器MOS分64 kb/s脉冲编码调制(PCM)4.332 kb/s自适应差分脉冲编码调制
19、(ADPCM)4.116 kb/s低时延码激励线性预测编码(LD-CELP)4.08 kb/s码激励线性预测编码(CELP)3.73.8 kb/s码激励线性预测编码(CELP)3.02.4 kb/s线性预测编码(LPC)2.5第21页,共90页,编辑于2022年,星期一4.2音频信息压缩编码技术标准体系常见的音频压缩编码准则有ITU制定的G.7XX系列和ISO/IEC制定的MPEG-X系列。G.7XX是一组 ITU-T 标准,用于音频压缩和解压缩。它主要用于电话方面。在电话技术中,有两个主要的算法标准,分别定义在-law 算法(美国使用)和 A-law 算法(欧洲及世界其他国家使用)中。两者都
20、是基于对数关系的,但对于计算机的处理来说,后者更为简单。MPEG-X是一组用于视频的编码方案,其中也有音频的编码部分,可以用于音频压缩编码。第22页,共90页,编辑于2022年,星期一1 1电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准信号频率规定在信号频率规定在300Hz300Hz3.4kHz3.4kHz,采用标准的脉冲编码调制,采用标准的脉冲编码调制(PCM)(PCM),当采样频率为,当采样频率为8kHz8kHz,进行,进行8bit8bit量化时,所得数据速量化时,所得数据速率为率为64kb/s64kb/s,即一个数
21、字电话。,即一个数字电话。PCMPCM标准标准G.711,1972711,1972年CCITT为电话质量和语音压缩制定,其速率为64Kb64Kbs s,使用非线性量化技术,主要用于公共电话网中。ADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术,CCITT为此制定了G.721推荐标准,这个标准叫做推荐标准,这个标准叫做32 kb/s ADPCM32 kb/s ADPCM。在此基础。在此基础上还制定了上还制定了G.721G.721的扩充推荐标准的扩充推荐标准G.723G.723,使用该标准的编码,使用该标准的编码器的数据率可降低到器的数据率可降低到40 kb/s
22、40 kb/s和和24 kb/s24 kb/s。G.721 的输入信号是G.711 PCM代码,它的数据率为64 kb/s。而G.721 ADPCM的输出是用4位表示的差分信号,它的采样率仍然是8 kHz,它的数据率为32 kb/s,这样就获得了21的数据压缩。第23页,共90页,编辑于2022年,星期一2 2 2 2调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准 频率在频率在频率在频率在50Hz50Hz50Hz50Hz一一一一7kHz7kHz7kHz7kHz范围。范围。范围。范围。G.722G.722G
23、.722G.722标标标标准是采用准是采用准是采用准是采用16kHz16kHz16kHz16kHz采采采采样样样样,14bit14bit14bit14bit量化,信号数据速率量化,信号数据速率量化,信号数据速率量化,信号数据速率为为为为224kbit224kbit224kbit224kbits s s s,224kbit 224kbit 224kbit 224kbits s s s可以被可以被可以被可以被压缩压缩压缩压缩成成成成64kbit64kbit64kbit64kbits.s.s.s.采用子采用子采用子采用子带编码带编码带编码带编码方法,将方法,将方法,将方法,将输输输输入音入音入音入音
24、频频频频信号信号信号信号经滤经滤经滤经滤波器分成高子波器分成高子波器分成高子波器分成高子带带带带和低子和低子和低子和低子带带带带两个部分,分两个部分,分两个部分,分两个部分,分别进别进别进别进行行行行ADPCMADPCMADPCMADPCM编码编码编码编码,再混合形成,再混合形成,再混合形成,再混合形成输输输输出出出出码码码码流,流,流,流,224kbit224kbit224kbit224kbits s s s可以被可以被可以被可以被压缩压缩压缩压缩成成成成64kbit64kbit64kbit64kbits s s s,最后,最后,最后,最后进进进进行数据插入行数据插入行数据插入行数据插入(最
25、高插入速率达最高插入速率达最高插入速率达最高插入速率达16kbit16kbit16kbit16kbits)s)s)s),因此利用,因此利用,因此利用,因此利用G.722G.722G.722G.722标标标标准可以在窄准可以在窄准可以在窄准可以在窄带综带综带综带综合服合服合服合服务务务务数据网数据网数据网数据网N-N-N-N-ISDNISDNISDNISDN中的一个中的一个中的一个中的一个B B B B信道上信道上信道上信道上传传传传送送送送调调调调幅广播幅广播幅广播幅广播质质质质量的音量的音量的音量的音频频频频信号信号信号信号)。第24页,共90页,编辑于2022年,星期一3 3高保真度立体声
26、音频压缩编码技术标准高保真度立体声音频压缩编码技术标准 高高高高保保保保真真真真立立立立体体体体声声声声音音音音频频频频信信信信号号号号频频频频率率率率范范范范围围围围是是是是50Hz50Hz50Hz50Hz20kHz20kHz20kHz20kHz,采采采采用用用用444444441kHz1kHz1kHz1kHz采采采采样样样样频率,频率,频率,频率,16bit16bit16bit16bit量化进行数字化转换,其数据速率每声道达量化进行数字化转换,其数据速率每声道达量化进行数字化转换,其数据速率每声道达量化进行数字化转换,其数据速率每声道达705kbit705kbit705kbit705kbi
27、ts s s s。采样频率为采样频率为采样频率为采样频率为48kHz48kHz48kHz48kHz,44.1kHz44.1kHz44.1kHz44.1kHz,32kHz32kHz32kHz32kHzMPEGMPEGMPEGMPEG音频压缩技术的数据速率为每声道音频压缩技术的数据速率为每声道音频压缩技术的数据速率为每声道音频压缩技术的数据速率为每声道32323232448kbit448kbit448kbit448kbits s s s,适合于,适合于,适合于,适合于CDCDCDCDDADADADA光盘应用。光盘应用。光盘应用。光盘应用。目前国际上比较成熟的高保真立体声音频压缩标准为MPEG音频。
28、MPEG-1和MPEG-2的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码(perceptual audio coding)。第25页,共90页,编辑于2022年,星期一4.2.1 G.7XX系列音频信号压缩编码标准G.711 64 kbps 信道上的语音频率脉冲编码调制(PCM)G.721 32 kbit/s 自适应差分脉冲编码调制(ADPCM)G.722 64 kbit/s 下的 7 kHz 音频编码 G.722.1 带有低帧损耗的具有免提操作的系统在 24 kbit/s 和 32 kbit
29、/s 上的编码 G.722.2 利用自适应多频率宽带(AMR-WB)以 16 kbit/s 多频率语音编码第26页,共90页,编辑于2022年,星期一G.723:G.723是一种以是一种以24Kbps运行的基于运行的基于 ADPCM 的有损耗压缩标准。其音质不如非压的有损耗压缩标准。其音质不如非压缩的缩的 G.711PCM 标准以及基于标准以及基于 SBSBADPCM ADPCM 的的 G.722标准。标准。G.723.1和和G.723.2用于用于H.324标准。标准。G.726 40、32、24、16 kbit/s 自适应差分脉冲编码调制 ADPCM G.727 5-、4-、3-和 2-bi
30、t/s 嵌入式自适应差分脉冲编码调制 ADPCMG.728 利用低延迟代码线性预测以 16 bit/s 进行语音编码G.729 利用共扼结构代数激励编码线性预测(CS-ACELP)以 8 bit/s 进行语音编码第27页,共90页,编辑于2022年,星期一4.2.2 MPEG-X系列音频信号压缩标准MPEG-1制定于1992年,为工业级标准而设计。它处理音频时,具有CD(指激光唱盘)音质,质量级别基本与VHS相当。MPEG-1是针对整个音频范围的声音进行编码,采样频率为48kHz、采样精度为16位的立体声数据压缩到256b/s时,即在6:1的压缩率下,即使是专业测试员,也难以分辨出是解压声音还
31、是原始声音。第28页,共90页,编辑于2022年,星期一4.2.2 MPEG-X系列音频信号压缩标准MPEG-2制定于1994年,设计目标是高级工业标准的图象质量以及更高的传输率。MPEG-2可提供CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道(DVD可有8种语言配音的原因)。由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也可播放MPEG-1格式的数据,如VCD。第29页,共90页,编辑于2022年,星期一4.2.2 MPEG-X系列音频信号压缩标准两种声音数据压缩格式(1)MPEG-2 Audio,或者称为MPEG-
32、2多声道(Multichannel)声音,又称为MPEG-2 BC(Backward Compatible,后向兼容),与MPEG-1 Audio是兼容的。(2)MPEG-2 AAC(Advanced Audio Coding,先进的音频编码),通常称为非后向兼容MPEG-2 NBC(Non-Backward-Compatible,非后向兼容)标准,与MPEG-1声音格式不兼容。第30页,共90页,编辑于2022年,星期一MPEG-4音频编码 19961996年年1111月月在在MaceioMaceio举举行行的的MPEGMPEG第第3737次次会会议议正正式式确确定定的的MPEG-2MPEG
33、-2先先进进音音频频编编码码AACAAC(Advanced Advanced Audio Audio CodingCoding),已已被被作作为为目目前前正正在在制制定的定的MPEG-4MPEG-4音频标准的一部分。音频标准的一部分。19961996年年3 3月月在在意意大大利利FlorenceFlorence举举行行的的MPEGMPEG第第3434次次会会议议上上给给出出了了MPEG-4MPEG-4音音频频验验证证模模型型VMVM的的第第一一个个完完整整描描述述。通通过过大大量量的的核核心心实实验验(Core Core ExperimentExperiment),音音频频验验证模型得到了迅速
34、的发展。证模型得到了迅速的发展。19961996年年1111月月就就公公布布了了第第一一个个MPEG-4MPEG-4的的音音频频工工作作草草案案。在在MPEGMPEG第第4040次次会会议议上上,结结构构音音频频SASA(Structured Structured AudioAudio)和和文文语语转转换换TTSTTS(Text Text to to SpeechSpeech)被加到)被加到MPEG-4MPEG-4音频标准中,作为合成的音频编码部分。音频标准中,作为合成的音频编码部分。19971997年年1111月月在在FribourgFribourg举举行行的的MPEGMPEG第第4141次
35、次会会议议公公布布了了音音频频标标准准的的最最终终标标准准草草案案(Final Final Draft Draft International International StandardStandard),内内容容与与正正式式标标准准基本相同。基本相同。1999 1999年年1 1月公布正式标准版本月公布正式标准版本1 1 2000 2000年年1 1月公布标准的版本月公布标准的版本2 24.2.2 MPEG-X系列音频信号压缩标准第31页,共90页,编辑于2022年,星期一4.2.2 MPEG-X系列音频信号压缩标准MPEG-4音频标准(ISO/IEC 14496-3)分为自然音频编码和合
36、成音频编码两大类。MPEG-4(ISO/IEC 14496)已建立了两个版本,正在开发第3版。MPEG-4音频部分促进广泛的应用,这些应用可能包括从智能语音到高质量多声道音频,从自然声音到合成声音。特别是,它支持由下述成分组成的音频对象的高效表示:语音信号:合成语音:它允许一个文本或带有韵律参数的文本合成语音:它允许一个文本或带有韵律参数的文本(基音轮廓,音素持续期等等)作为输入产生可理解的(基音轮廓,音素持续期等等)作为输入产生可理解的合成语音。合成语音。第32页,共90页,编辑于2022年,星期一4.3 G.7XX声音压缩编码G.711声音压缩编码G.722声音压缩编码G.723声音压缩编
37、码G.729声音压缩编码各自的编码方法各自的编码方法编/解码器结构及工作原理第33页,共90页,编辑于2022年,星期一4.3.1 G.722声音压缩编码G.722基于子带 ADPCM技术(SBADPCM),它是将现有的带宽分成两个独立的子带信道分别采用差分脉冲编码调制算法。G.722压缩信号的带宽范围为50Hz到7kHz,而G.711仅限于4.4kHz。其比特率为48、56、64Kbps,在标准模式下,采样速率是16KHz,幅度深度为14比特。第34页,共90页,编辑于2022年,星期一1、G.722的编码方法采用子带自适应差分脉冲编码调制技术(SB-ADPCM)。以上技术的操作方法是:用正
38、交镜像滤波器(用正交镜像滤波器(QMFQMF)把频带分割成两个等带)把频带分割成两个等带宽的子带,分别是高频带和低频带。宽的子带,分别是高频带和低频带。对两个子带中的信号采用对两个子带中的信号采用ADPCMADPCM进行编码。进行编码。其基本思想是将信号分解为若干子频带内的分量之和,其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。缩策略以降低码率。第35页,共90页,编辑于2022年,星期一2、G.722的编/解码器G.722音频编/解码器结构如下图所示:a.编码器编码器高子带高子
39、带ADPCM编码编码音频音频信号信号输入输入声音声音数据数据传送传送部件部件发送正发送正交镜像交镜像滤波器滤波器低子带低子带ADPCM编码编码多多路路复复合合器器IH16Kbit/sIL16Kbit/sXinXHXL附加数据附加数据0Kbit/s,8Kbit/s,16Kbit/s数据输入数据输入部件部件高子带高子带ADPCM解码解码音频音频信号信号输出输出声音声音数据数据传送传送部件部件发送正发送正交镜像交镜像滤波器滤波器低子带低子带ADPCM解码解码多多路路复复合合器器IH16Kbit/sIL16Kbit/sYoutYHYL附加数据附加数据0Kbit/s,8Kbit/s,16Kbit/s数据
40、输出数据输出部件部件b.解码器解码器第36页,共90页,编辑于2022年,星期一4.3.2 G.723声音压缩编码G.723是ITU-T在1996年制订成型的一种多媒体语音编解码标准。其典型应用包括IP电话服务、H.324视频电话、无线电话、数字卫星系统、数电倍增设备(DCME)、公共交换电话网(PSTN)、ISDN及各种多媒体语音信息产品。G.723标准传输码率有5.3kb/s和6.3kb/s两种,在编程过程中可随时切换,两种速率的区别在于采用的激励技术不同。该标准主要包含了编码算法和解码算法。第37页,共90页,编辑于2022年,星期一G.723声音压缩编码5.3kb/s的编码器采用代数码
41、线预测激励(ACELP);6.3kb/s的编码器则采用多脉冲最大似然量化(MP-MLQ)激励。编码原理:从采集的语音信号中解析出声道模型参数,构造一个合成滤波器,采用合适的激励源激励,编码传输的参数主要是激励源与合成滤波器的参数。接收端根据传输编码参数,重构出激励源与合成滤波器进行解码,还原出来的数字语音信号经D/A转换器转换成模拟语音信号。G.723是基于分析合成的声音压缩编码标准。第38页,共90页,编辑于2022年,星期一参数编码此编码方法又称音源编码,其原理参见下图。预加重预加重加窗加窗自相关函数自相关函数清清/浊音判浊音判断断基音提取基音提取线性预测编码线性预测编码MUX及及量量化化
42、编编码码语音样本语音样本编码编码ai下面,首先介绍G.723中的参数编码方法,再由于参数编码方法中语音生成模型里使用的激励信号过于简单而造成话音质量不高的缺点,再介绍一种将波形编码与音源编码混合的编码方法。第39页,共90页,编辑于2022年,星期一参数编码原理:通过分析声音的产生机理,建立数学模型。编码时从声音波形信号通过分析声音的产生机理,建立数学模型。编码时从声音波形信号中提取生成声音的参数;解码时使用这些参数通过声音生成模型,重中提取生成声音的参数;解码时使用这些参数通过声音生成模型,重构出声音。构出声音。话音生成模型把声音的产生过程看成是由声带振动脉冲激励声道滤波器话音生成模型把声音
43、的产生过程看成是由声带振动脉冲激励声道滤波器的结果。的结果。话音参数包括:清浊音比例、浊音周期、增益系数、滤波器参话音参数包括:清浊音比例、浊音周期、增益系数、滤波器参数等。数等。根据接收到的话音参数,基于下图中的生成过程进行话音重构:根据接收到的话音参数,基于下图中的生成过程进行话音重构:脉冲序列发生器脉冲序列发生器随机噪声发生器随机噪声发生器声道滤波器声道滤波器基音周期基音周期T滤波器参数滤波器参数音源幅度音源幅度音源幅度音源幅度语音输出语音输出浊音浊音清音清音ai第40页,共90页,编辑于2022年,星期一4.3.3 GSM编译码器简介编译码器简介 除了除了ADPCMADPCM算法已经得
44、到普遍应用之外,还有一种使用较普遍的波形声算法已经得到普遍应用之外,还有一种使用较普遍的波形声音压缩算法叫做音压缩算法叫做GSMGSM算法。算法。GSMGSM是是G Global lobal S System for ystem for MMobile obile communicationscommunications的缩写,可译成全球数字移动通信系统。的缩写,可译成全球数字移动通信系统。GSMGSM算法是算法是19921992年柏林技术大学根据年柏林技术大学根据GSMGSM协议开发的,这个协议是欧洲协议开发的,这个协议是欧洲最流行的数字蜂窝电话通信协议。最流行的数字蜂窝电话通信协议。GSM
45、GSM的输入是帧的输入是帧(frame)(frame)数据,一帧数据,一帧(20(20毫秒毫秒)由采样频率为由采样频率为8 8 kHzkHz的带符号的的带符号的160160个样本组成,每个样本为个样本组成,每个样本为1313位或者位或者1616位的线性位的线性PCM(linear PCM)PCM(linear PCM)码。码。GSMGSM编码器可把一帧编码器可把一帧(16016(16016位位)的数据压缩的数据压缩成成260260位的位的GSMGSM帧,压缩后的数据率为帧,压缩后的数据率为16251625字节,相当于字节,相当于13 kb/s13 kb/s。由于由于260260位不是位不是8
46、8位的整数倍,因此编码器输出的位的整数倍,因此编码器输出的GSMGSM帧为帧为264264位的位的线性线性PCMPCM码。采样频率为码。采样频率为8 kHz8 kHz、每个样本为、每个样本为1616位的未压缩的话音位的未压缩的话音数据率为数据率为128 kb/s128 kb/s,使用,使用GSMGSM压缩后的数据率为:压缩后的数据率为:(264(264位位80008000样本样本/秒秒)/160)/160样本样本=13.2=13.2 千位千位/秒秒GSMGSM的压缩比:的压缩比:128:13.2=9.7128:13.2=9.7,近似于,近似于10:110:1。第41页,共90页,编辑于2022
47、年,星期一4.4 MPEG-X声音压缩编码由于有必要确定一套通用的视频和音频声音编码方案,ISO/IEC标准组织成立了ISO/IES JTC1/SC29/WG11,即MPEG(活动图像专家组)。该小组负责比较和评估几种低码速率数字声音编码技术,以产生一套国际标准,用于活动图像、相关声音信息及其结合,和用数字存储媒体(DSM)存储与重现。MPEG针对的DSM包括CD-ROM、DAT、磁光碟和电脑磁盘。MPEG Audio标准是指标准是指MPEG-1 Audio、MPEG-2 Audio和和MPEG-2 AAC,MPEG-4 AudioAudio和和和和MPEG-7MPEG-7音频框音频框架架第4
48、2页,共90页,编辑于2022年,星期一与前面章节介绍的波形声音压缩编码(如ADPCM)和参数编码(如LPC)不同,MPEG-1和MPEG-2的声音数据压缩编码不是依 据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码感知声音编码(perceptual audio coding)。进入进入2020世纪世纪8080年代之后,尤其最近几年,人类在利用自身的听年代之后,尤其最近几年,人类在利用自身的听觉系统的特性来压缩声音数据方面取得了很大的进展,先后制觉系统的特性来压缩声音数据方面取得了很大的进展,先后制定了定了MPEG-1
49、 Audio,MPEG-2 AudioMPEG-1 Audio,MPEG-2 Audio等标准等标准它们处理10 Hz20000 Hz范围里的声音数据,使用“心理声学模型(psychoacoustic model)”来达到压缩声音数来达到压缩声音数据的目的。据的目的。第43页,共90页,编辑于2022年,星期一“听阈听阈频率频率”曲线曲线 当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”。听阈是随频率变化的另一种极端的情况是声音强到使人耳感到疼痛。实验表明,如果频率为1 kHz的纯音的声强级达到120 dB左右时,人的耳朵就感到疼痛,这个阈值称为“痛阈”。1.对响度的感知对响度
50、的感知 4.4.1 听觉系统的感知特性听觉系统的感知特性 在“听阈频率”曲线和“痛阈频率”曲线之间的区域就是人耳的听觉范围。第44页,共90页,编辑于2022年,星期一2.对音高的感知对音高的感知 客观上用频率来表示声音的音高,其单位是Hz。人耳可以听到的最低频率约20 Hz,最高频率约18000 Hz。3.掩蔽效应掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应.前者称为掩蔽声音(masking tone),后者称为被掩蔽声音(masked tone)。掩蔽可分成频域掩蔽和时域掩蔽。第45页,共90页,编