《《音频编码技术》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《音频编码技术》PPT课件.ppt(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第09讲讲 音频编码技术音频编码技术多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University一切能发出声音的物体称为一切能发出声音的物体称为声源声源。声音是由于声源的振动。声音是由于声源的振动而产生的,由于声源的振动,借助于它们周围的介质,而产生的,由于声源的振动,借助于它们周围的介质,把这种振动以机械波的形式由近及远地传向远方,把这种振动以机械波的形式由近及远地传向远方,这就这就是是声波声波。声波传入人耳,致使耳膜也产生振动,这种振动声波传入人耳,致使耳
2、膜也产生振动,这种振动被传导到听觉神经,人们就产生了被传导到听觉神经,人们就产生了“声音声音”的感觉。我们的感觉。我们日常听到的声音是一种日常听到的声音是一种模拟信号模拟信号声学基础知识声学基础知识声学基础知识声学基础知识 声音定义声音定义声音定义声音定义声音是振动波,具有振幅、周期和频率声音是振动波,具有振幅、周期和频率声音是振动波,具有振幅、周期和频率声音是振动波,具有振幅、周期和频率 声音的质量声音的质量声音的质量声音的质量简称音质。音质与频率范围成正比,频率范围越宽音质越好简称音质。音质与频率范围成正比,频率范围越宽音质越好简称音质。音质与频率范围成正比,频率范围越宽音质越好简称音质。
3、音质与频率范围成正比,频率范围越宽音质越好声音具有连续性和过程性,数据前后相关,数据量大,具有实时性声音具有连续性和过程性,数据前后相关,数据量大,具有实时性声音具有连续性和过程性,数据前后相关,数据量大,具有实时性声音具有连续性和过程性,数据前后相关,数据量大,具有实时性 声音的连续时基性声音的连续时基性声音的连续时基性声音的连续时基性 声音三要素声音三要素声音三要素声音三要素(1)(1)音调音调音调音调 (高低高低高低高低)(2)(2)音强音强音强音强 (强弱强弱强弱强弱)(3)(3)音色音色音色音色 (特质特质特质特质)多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工
4、程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University声音的频率范围声音的频率范围 多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University模拟波信号有三个要素:模拟波信号有三个要素:基线、周期和振幅基线、周期和振幅。振幅振幅即波形的最高点(或最低点)与基线间的距离,它表示了声音音量即波形的最高点(或最低点)与基线间的距离,它表示了声音音量的大小。的大小。周期周期是波形中两个相邻波峰之间
5、的距离,它表示完成一次振动过程所需是波形中两个相邻波峰之间的距离,它表示完成一次振动过程所需的时间,的时间,其大小体现了振动的速度。其大小体现了振动的速度。频率频率是周期的倒数,周期越短,频是周期的倒数,周期越短,频率越高。频率的单位为赫兹率越高。频率的单位为赫兹(Hz)。人的耳朵只能感觉到振动频率在人的耳朵只能感觉到振动频率在20Hz到到20 000 Hz之间的声波,超出此范之间的声波,超出此范围的振动波不能引起听觉器官的感觉。围的振动波不能引起听觉器官的感觉。其中,人耳对其中,人耳对400-4000HZ的声波最敏感。的声波最敏感。次声波次声波次声波次声波人耳可听域人耳可听域人耳可听域人耳可
6、听域超声波超声波20Hz 2020,000Hz20,000Hz 20,000Hz女女性性语语音音150Hz 150Hz 10,000Hz 10,000Hz电电话话语语音音200Hz 200Hz 3,400Hz 3,400Hz调调 幅幅 广广 播播(AM)50Hz 50Hz 7,000Hz 7,000Hz调调 频频 广广 播播(FM)20Hz 20Hz 15,000Hz 15,000Hz高高级级音音响响10Hz 10Hz 40,000Hz 40,000Hz男男性性语语音音100Hz 100Hz 9,000Hz 9,000Hz声声声声源源源源种种种种类类类类频频频频带带带带宽宽宽宽度度度度多媒体通
7、信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University声音信号特性分析声音信号特性分析声音信号特性分析声音信号特性分析 时域时域起始起始稳定稳定结束结束 频域频域声音信号由正弦分量组成声音信号由正弦分量组成周期、非周期周期、非周期频谱分析频谱分析线状谱、连续谱线状谱、连续谱声音信号的描述声音信号的描述声波频率、声压、声强声波频率、声压、声强人耳对声音的感觉通过声压或人耳对声音的感觉通过声压或声压级声压级描述描述非线性非线性听域(听域(1kHz):):210-5Pa
8、 0dB 痛域:痛域:20 Pa 120dB多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University人耳听觉特性人耳听觉特性人耳听觉特性人耳听觉特性 人耳对声音强弱的感觉特性人耳对声音强弱的感觉特性人耳对声音强弱的感觉特性人耳对声音强弱的感觉特性人耳对声音强弱的感觉与声压级成正比人耳对声音强弱的感觉与声压级成正比安静的环境和嘈杂的环境中人耳可以分辨的声音不同。安静的环境和嘈杂的环境中人耳可以分辨的声音不同。掩蔽掩蔽:一个频率声音的听域由于另一个声音的存在而上
9、升的现象。:一个频率声音的听域由于另一个声音的存在而上升的现象。掩蔽效应掩蔽效应:复合声音信号中,响度较低的声音频率分量被高者淹没。:复合声音信号中,响度较低的声音频率分量被高者淹没。响度是听觉判断声音强弱的属性响度是听觉判断声音强弱的属性主观,与声压级有一定关系:主观,与声压级有一定关系:声压级每增加声压级每增加10dB10dB,响度增加,响度增加1 1倍。倍。响度和响度级响度和响度级响度和响度级响度和响度级 人耳听觉的掩蔽效应人耳听觉的掩蔽效应人耳听觉的掩蔽效应人耳听觉的掩蔽效应多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波
10、大学宁波大学 Ningbo UniversityNingbo University 声音质量评价声音质量评价声音质量评价声音质量评价我们经常会对某一位歌手的歌声发表意见,并与其他歌手进行比较,我们经常会对某一位歌手的歌声发表意见,并与其他歌手进行比较,这其实是在对声音的质量进行评价。这其实是在对声音的质量进行评价。声音质量的度量有两种基本方法:客观质量度量、主观质量的度量。声音质量的度量有两种基本方法:客观质量度量、主观质量的度量。声波的声波的测量与分析传统的方法是先用机电换能器把声波转换为相应测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测
11、量与分析。由于的电信号,然后用电子仪表放大到一定的电压级进行测量与分析。由于计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现。计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现。这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作:这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作:评价值的测量评价值的测量响度和响度级,噪音级,清晰度指数,噪音评价数。响度和响度级,噪音级,清晰度指数,噪音评价数。声源的测量声源的测量频谱的时间变化,声功率,指向性,效率,频谱特征,频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等。幅值分布等。音质的测量音质的
12、测量混响时间,隔音量,吸音量。混响时间,隔音量,吸音量。声音客观质量的度量方法声音客观质量的度量方法多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University声测量的基本仪器是声测量的基本仪器是声级计声级计。声级计是一种能对声。声级计是一种能对声音作出类似人耳的反应的仪器,同时,它能进行客音作出类似人耳的反应的仪器,同时,它能进行客观而可重复的声压和声级测量。声压测量的好处很观而可重复的声压和声级测量。声压测量的好处很多:它能帮助音乐厅提高音响效果;能对烦扰声
13、音多:它能帮助音乐厅提高音响效果;能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告进行精密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用诉我们什么声音会引起听力损害,并提醒人们采用适当的听力保护措施。因此,声测量是不可少的。适当的听力保护措施。因此,声测量是不可少的。度量声音客观质量的一个主要指标是信噪比度量声音客观质量的一个主要指标是信噪比SNRSNR(Signal to Noise RationSignal to Noise Ration)。其单位是分贝)。其单位是分贝(dB)(dB)。多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科
14、学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University 声音主观质量的度量声音主观质量的度量声音主观质量的度量声音主观质量的度量 采用客观标准方法很难真正评定某种编码器的采用客观标准方法很难真正评定某种编码器的质量,在实际评价中,主观的质量度量比客观质量质量,在实际评价中,主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实验者进行综合段话
15、,然后重放给实验者听,再由实验者进行综合评定。可以说,人的感觉机理最具有决定意义。当评定。可以说,人的感觉机理最具有决定意义。当然,可靠的主观度量值是较难获得的。然,可靠的主观度量值是较难获得的。多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University 平均判分(平均判分(Mean Opnion Scose-MOSMean Opnion Scose-MOS)过程是召集一)过程是召集一批实验者,请每个实验者对某个编解码器的输出进行质量批实验者,请每个实验者对某
16、个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的判分,采用类似于考试的五级分制,不同的MOSMOS分对应的分对应的质量级别和失真级别见下表。质量级别和失真级别见下表。声音主观质量的度量方法声音主观质量的度量方法MOSMOS质量级别质量级别失真级别失真级别5 5优优(Excellent)(Excellent)不察觉不察觉4 4良良(Good)(Good)刚察觉但不可厌刚察觉但不可厌3 3中中(Fair)(Fair)察觉及稍微可厌察觉及稍微可厌2 2差差(Poor)(Poor)可厌可厌(但不令人反感但不令人反感)1 1劣劣(Unacceptable)(Unacceptable)极可厌
17、极可厌(令人反感令人反感)多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University数字化声音数字化声音数字化声音数字化声音用声音录制软件记录的英文单词用声音录制软件记录的英文单词“Hello”的语音实际波形的语音实际波形多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo Universityu模拟信号很容易受到电子干扰,因此随着技术的发展
18、,声音信号就模拟信号很容易受到电子干扰,因此随着技术的发展,声音信号就逐渐过渡到了数字存储阶段,逐渐过渡到了数字存储阶段,A/DA/D转换和转换和D/AD/A转换技术便应运而生。转换技术便应运而生。uA A:“Analog”Analog”(类比、模拟)(类比、模拟)uD D:“Digital”Digital”(数字、数码)(数字、数码)uA/DA/D转换就是把模拟信号转换成数字信号的过程,模拟电信号变为了转换就是把模拟信号转换成数字信号的过程,模拟电信号变为了由由“0”0”和和“1”1”组成的组成的BitBit信号。信号。u这样做的好处是显而易见的,声音存储质量得到了加强,数字化的这样做的好处
19、是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩,这也就是为什么如今声音信息使计算机能够进行识别、处理和压缩,这也就是为什么如今磁带逐渐被淘汰,磁带逐渐被淘汰,CDCD唱片却趋于流行的原因。唱片却趋于流行的原因。u A/DA/D转换的一个关键步骤是转换的一个关键步骤是声音的采样和量化声音的采样和量化,得到数字音频信号,得到数字音频信号,它在时间上是不连续的离散信号。它在时间上是不连续的离散信号。多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNi
20、ngbo University借助于借助于A/DA/D或或D/AD/A转换器,模拟信号和数字信号可以互相转换转换器,模拟信号和数字信号可以互相转换 8 8位可编程位可编程A/DA/D转换芯片转换芯片多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University 声音采样声音采样声音采样声音采样 声音数字化声音数字化声音数字化声音数字化(模模模模/数转换数转换数转换数转换)声音采样声音采样声音采样声音采样11011100 1100110111011100 11001
21、101把声音把声音把声音把声音(模拟量模拟量模拟量模拟量)按照固定时间间隔,转换成有限个数字表示的离散序列按照固定时间间隔,转换成有限个数字表示的离散序列按照固定时间间隔,转换成有限个数字表示的离散序列按照固定时间间隔,转换成有限个数字表示的离散序列 声音重放声音重放声音重放声音重放 声音模拟化声音模拟化声音模拟化声音模拟化(数数数数/模转换模转换模转换模转换)声音重放声音重放声音重放声音重放1101110011011100把数字化声音转换成模拟量,经过音响单元重放出来把数字化声音转换成模拟量,经过音响单元重放出来把数字化声音转换成模拟量,经过音响单元重放出来把数字化声音转换成模拟量,经过音响
22、单元重放出来 设备和软件设备和软件设备和软件设备和软件(1)(1)声音适配器声音适配器声音适配器声音适配器(声卡声卡声卡声卡)8bit)8bit、16bit16bit、128bit 128bit¥80.00 80.003800.003800.00(2)(2)声卡驱动软件以及各种声音处理软件声卡驱动软件以及各种声音处理软件声卡驱动软件以及各种声音处理软件声卡驱动软件以及各种声音处理软件人耳听到的声音是一种具有振幅、周期(频率)的声波,计算机人耳听到的声音是一种具有振幅、周期(频率)的声波,计算机人耳听到的声音是一种具有振幅、周期(频率)的声波,计算机人耳听到的声音是一种具有振幅、周期(频率)的声
23、波,计算机要处理这种声波,可以通过话筒把机械振动转变成相应的电信号,要处理这种声波,可以通过话筒把机械振动转变成相应的电信号,要处理这种声波,可以通过话筒把机械振动转变成相应的电信号,要处理这种声波,可以通过话筒把机械振动转变成相应的电信号,这也是一种连续的模拟信号。模拟信号的幅度,表示声音的强弱。这也是一种连续的模拟信号。模拟信号的幅度,表示声音的强弱。这也是一种连续的模拟信号。模拟信号的幅度,表示声音的强弱。这也是一种连续的模拟信号。模拟信号的幅度,表示声音的强弱。计算机只能处理数字量,不能处理这种模拟量,只有把这种模拟计算机只能处理数字量,不能处理这种模拟量,只有把这种模拟计算机只能处理
24、数字量,不能处理这种模拟量,只有把这种模拟计算机只能处理数字量,不能处理这种模拟量,只有把这种模拟量转换成数字量,计算机才有可能处理声音,这种转换就是模量转换成数字量,计算机才有可能处理声音,这种转换就是模量转换成数字量,计算机才有可能处理声音,这种转换就是模量转换成数字量,计算机才有可能处理声音,这种转换就是模/数数数数转换(转换(转换(转换(A/DA/D转换),它是由模转换),它是由模转换),它是由模转换),它是由模/数转换电路实现的。数转换电路实现的。数转换电路实现的。数转换电路实现的。声音经声音经A/D转换后得到的数字声音信号交给计算机处理,转换后得到的数字声音信号交给计算机处理,处理
25、后的数据需经过数处理后的数据需经过数/模(模(D/A)转换电路,还原成)转换电路,还原成模拟信号,再进行放大输出到喇叭或耳机,变成人耳能模拟信号,再进行放大输出到喇叭或耳机,变成人耳能够听到的声音。够听到的声音。多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University数字音频的处理数字音频的处理数字音频的处理数字音频的处理 采样、采样频率采样、采样频率采样、采样频率采样、采样频率采样是将连续变化的模拟音频信号变成计算机能处理的采样是将连续变化的模拟音频信号变
26、成计算机能处理的离散化数字信号的第一步。离散化数字信号的第一步。每隔一定时间,对模拟音频信号的幅值进行采样测试,每隔一定时间,对模拟音频信号的幅值进行采样测试,得到离散的幅值,并用该值表示两次采样之间的模拟幅得到离散的幅值,并用该值表示两次采样之间的模拟幅值。单位时间采样的次数称为采样频率。值。单位时间采样的次数称为采样频率。采样频率越高,所得到的离散幅值的数据点就越逼近于采样频率越高,所得到的离散幅值的数据点就越逼近于连续音频信号,同时采样所得到的数据量也越大。多媒连续音频信号,同时采样所得到的数据量也越大。多媒体电脑中支持的采样频率通常为体电脑中支持的采样频率通常为44.1kHz、22.0
27、5kHz 及及11.025 kHz。多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University 量量量量 化化化化采样所得到的数据是一定的离散值,将这些离散值用若采样所得到的数据是一定的离散值,将这些离散值用若干二进制的位来表示,这一过程称为量化干二进制的位来表示,这一过程称为量化用用8位二进制表示十进制整数,只能表示出位二进制表示十进制整数,只能表示出0255之间之间的整数值。也就是的整数值。也就是256个量化级。量化级对应的二进制个量化级。量化级对应的二进
28、制位数称为位数称为量化位数量化位数。虽然量化位数越多,对原始波形的。虽然量化位数越多,对原始波形的模拟越细腻,声音的音质就越好,但数据量也越大。模拟越细腻,声音的音质就越好,但数据量也越大。量化即是将采样所得到的信号振幅值用一组二进制脉冲量化即是将采样所得到的信号振幅值用一组二进制脉冲序列来表示。离散化的数据经量化变成二进制表示一般序列来表示。离散化的数据经量化变成二进制表示一般会损失一些精度,这主要是因为计算机只能表示有限的会损失一些精度,这主要是因为计算机只能表示有限的数值。数值。多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁
29、波大学宁波大学 Ningbo UniversityNingbo University在多媒体电脑中,要对音频进行处理,必须在在多媒体电脑中,要对音频进行处理,必须在PC机上添加机上添加一块声卡。一块声卡。声卡声卡是多媒体升级套件中的核心部件之一,是多媒体升级套件中的核心部件之一,其其外形与插在计算机主机箱内的其他硬件插板相仿,也是一外形与插在计算机主机箱内的其他硬件插板相仿,也是一块可以插在扩展槽内的电路板,但包含有完成音频处理功块可以插在扩展槽内的电路板,但包含有完成音频处理功能的电子元件。能的电子元件。声卡声卡通过一秒内对声音进行上千次的采样、阅读,把模拟通过一秒内对声音进行上千次的采样、
30、阅读,把模拟声波转换成数字信息、数字化的声音存储波形文件中。当声波转换成数字信息、数字化的声音存储波形文件中。当声音被记录时,声卡中的模声音被记录时,声卡中的模/数转换器把模拟声波转换成数数转换器把模拟声波转换成数字数据;当声音重放时,声卡中的数字数据;当声音重放时,声卡中的数/模转换器把波形文件模转换器把波形文件里的数字数据变成模拟波形输出。里的数字数据变成模拟波形输出。声音的压缩声音的压缩声音的压缩声音的压缩多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo Unive
31、rsity多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University声音文件所需的存储空间可用下式来计算:声音文件所需的存储空间可用下式来计算:采样率越大,数字信号越接近模拟信号,但所要求的存储采样率越大,数字信号越接近模拟信号,但所要求的存储空间也越大。空间也越大。量化位数越大,所得的量化值越接近原始波形采样值,但量化位数越大,所得的量化值越接近原始波形采样值,但所要求的信息存储量也越大。所要求的信息存储量也越大。双声道立体声比单声道的声音逼真丰富,双声道立
32、体声比单声道的声音逼真丰富,但需要成倍于单但需要成倍于单声道的信息容量。声道的信息容量。以以16位位、22.05 kHz的频率录制的频率录制1分钟分钟的立体声,所需存储的立体声,所需存储空间为空间为5.292 MB。如果录制如果录制1小时小时的立体声。其所要求的存储空间为的立体声。其所要求的存储空间为605.292=317.52 MB。多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University 声音压缩通常采用声音压缩通常采用有损压缩有损压缩的方式进行,主要用
33、在重的方式进行,主要用在重构的构的信号不必要与原始信号完全相同信号不必要与原始信号完全相同的场合。这种压缩采的场合。这种压缩采取在压缩的过程中丢掉某些不致对原始数据产生误解的信取在压缩的过程中丢掉某些不致对原始数据产生误解的信息,以大大提高压缩比。息,以大大提高压缩比。从第一个音频编码方法产生到现在,出现了很多的压从第一个音频编码方法产生到现在,出现了很多的压缩编码方法。可以将他们分为三类:缩编码方法。可以将他们分为三类:波形编码波形编码、参数编码参数编码和和混合编码。混合编码。多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学
34、宁波大学 Ningbo UniversityNingbo University波形编码波形编码基于对语音信号波形的数字化处理,试图使处理后重建的语音信号波形基于对语音信号波形的数字化处理,试图使处理后重建的语音信号波形与原语音信号波形保持一致。与原语音信号波形保持一致。优点优点:实现简单、语音质量好、适应性强,有成熟的技术实现方法;实现简单、语音质量好、适应性强,有成熟的技术实现方法;缺点缺点:压缩程度不高、实现的码速率较高,码率低于压缩程度不高、实现的码速率较高,码率低于32kbit/s32kbit/s时音质时音质 降低明显,降低明显,16kbit/s16kbit/s时音质就非常差了。时音质
35、就非常差了。常见方法常见方法:脉冲编码调制(:脉冲编码调制(PCMPCM)、增量调制()、增量调制(DMDM)、差值脉冲编码调)、差值脉冲编码调制(制(DPCMDPCM)、自适应差分脉冲编码调制()、自适应差分脉冲编码调制(ADPCMADPCM)、子带编码()、子带编码(SBCSBC)和)和矢量量化编码(矢量量化编码(VQVQ)等。)等。编码信号的速率计算:编码速率采样频率编码信号的速率计算:编码速率采样频率编码比特数编码比特数播放某音频信号所需存储量播放时间播放某音频信号所需存储量播放时间速率速率88(字节)(字节)多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信
36、息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University 参数编码参数编码参数编码参数编码通过构造发声模型作为基础,用一套模拟声带频谱特性的滤波器系数和通过构造发声模型作为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各个特若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各个特征参量并进行量化编码,以实现语音信息的数字化。征参量并进行量化编码,以实现语音信息的数字化。优点优点:语音编码速率较低(:语音编码速率较低(29.6kbit/s),压缩比特率低;),压缩比特率低;缺点
37、缺点:合成语音质量较差,实现的复杂度高。:合成语音质量较差,实现的复杂度高。典型代表典型代表:线性预测编码器(:线性预测编码器(LPC)语声信号产生模型语声信号产生模型周期性信号周期性信号随机性信号随机性信号基音周期基音周期Tp浊音浊音清音清音线性时变线性时变滤波器滤波器合成语音合成语音信号输出信号输出C(n)u(n)v(n)G增益控制增益控制时变参数时变参数ai多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University混和编码混和编码混和编码混和编码波形编码
38、:保真度好,计算量小,但编码后速率高;波形编码:保真度好,计算量小,但编码后速率高;参数编码:码速率较低,但保真度欠佳,计算复杂。参数编码:码速率较低,但保真度欠佳,计算复杂。波形编码与参数编码结合波形编码与参数编码结合混和编码:克服弱点,结合优点混和编码:克服弱点,结合优点压缩比特率:压缩比特率:4 416kbit/s16kbit/s编码器:多脉冲激励线性预测编码器(编码器:多脉冲激励线性预测编码器(MPE-LPCMPE-LPC)、规则脉冲激励线性)、规则脉冲激励线性预测编码器(预测编码器(RPE-LPCRPE-LPC)、码激励线性预测编码器()、码激励线性预测编码器(CELPCELP)、矢
39、量和激)、矢量和激励线性预测编码器(励线性预测编码器(VSELPVSELP)和多带激励线性预测编码器。)和多带激励线性预测编码器。与与参数编码参数编码的的差别差别:信号激励源得选取更加精细:信号激励源得选取更加精细通过调整激励信号通过调整激励信号使语音输入信号与重构的语音信号误差最小(合成分析法)。使语音输入信号与重构的语音信号误差最小(合成分析法)。多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University三种压缩编码的性能比较三种压缩编码的性能比较三种压缩
40、编码的性能比较三种压缩编码的性能比较24616832kbit/s 主观主观音质评价音质评价 混和法混和法 参数法参数法 波形法波形法54321多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University1.1.差值脉冲编码调制差值脉冲编码调制2.2.对相邻样值的差值进行量化编码对相邻样值的差值进行量化编码3.3.预测表达式预测表达式4.4.关键关键:预测系数的获得:预测系数的获得使预测估值的均方差为最小的预测系使预测估值的均方差为最小的预测系数数5.5.自适应差
41、值脉冲编码调制自适应差值脉冲编码调制6.6.自适应量化自适应量化:使量化间隔的变化与输入语声信号的方差相匹使量化间隔的变化与输入语声信号的方差相匹配配7.7.自适应预测自适应预测2.2.线性预测编码线性预测编码语声激励信号:语声激励信号:浊音信号浊音信号(准周期脉冲序列准周期脉冲序列)+)+清音信号清音信号(白色随机噪声白色随机噪声)虽然码速率低,但在噪声环境下语音质量不好,现已被淘汰。虽然码速率低,但在噪声环境下语音质量不好,现已被淘汰。常用压缩编码方法常用压缩编码方法常用压缩编码方法常用压缩编码方法多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院
42、宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University3.3.矢量量化编码:将输入信号样值按某种方式分组(矢量),并量化矢量量化编码:将输入信号样值按某种方式分组(矢量),并量化理论基础理论基础:香农率失真理论:香农率失真理论基本原理基本原理:用码书中与输入矢量最匹配的码字的索引(下标)代替输:用码书中与输入矢量最匹配的码字的索引(下标)代替输 入矢量进行传输和存储,解码时只需简单的查表操作。入矢量进行传输和存储,解码时只需简单的查表操作。关键技术关键技术:码书设计、码字搜索、码字(下标)索引分配。:码书设计、码字搜索、码字(下标)索引分配。应用
43、应用:中速率和低速率语音编码、:中速率和低速率语音编码、G.728G.728、G.729G.7294.4.子带编码子带编码基本思想基本思想:将输入信号分解为若干子频带,然后对各子带分量根据其不:将输入信号分解为若干子频带,然后对各子带分量根据其不同的统计特性采取不同的压缩策略,以降低码率。同的统计特性采取不同的压缩策略,以降低码率。子带划分依据子带划分依据:话音信号自身特性:话音信号自身特性优点优点:不仅可以很好地控制各个子带的量化电平数,还可以很好地控:不仅可以很好地控制各个子带的量化电平数,还可以很好地控 制在重建信号时的量化误差方差值,进而获得更好的主观听音质量。制在重建信号时的量化误差
44、方差值,进而获得更好的主观听音质量。相对独立的量化噪声被束缚在各自子带内,互不影响。相对独立的量化噪声被束缚在各自子带内,互不影响。各个子带的采样频率大大降低。各个子带的采样频率大大降低。多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University5.5.感知编码感知编码基本原理基本原理:以人类听觉系统的心理声学为基础,只记录能够被人耳:以人类听觉系统的心理声学为基础,只记录能够被人耳感觉到的声音,从而达到压缩数据量的目的。感觉到的声音,从而达到压缩数据量的目的
45、。理论基础理论基础:基于人耳的闻域、临界频段和掩蔽效应。:基于人耳的闻域、临界频段和掩蔽效应。人耳对不同频段声音的反应灵敏度有差异,在编码时,对被掩人耳对不同频段声音的反应灵敏度有差异,在编码时,对被掩蔽的弱音不进行编码即达数据压缩的目的。蔽的弱音不进行编码即达数据压缩的目的。应用应用:MPEG-1MPEG-1、MPEG-2MPEG-2、AV-3AV-3多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo University音频信息压缩编码标准音频信息压缩编码标准音频信息压
46、缩编码标准音频信息压缩编码标准标准的描述对象:编码速率、编码的压缩算法、编码器结构、话音质量标准的描述对象:编码速率、编码的压缩算法、编码器结构、话音质量以及彼此的关系。以及彼此的关系。目标:用尽可能低的数码率来获得尽可能好的合成语音质量。目标:用尽可能低的数码率来获得尽可能好的合成语音质量。G.711、G.721、G.722 波形编码标准波形编码标准波形编码标准波形编码标准多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityG.711 针对针对50Hz
47、到到3.2kHz的语音信号进行的语音信号进行A律律 和和 律律PCM编码,编码,属属于非均匀量化。于非均匀量化。式中:式中:x为输入信号幅度,规格化成为输入信号幅度,规格化成-1 x 1;律律主要用在北美和日本等地区的数字电话通信中,按下面的主要用在北美和日本等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系:式子确定量化输入和输出的关系:A律主要用在欧洲和中国大陆等地区的数字电话通信中,按下律主要用在欧洲和中国大陆等地区的数字电话通信中,按下面的式子确定量化输入和输出的关系:面的式子确定量化输入和输出的关系:0 0|x|x|1/A 1/A1/A 1/A|x|x|1 1式中:式中:x
48、为输入信号幅度,规格化成为输入信号幅度,规格化成-1 x 1;多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityG.721 一个代码转换系统。它使用一个代码转换系统。它使用ADPCM转换技术,实现转换技术,实现64 kb/s A律或律或律律PCM速率和速率和32 kb/s速率之间的相互转换。速率之间的相互转换。ADPCM编码器编码器 多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波
49、大学 Ningbo UniversityNingbo UniversityG.722 一种高质量语音信号的压缩标准。取样频率为一种高质量语音信号的压缩标准。取样频率为16kHz,每个样值量化到每个样值量化到14b,采用子带编码和,采用子带编码和ADPCM进行压缩编码。进行压缩编码。7 kHz音频信号音频信号64 kb/s数据率的编译码方块图数据率的编译码方块图多媒体通信技术:音频编码技术多媒体通信技术:音频编码技术信息科学与工程学院信息科学与工程学院宁波大学宁波大学宁波大学宁波大学 Ningbo UniversityNingbo UniversityG.728 该标准利用低延时码本激励线性预测
50、该标准利用低延时码本激励线性预测LD-CELP方法将一方法将一般语音信号压缩至般语音信号压缩至16Kb/s。CELP编码综合了编码综合了波形编码波形编码和和参数编码参数编码,还采用,还采用矢量量化矢量量化的压缩算法。的压缩算法。CELP实际上是一个闭环实际上是一个闭环LPC系统,由输入语音信号确定系统,由输入语音信号确定最佳参数,再根据某种最小误差准则从码本中找出最佳激励最佳参数,再根据某种最小误差准则从码本中找出最佳激励码本矢量。码本矢量。CELP具有较强的抗干扰能力,在具有较强的抗干扰能力,在4 16kbit/s传输传输速率下,即可获得较高质量的语音信号。速率下,即可获得较高质量的语音信号