语音处理的基本知识讲稿.ppt-淘文阁

资源描述

《语音处理的基本知识讲稿.ppt》由会员分享，可在线阅读，更多相关《语音处理的基本知识讲稿.ppt（92页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、关于语音处理的基本知识第一页，讲稿共九十二页哦音频处理技术的研究意义音频处理技术的研究意义声音声音(音频音频)是信息交流的一种主要手段，是数字媒体是信息交流的一种主要手段，是数字媒体信息的重要组成部分；信息的重要组成部分；信息技术、计算机技术和网络技术的迅猛发展，使音频信息技术、计算机技术和网络技术的迅猛发展，使音频处理技术受到重视并得到广泛应用，需求也日益多样。处理技术受到重视并得到广泛应用，需求也日益多样。第二页，讲稿共九十二页哦2.1 2.1 数字音频基础数字音频基础n声音的物理描述声音的物理描述n产生原理产生原理n物理特性物理特性n听觉特性听觉特性n声音信号数字化声音信号数字化n声音质

2、量评价声音质量评价第三页，讲稿共九十二页哦（1 1）声音简介）声音简介音频信号音频信号n声音是听觉器官对声波的感知，人们之所以能听到声音是听觉器官对声波的感知，人们之所以能听到各种声音，是因为不同频率的声波通过空气产生振各种声音，是因为不同频率的声波通过空气产生振动，对人耳刺激的结果。动，对人耳刺激的结果。n声波是声源产生的，通过空气或其他媒体传播声波是声源产生的，通过空气或其他媒体传播的连续振动的波。的连续振动的波。n因声波是在时间和幅度上都连续变化的量，声波是因声波是在时间和幅度上都连续变化的量，声波是一种连续变化的模拟信号，可用一条连续的曲线来一种连续变化的模拟信号，可用一条连续的曲线来

3、表示，称为表示，称为声波声波，或者叫做，或者叫做音频信号音频信号。第四页，讲稿共九十二页哦（1 1）声音简介）声音简介n用函数关系表示模拟声波时，它是在时间和幅用函数关系表示模拟声波时，它是在时间和幅度上都是连续的一维模拟信号，如图度上都是连续的一维模拟信号，如图1所示所示图图1 1 声音是一种连续的波声音是一种连续的波第五页，讲稿共九十二页哦（1 1）声音简介）声音简介模拟音频信号基本参数：频率和幅度。模拟音频信号基本参数：频率和幅度。音频信号的幅度是从信号的基线到当前波峰的距离。幅度决定音频信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大，声音越强。一般用

4、声压了信号音量的强弱程度。幅度越大，声音越强。一般用声压（达因平方厘米）或声强（瓦特平方厘米）。（达因平方厘米）或声强（瓦特平方厘米）。声源每秒钟可产生成百上千个波峰，每秒钟波峰所发生的数目就声源每秒钟可产生成百上千个波峰，每秒钟波峰所发生的数目就是音频信号的频率，声音的频率体现音调的高低。是音频信号的频率，声音的频率体现音调的高低。声音的强弱体现在声波压力的大小上，音调的声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。高低体现在声音的频率上。第六页，讲稿共九十二页哦（1 1）声音简介）声音简介声音的量化参数：声音的量化参数：强度：强度：dB 动物的呼吸声大约为动物的呼吸声大约

5、为20dB，人们正常谈话的声音约为，人们正常谈话的声音约为60dB，汽，汽车鸣笛的声音约为车鸣笛的声音约为100dB，飞机起飞的声音约为，飞机起飞的声音约为120dB，超过，超过120dB会使人感到痛苦。会使人感到痛苦。频率：频率：Hz 高保真声音高保真声音(high-fidelity audio):10 20 000 Hz 声音声音(audio):20 20 000Hz 话音话音(speech):3003000/3400 Hz 亚音亚音/次音次音(subsonic):20 000 Hz相位相位:波的位置。波的位置。复杂的声音是由多个不同振幅、频率、相位的正弦波组成复杂的声音是由多个不同振幅、

6、频率、相位的正弦波组成第七页，讲稿共九十二页哦（1 1）声音简介）声音简介n声音的听觉特性：声音的听觉特性：n目前主要研究人的心理声学和语言声学特性。目前主要研究人的心理声学和语言声学特性。n听觉心理的主观感受包括：响度、音高、听觉心理的主观感受包括：响度、音高、音色、音量、噪声、听觉掩蔽、定位等。音色、音量、噪声、听觉掩蔽、定位等。第八页，讲稿共九十二页哦（1 1）声音简介）声音简介n对响度的感知对响度的感知声音的响度就是声音的强弱声音的响度就是声音的强弱在物理上，用在物理上，用dyn/cm2(达因达因/平方厘米平方厘米)(声压声压)或或W/cm2(瓦特瓦特/平方厘米平方厘米)(声强声强)度

7、量度量在心理上，主观感觉的声音强弱使用响度级在心理上，主观感觉的声音强弱使用响度级“方方(phon)”或或“宋宋(sone)”来度量来度量这两种计量单位完全不同，但它们之间有一定的联这两种计量单位完全不同，但它们之间有一定的联系系人耳的听觉范围人耳的听觉范围n听阈：当声音弱到人耳朵刚可听见时的声音强度听阈：当声音弱到人耳朵刚可听见时的声音强度n痛域：声音强到使人耳感到疼痛时的声音强度痛域：声音强到使人耳感到疼痛时的声音强度n听觉范围：位于听阈和痛域之间，见图听觉范围：位于听阈和痛域之间，见图2 第九页，讲稿共九十二页哦（1 1）声音简介）声音简介图图2 2“听阈听阈频率频率”曲线和曲线和“痛阈

8、痛阈频率频率”曲线曲线第十页，讲稿共九十二页哦（1 1）声音简介声音简介n对音高对音高(频率频率)的感知的感知n客观上用频率表示声音的音高，其单位是客观上用频率表示声音的音高，其单位是Hz。而主观感觉的音高单位则是而主观感觉的音高单位则是“美美(Mel)”。Hz和和Mel不同但有联系不同但有联系n主观音高与客观音高的关系为主观音高与客观音高的关系为其中，其中，f 的单位为的单位为HzHz，人耳对频率的感知范围，可以听到人耳对频率的感知范围，可以听到最低频率约最低频率约20 Hz最高频率约最高频率约20000 Hz 第十一页，讲稿共九十二页哦（1 1）声音简介声音简介n测量主观音高时，让实验者听

9、两个声强级为测量主观音高时，让实验者听两个声强级为40dB的纯音，固定其的纯音，固定其中一个纯音的频率，调节另一个纯音的频率，直到他感到后者的中一个纯音的频率，调节另一个纯音的频率，直到他感到后者的音高为前者的两倍，就标定这两个声音的音高差为两倍。测出的音高为前者的两倍，就标定这两个声音的音高差为两倍。测出的“音高音高频率频率”曲线见图曲线见图3 图图3 3“音高音高频率频率”曲线曲线第十二页，讲稿共九十二页哦（1 1）声音简介）声音简介n掩蔽效应掩蔽效应n一种频率的声音阻碍听觉系统感受另一种频一种频率的声音阻碍听觉系统感受另一种频率的声音的现象率的声音的现象n前者称为掩蔽声音前者称为掩蔽声音

10、(masking tone)n后者称为被掩蔽声音后者称为被掩蔽声音(masked tone)n掩蔽可分成频域掩蔽和时域掩蔽掩蔽可分成频域掩蔽和时域掩蔽第十三页，讲稿共九十二页哦（1 1）声音简介声音简介图图4 4 频域掩蔽频域掩蔽频域掩蔽频域掩蔽一个强纯音掩蔽在其附近同时发声的弱纯音的特性，也称同一个强纯音掩蔽在其附近同时发声的弱纯音的特性，也称同时掩蔽时掩蔽(simultaneous masking),如图如图4所示所示第十四页，讲稿共九十二页哦（1 1）声音简介）声音简介n图图5中的一组曲线表示为中的一组曲线表示为250 Hz，1 kHz和和4 kHz纯纯音的掩蔽效应，它们的声强均为音的

11、掩蔽效应，它们的声强均为60 dBn250 Hz，1 kHz和和4 kHz附近，对其他纯音的掩蔽效果最明附近，对其他纯音的掩蔽效果最明显显n低频纯音可有效地掩蔽高频纯音，相反则不明显低频纯音可有效地掩蔽高频纯音，相反则不明显图图5 5 不同纯音的掩蔽效应曲线不同纯音的掩蔽效应曲线第十五页，讲稿共九十二页哦（1 1）声音简介）声音简介n时域掩蔽时域掩蔽n在时间上相邻的声音之间的掩蔽现象在时间上相邻的声音之间的掩蔽现象n一个强掩蔽音出现前、同时存在时或消失后的掩蔽效一个强掩蔽音出现前、同时存在时或消失后的掩蔽效果产生时域掩蔽的主要原因果产生时域掩蔽的主要原因n人的大脑处理信息需要花费一定的时间人

12、的大脑处理信息需要花费一定的时间第十六页，讲稿共九十二页哦（1 1）声音简介）声音简介n同时掩蔽同时掩蔽(simultaneous masking)：信号和掩蔽音同时产生：信号和掩蔽音同时产生的现象的现象n滞后掩蔽滞后掩蔽(post-masking)：信号出现在掩蔽音消失后出现的现象，：信号出现在掩蔽音消失后出现的现象，可以持续可以持续50200 ms n超前掩蔽超前掩蔽(pre-masking)：信号出现在掩蔽音出现之前产生的现象。：信号出现在掩蔽音出现之前产生的现象。虽然对超前掩蔽有许多研究报告，但这种现象依然令人费解。超前掩蔽虽然对超前掩蔽有许多研究报告，但这种现象依然令人费解。超前掩蔽

13、很短，通常只有大约很短，通常只有大约220 ms，第十七页，讲稿共九十二页哦（1 1）声音简介）声音简介n临界频带临界频带(critical band)n当噪声掩蔽纯音时，起作用的是以纯音频率为中心频率的一定频带宽度内的噪声频率。如这频带内的噪声功率等于在噪声中刚能听到的该纯音的功率，则这频带就称为听觉临界听觉临界频带频带。n临界频带表征了人类最主要的听觉特性,它是在研究纯音对窄带噪声掩蔽量的规律时被发现的,在加宽噪声带宽时,最初是掩蔽量增大,但带宽超过某一定值后,掩蔽量就不再增加,这一带宽就称为临界频带临界频带。n通常认为声音(audio)有25个临界频带，见表n临界频带的宽度随声音频率的变

14、化而变化第十八页，讲稿共九十二页哦（1 1）声音简介）声音简介第十九页，讲稿共九十二页哦（2 2）模拟音频的数字化模拟音频的数字化数字化的概念数字化的概念n如果要用计算机对音频信息进行处理，则首先要通过如果要用计算机对音频信息进行处理，则首先要通过A/D（模（模/数）转换将模拟音频信号变成数字信号，实现音频信数）转换将模拟音频信号变成数字信号，实现音频信号的数字化。号的数字化。n数字化的声音易于用计算机软件处理，现在几乎所有的数字化的声音易于用计算机软件处理，现在几乎所有的专业化声音录制器、编辑器都是数字的。专业化声音录制器、编辑器都是数字的。n对模拟音频的数字化过程涉及到音频的对模拟音频的数

15、字化过程涉及到音频的采样、量化和编码采样、量化和编码。n当需要播放数字音频时，按照相反过程还原回模拟音频当需要播放数字音频时，按照相反过程还原回模拟音频第二十页，讲稿共九十二页哦声音信号的数字化过程声音信号的数字化过程模拟模拟声音声音信号信号采样采样量量化化编编码码数字数字声音声音011010011101第二十一页，讲稿共九十二页哦（a）采样和量化采样和量化连续时间的离散化通过采样来实现，就是每隔相等的一段连续时间的离散化通过采样来实现，就是每隔相等的一段时间采样一次，这种采样称为均匀采样时间采样一次，这种采样称为均匀采样连续幅度的离散化通过量化连续幅度的离散化通过量化(quantizat

16、ion)来实现，就是来实现，就是把信号的强度划分成一小段一小段，如果幅度的划分是等把信号的强度划分成一小段一小段，如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化。间隔的，就称为线性量化，否则就称为非线性量化。第二十二页，讲稿共九十二页哦图图7 7 声音的采样、量化、编码声音的采样、量化、编码第二十三页，讲稿共九十二页哦（2 2）模拟音频的数字化模拟音频的数字化n影响数字音频质量的因素：影响数字音频质量的因素：n采样精度采样精度n采样频率采样频率n声道个数声道个数第二十四页，讲稿共九十二页哦（2 2）模拟音频的数字化模拟音频的数字化采样频率采样频率采样频率由根据奈奎斯特理论采样频

17、率由根据奈奎斯特理论(Nyquist theory)确定确定奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音，这叫做无损数这样就能把以数字表达的声音还原成原来的声音，这叫做无损数字化字化(lossless digitization)假设被采样信号的最高频率为假设被采样信号的最高频率为fmax，则采样定律可用公式，则采样定律可用公式表示为表示为第二十五页，讲稿共九十二页哦（2 2）模拟音频的数字化模拟音频的数字化n采样精度采样精度n度量声音波形幅度的精确程度，用每个声音样本的位度量声音波

18、形幅度的精确程度，用每个声音样本的位数表示数表示n例如每个声音样本用例如每个声音样本用16位表示，测得的声音样本值是在位表示，测得的声音样本值是在065535范围里的数，它的精度是范围里的数，它的精度是1/65536n精度是在模拟信号数字化过程中度量模拟信号的最小单位，因此也称精度是在模拟信号数字化过程中度量模拟信号的最小单位，因此也称量化阶量化阶(quantization step size)n01 V的电压用的电压用256个数表示时，量化阶等于个数表示时，量化阶等于1/256 Vn样本位数的大小影响到声音的质量，位数越多，声音质样本位数的大小影响到声音的质量，位数越多，声音质量越高，所需存

19、储空间也越多；位数越少，声音质量就量越高，所需存储空间也越多；位数越少，声音质量就越低，所需存储空间也越少越低，所需存储空间也越少第二十六页，讲稿共九十二页哦（2 2）模拟音频的数字化模拟音频的数字化n声音质量和数据率声音质量和数据率质量度量质量度量质量质量采样频率采样频率(kHz)样本精度样本精度(bit/s)单道声单道声/立立体声体声(未压缩的未压缩的)数据率数据率(kb/s)频率范围频率范围(Hz)电话电话*88单道声单道声64.0 2003 400AM11.0258单道声单道声88.22015000FM22.05016立体声立体声705.6507000CD44.116立体声立体声14

20、11.22020000DAT4816立体声立体声1536.02020000第二十七页，讲稿共九十二页哦（b b）编码）编码所谓编码，就是按照一定的格式把经过采样和量化得到的所谓编码，就是按照一定的格式把经过采样和量化得到的离散数据记录下来，用二进制数据表示，以后续达到可以形成离散数据记录下来，用二进制数据表示，以后续达到可以形成数据文件进行存储的目的。并在有效的数据中加入一些用于纠数据文件进行存储的目的。并在有效的数据中加入一些用于纠错同步和控制的数据。在数据回放时，可以根据所记录的纠错错同步和控制的数据。在数据回放时，可以根据所记录的纠错数据判别读出的声音数据是否有错，如果有错，可加以纠正

21、。数据判别读出的声音数据是否有错，如果有错，可加以纠正。音频信号编码常用的是音频信号编码常用的是波形编码波形编码方法，它是直接对波形方法，它是直接对波形采样、量化和编码，算法简单，易于实现。而且，声音恢采样、量化和编码，算法简单，易于实现。而且，声音恢复时能保持原有的特点，因此被广泛应用。复时能保持原有的特点，因此被广泛应用。此外还有此外还有参数编码、混合编码参数编码、混合编码等。等。（2 2）模拟音频的数字化模拟音频的数字化第二十八页，讲稿共九十二页哦编码方法编码方法（1）PCM（Pulse Code Modulation）脉冲编码调制）脉冲编码调制nPCM简称脉码调制，可以直接对声音信号做

22、简称脉码调制，可以直接对声音信号做A/D转换，用一组转换，用一组二进制数字编码表示，得到的是未经压缩的音频数据。这是一种二进制数字编码表示，得到的是未经压缩的音频数据。这是一种最常用、最简单的编码方法。最常用、最简单的编码方法。nPCM编码方法不需要复杂的信号处理技术就能实现瞬时的数据的量编码方法不需要复杂的信号处理技术就能实现瞬时的数据的量化和还原，而且信噪比高。化和还原，而且信噪比高。n在解码后恢复的声音，只要采样频率足够高，量化位数足在解码后恢复的声音，只要采样频率足够高，量化位数足够多，就会有很好的质量。但是，这种对声音信号直接量化够多，就会有很好的质量。但是，这种对声音信号直接量化的

23、方法编码数据量很大，需要很高的传输速率。的方法编码数据量很大，需要很高的传输速率。第二十九页，讲稿共九十二页哦编码方法编码方法PCM是概念上最简单、理论上最完善、最早研制成功、使用是概念上最简单、理论上最完善、最早研制成功、使用最为广泛、数据量最大的编码系统。最为广泛、数据量最大的编码系统。目前的声卡一般都具有目前的声卡一般都具有PCM编码和解码的功能。激光唱编码和解码的功能。激光唱盘（盘（CD-DA）记录声音时就采用这种方法，存储未经压缩的数）记录声音时就采用这种方法，存储未经压缩的数字音频信号。字音频信号。第三十页，讲稿共九十二页哦编码方法编码方法算法思想：首先对音频信号进行算法思想：首先

24、对音频信号进行律或律或A律压扩，也就是放律压扩，也就是放大小信号，抑制大信号，然后进行均匀量化，等效于对小信号进大小信号，抑制大信号，然后进行均匀量化，等效于对小信号进行小量化级量化，对大信号进行大量化级量化，使大小信号的量行小量化级量化，对大信号进行大量化级量化，使大小信号的量化信噪比趋于接近，从而避免了小信号产生较大的量化噪声误差，化信噪比趋于接近，从而避免了小信号产生较大的量化噪声误差，而大信号却有不必要的高量化信噪比。而大信号却有不必要的高量化信噪比。第三十一页，讲稿共九十二页哦编码方法编码方法脉冲编码调制(PCM)n输入是模拟信号，输出是输入是模拟信号，输出是PCM样本。样本。n防失

25、真滤波器：低通滤波器，用来滤除声音频带以外的信号防失真滤波器：低通滤波器，用来滤除声音频带以外的信号n波形编码器：可理解为采样器波形编码器：可理解为采样器n量化器：可理解为量化器：可理解为“量化阶大小量化阶大小(step-size)”生成器或者称为生成器或者称为“量化间隔量化间隔”生成器。生成器。nPCM实际上是模拟信号数字化。实际上是模拟信号数字化。第三十二页，讲稿共九十二页哦量化的方法量化的方法:均匀量化、非均匀量化均匀量化、非均匀量化n均匀量化均匀量化n采用相等的量化间隔采用相等的量化间隔/等分尺度量采样得到的信号等分尺度量采样得到的信号幅度，也称为线性量化。量化后的样本值幅度，也称为线

26、性量化。量化后的样本值Y和原始值和原始值X的差的差E=Y-X称为量化误差或量化噪声。称为量化误差或量化噪声。均匀量化编码方法编码方法第三十三页，讲稿共九十二页哦编码方法编码方法n非均匀量化非均匀量化n大的输入信号采用大大的输入信号采用大的量化间隔，小的输入的量化间隔，小的输入信号采用小的量化间隔信号采用小的量化间隔n可在满足精度要求的可在满足精度要求的情况下用较少的位数来情况下用较少的位数来表示表示n声音数据还原时，采声音数据还原时，采用相同的规则用相同的规则非均匀量化第三十四页，讲稿共九十二页哦编码方法编码方法DPCM（Differential Pulse Code Modulation）

27、差分脉冲编码调制）差分脉冲编码调制 DPCM编码是利用音频信号的相关性，通过只传输声音的编码是利用音频信号的相关性，通过只传输声音的预测值和样本值的差值来降低音频数据的编码率的一种方法。预测值和样本值的差值来降低音频数据的编码率的一种方法。它采用预测编码技术，实现音频数据的压缩编码。它采用预测编码技术，实现音频数据的压缩编码。因为音频信号一般不会发生突然变化，相邻的语音采样值因为音频信号一般不会发生突然变化，相邻的语音采样值之间存在很大的相关性，从一个采样值到相邻的另一个采样值之间存在很大的相关性，从一个采样值到相邻的另一个采样值的差值要比样值本身小得多。利用预测编码方法建立预测模型，的差值要

28、比样值本身小得多。利用预测编码方法建立预测模型，通过预测器对未来的样本进行预测，然后对样本值与预测器得通过预测器对未来的样本进行预测，然后对样本值与预测器得到的预测值之差进行量化和传输。到的预测值之差进行量化和传输。由于这个差值的幅度远远由于这个差值的幅度远远小于样本值本身，需要较少的比特数来表示，这样可以降低小于样本值本身，需要较少的比特数来表示，这样可以降低数据的编码率，从而使编码数据得到压缩。数据的编码率，从而使编码数据得到压缩。第三十五页，讲稿共九十二页哦编码方法编码方法ADPCM（Adaptive Differential Pulse Code Modulation）自适应差分编码调

29、制）自适应差分编码调制在实际使用中，由于输入信号的不稳定性，造成在实际使用中，由于输入信号的不稳定性，造成DPCM方法方法的信噪比大大降低。因此在的信噪比大大降低。因此在DPCM编码中加入自适应的方法，编码中加入自适应的方法，就形成了自适应差分编码调制（就形成了自适应差分编码调制（ADPCM）方案。所以，）方案。所以，ADPCM是对是对DPCM方法的改进，通过调整量化步长，方法的改进，通过调整量化步长，对不同的频对不同的频段设置不同的量化字长段设置不同的量化字长，可使数据得到进一步压缩。，可使数据得到进一步压缩。ADPCM压缩方案压缩倍率可达压缩方案压缩倍率可达25倍，信噪比高，性能倍，信噪

30、比高，性能优越，因此，多媒体计算机所获得的数字化的声音信息大都采用优越，因此，多媒体计算机所获得的数字化的声音信息大都采用此压缩方法。此压缩方法。MPC的音频卡也提供有的音频卡也提供有ADPCM算法，如将算法，如将16位位的采样值压缩成的采样值压缩成4位，将位，将8位的采样值压缩成位的采样值压缩成4位、位、3位或位或2位。位。第三十六页，讲稿共九十二页哦音频信号编码音频信号编码算法算法名称名称码速率码速率标准标准应用应用波形波形编码编码PCMPCM压扩压扩64kbps64kbpsG G711711电话、公共网电话、公共网ADPCMADPCM自适应差分量化自适应差分量化32kbps32kbpsG

31、 G721721SB-ADPCMSB-ADPCM子带子带-自适应差分量自适应差分量化化64kbps64kbpsG G7227225.3kbps5.3kbps6.3kbps6.3kbpsG G723723参数参数编码编码LPCLPC线性预测编码线性预测编码2.4-2.4-16kbps16kbpsFS1015FS1015保密、保密、卫星通信卫星通信混合混合编码编码CELPCCELPC码激励码激励LPCLPC4.6kbps4.6kbpsIS95IS95移动通信移动通信VSELPVSELP矢量和激励矢量和激励LPCLPC8kbps8kbps语音邮件语音邮件LD-CELPLD-CELP低延时码激励低延时

32、码激励LPCLPC8kbps8kbpsG G729729移动通信移动通信MPEGMPEG多子带、感知编码多子带、感知编码128kbps128kbpsMPEG1MPEG1，2 2，H.261H.261DVDDVD、运动图像、运动图像伴音伴音第三十七页，讲稿共九十二页哦音频信号编码音频信号编码编码后形成二进制数据，就可以在计算机上进行编码后形成二进制数据，就可以在计算机上进行存储、传输和处理，即数字音频存储、传输和处理，即数字音频语音信号存在多种冗余度，可以进行压缩。语音信号存在多种冗余度，可以进行压缩。时域冗余度时域冗余度频域冗余度频域冗余度听觉特性冗余度听觉特性冗余度第三十八页，讲稿共九十二页

33、哦（3 3）声音质量的评价声音质量的评价数字音频信息的质量与存储量数字音频信息的质量与存储量n采样、量化和编码技术是音频数字化的关键技术。采样、量化和编码技术是音频数字化的关键技术。n而采样频率、每个采样值的量化位数以及音频信息的声而采样频率、每个采样值的量化位数以及音频信息的声道数目，是影响数字化音频信息质量和容量的三个重要因道数目，是影响数字化音频信息质量和容量的三个重要因素。素。n采样频率越高、量化为数越大、声道数目越多，音频的质量就采样频率越高、量化为数越大、声道数目越多，音频的质量就越高，但存储量就越大。越高，但存储量就越大。第三十九页，讲稿共九十二页哦（3 3）声音质量的评价）声音

34、质量的评价音频质量的评价音频质量的评价（a）客观质量的度量）客观质量的度量对声波的测量包括评价值的测量、声源的测量和音质的测量，其测对声波的测量包括评价值的测量、声源的测量和音质的测量，其测量与分析工作，是使用带计算机处理系统的高级声学测量仪器来完量与分析工作，是使用带计算机处理系统的高级声学测量仪器来完成。成。度量声音客观质量的一个主要指标是信噪比度量声音客观质量的一个主要指标是信噪比SNR（Signal to Noise Ration），信噪比是有用信号与噪声之比的简称，其单），信噪比是有用信号与噪声之比的简称，其单位是分贝（位是分贝（dB）。）。信噪比越大，声音质量越好。信噪比越大，声音

35、质量越好。第四十页，讲稿共九十二页哦（3 3）声音质量的评价）声音质量的评价音频质量的评价音频质量的评价（b）主观质量的度量）主观质量的度量采用客观标准方法很难真正评定编码器的质量，在实际采用客观标准方法很难真正评定编码器的质量，在实际评价中，主观的质量度量比客观质量的度量更为恰当和合理。评价中，主观的质量度量比客观质量的度量更为恰当和合理。主观的质量度量通常是对某编码器的输出的声音质量进行评主观的质量度量通常是对某编码器的输出的声音质量进行评价。价。度量方法类似于电视节目中的歌手比赛，由评委对每个歌手的表现进行评分，然后度量方法类似于电视节目中的歌手比赛，由评委对每个歌手的表现进行评分，然

36、后求出平均值。求出平均值。例如播放一段音乐，记录一段话，然后重放给一批实验者听，再由实验者例如播放一段音乐，记录一段话，然后重放给一批实验者听，再由实验者进行综合评定，得出平均判分（进行综合评定，得出平均判分（Mean Opnion Scose，MOS）。）。第四十一页，讲稿共九十二页哦主观平均分主观平均分(mean opinion score，MOS)对声音主观质量度量比较通用的标准是对声音主观质量度量比较通用的标准是5分制，各档次的分制，各档次的评分标准见表评分标准见表3-2 分数分数质量等级质量等级失真级别失真级别5优优(Excellent)无察觉无察觉4良良(Good)(刚刚)察觉但不

37、讨厌察觉但不讨厌3中中(Fair)(察觉察觉)有点讨厌有点讨厌2差差(Poor)讨厌但不反感讨厌但不反感1劣劣(Bad)极讨厌极讨厌(令人反感令人反感)第四十二页，讲稿共九十二页哦n声音质量的衡量方法声音质量的衡量方法n客观质量度量客观质量度量n用信噪比用信噪比(SNR)表示表示n主观质量度量主观质量度量n有时同时采取两种方法评估，有时以主观质有时同时采取两种方法评估，有时以主观质量度量为主量度量为主n声音带宽法声音带宽法n等级由高到低依次是等级由高到低依次是DAT、CD、FM、AM和数字电话和数字电话第四十三页，讲稿共九十二页哦2.2 2.2 数字音频压缩技术数字音频压缩技术n数据的冗余数据

38、的冗余n声音的压缩原理声音的压缩原理n声音的压缩分类声音的压缩分类n声音的压缩标声音的压缩标准准n数字音频格式数字音频格式第四十四页，讲稿共九十二页哦什么是音频压缩什么是音频压缩音频压缩技术指的是对原始数字音频信号流（如音频压缩技术指的是对原始数字音频信号流（如PCMPCM编编码）运用适当的数字信号处理技术，在不损失有用信息量，码）运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，以或所引入损失可忽略的条件下，降低（压缩）其码率，以减少数据量，也称为压缩编码。减少数据量，也称为压缩编码。它必须具有相应的逆变换，称为解压缩或解码。它必须具有相应的逆变

39、换，称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。噪声和一定的失真。第四十五页，讲稿共九十二页哦虽然表示数字音频需要大量的数据，但数字音频数虽然表示数字音频需要大量的数据，但数字音频数据是高度相关的，或者说存在冗余（据是高度相关的，或者说存在冗余（RedundancyRedundancy）信）信息，去掉这些冗余信息后可以有效压缩数据量，同时又息，去掉这些冗余信息后可以有效压缩数据量，同时又不会损害声音的有效信息。不会损害声音的有效信息。数据的冗余数据的冗余第四十六页，讲稿共九十二页哦数据压缩的基本原理数据压缩的基本

40、原理为了满足对数字化的信息进行存储、传输的需要，就必须进行数据为了满足对数字化的信息进行存储、传输的需要，就必须进行数据压缩，即去掉数据的冗余性。压缩，即去掉数据的冗余性。评价压缩技术的评价压缩技术的3个重要指标：个重要指标：1)压缩比要大压缩比要大2)算法简单算法简单3)恢复效果要好恢复效果要好第四十八页，讲稿共九十二页哦按照一致性分类：按照一致性分类：可逆编码（无失真编码，可逆编码（无失真编码，lossless）：解码信号与原始信号严格相同。）：解码信号与原始信号严格相同。如如Huffman编码、算术编码、游程编码。编码、算术编码、游程编码。不可逆编码方法（无失真编码，不可逆编码方法（无失

41、真编码，lossy）：还原信号与原始信号存在一）：还原信号与原始信号存在一定的误差，但效果可以接收。定的误差，但效果可以接收。按照压缩方案的不同：按照压缩方案的不同：又可将其划分为时域压缩、变换压缩、子带压缩，以及又可将其划分为时域压缩、变换压缩、子带压缩，以及多种技术相互融合的混合压缩等等。多种技术相互融合的混合压缩等等。各种不同的压缩技术，其算法的复杂程度、压缩质量、算各种不同的压缩技术，其算法的复杂程度、压缩质量、算法效率（即压缩比例），以及编解码延时等都有很大的不法效率（即压缩比例），以及编解码延时等都有很大的不同。同。各种压缩技术的应用场合也因之而各不相同。各种压缩技术的应用场合也因

42、之而各不相同。数据压缩方法的分类数据压缩方法的分类第四十九页，讲稿共九十二页哦n按照压缩方法分类：按照压缩方法分类：预测编码：利用空间中相邻数据的相关性，利用过去和现在出现预测编码：利用空间中相邻数据的相关性，利用过去和现在出现过的点的数据情况来预测未来点的数据。如差分脉冲编码调制过的点的数据情况来预测未来点的数据。如差分脉冲编码调制（DPCM）、自适应差分脉冲编码调制（）、自适应差分脉冲编码调制（ADPCM）等。）等。变换编码：将时域信号变换到频域空间上处理。比如变换编码：将时域信号变换到频域空间上处理。比如K-L变换、变换、DCT(离散余弦变换离散余弦变换)变换等。变换等。信息熵编码：让出

43、现概率大的用短的码字表达，反之用长的信息熵编码：让出现概率大的用短的码字表达，反之用长的码字表示。如码字表示。如Huffman编码。编码。子带编码：将图像数据变换到频域后，按频域分带，然后用子带编码：将图像数据变换到频域后，按频域分带，然后用不同的量化器进行量化，从而达到最优的组合。不同的量化器进行量化，从而达到最优的组合。数据压缩方法的分类数据压缩方法的分类第五十页，讲稿共九十二页哦音频信号压缩编码不仅利用一般压缩编码方法，而音频信号压缩编码不仅利用一般压缩编码方法，而且利用人耳的听觉特性，主要有两点：且利用人耳的听觉特性，主要有两点：1.1.人的听觉系统中存在一个人的听觉系统中存在一个听

44、觉阈值电平听觉阈值电平，低于这，低于这个电平的声音信号人耳听不到个电平的声音信号人耳听不到.2.2.人的听觉存在人的听觉存在屏蔽效应屏蔽效应。当几个强弱不同的声音。当几个强弱不同的声音同时存在时，强声使弱声难以听到，并且两者之间的关同时存在时，强声使弱声难以听到，并且两者之间的关系与其相对频率的大小有关系与其相对频率的大小有关.声音编码算法通过这些特性来去掉更多的冗余声音编码算法通过这些特性来去掉更多的冗余数据，来达到压缩数据的目的。数据，来达到压缩数据的目的。音频压缩音频压缩第五十一页，讲稿共九十二页哦音频压缩音频压缩n声声音音包包括括语语音音和和音音乐乐，声声音音数数据据表表征征的的是是一

45、一个个一一维维时时变变系系统统，故故声声音音数数据据的的压压缩缩要要易易于于图图像像数数据据的的压压缩。缩。n根根据据时时域域冗冗余余度度、频频域域冗冗余余度度和和人人听听觉觉感感知知机机理理进进行压缩，主要方法有：行压缩，主要方法有：n基于音频数据的统计特性进行编码，如波形编码。基于音频数据的统计特性进行编码，如波形编码。n基于音频的声学参数进行编码，或者混合编码。基于音频的声学参数进行编码，或者混合编码。n基于人的听觉特性进行编码，如基于人的听觉特性进行编码，如Dolby AC-3Dolby AC-3。第五十二页，讲稿共九十二页哦电话质量的语音压缩标准电话质量的语音压缩标准：300Hz3.

46、4KHz。当采样频率为当采样频率为8KHz，量化位数为，量化位数为8bit时所对应的速率为时所对应的速率为6kbit/s。调幅广播质量的音频压缩标准调幅广播质量的音频压缩标准：50Hz7KHz。当使用当使用16KHz的抽样频率和的抽样频率和14bit的量化位数时，信号速率为的量化位数时，信号速率为224kbit/s。符合。符合1988年年ITU制定的制定的G.722标准。标准。高保真立体声音频压缩标准高保真立体声音频压缩标准：50Hz20KHz。在在44.1KHz抽抽样频率下用样频率下用16bit量化，信号速率为每声道量化，信号速率为每声道705kbit/s。目前目前比较成熟的标准为比较成熟的

47、标准为“MPEG音频音频”。音频压缩标准音频压缩标准第五十三页，讲稿共九十二页哦数字音频格式数字音频格式nWAVn是微软公司开发的一种声音文件格式，也叫波形声音是微软公司开发的一种声音文件格式，也叫波形声音文件。是最早的数字音频格式，被文件。是最早的数字音频格式，被Windows平台及其平台及其应用程序广泛支持。应用程序广泛支持。WAV格式支持许多压缩算法、支持多种格式支持许多压缩算法、支持多种音频位数、采样频率和声道，经常见到的音频位数、采样频率和声道，经常见到的WAV格式的文件多格式的文件多采用采用44.1kHz的采样频率。的采样频率。16位量化位数，其音质与位量化位数，其音质与CD相同，

48、但相同，但WAV格式对存储空问需求太大而不便于通过网络格式对存储空问需求太大而不便于通过网络交流和传播交流和传播WAV 也是音乐编辑创作的首选格式，适合也是音乐编辑创作的首选格式，适合保存音乐素材。保存音乐素材。第五十四页，讲稿共九十二页哦数字音频格式数字音频格式nAIFFn 音频交换文件格式音频交换文件格式(Audio Interchange File Format，简写为，简写为AIFAIFF)，是苹果计算机公，是苹果计算机公司开发的一种标准声音文件格式，被司开发的一种标准声音文件格式，被Macintosh平平台及其应用程序所支持，它属于台及其应用程序所支持，它属于QuickTime技技术

49、中的一部分，而且是一种优秀的文件格式，投入术中的一部分，而且是一种优秀的文件格式，投入使用后便很快得到使用后便很快得到Microsoft公司青睐，公司青睐，Netscape Navigator浏览器中的浏览器中的Live Audio、SGI及其他及其他专业音频软件包都支持它。专业音频软件包都支持它。n AIFAIFF支持支持支持支持l6位位,44.1kHz立体声，现立体声，现在几乎所有的音频编辑软件和播放软件都支持这种在几乎所有的音频编辑软件和播放软件都支持这种格式。格式。第五十五页，讲稿共九十二页哦数字音频格式数字音频格式nMIDI：Musical Instrument Digital In

50、terface，是数字，是数字音乐电子合成乐器的统一国际标准。它定义了计算机音乐程音乐电子合成乐器的统一国际标准。它定义了计算机音乐程序、数字合成器及其它电子设备交换音乐信号的方式。规定了序、数字合成器及其它电子设备交换音乐信号的方式。规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议，可以模拟多种乐器的声音。传输的协议，可以模拟多种乐器的声音。MIDI文件就是文件就是MIDI格式的文件，它存储的只是一些指令，我们要听格式的文件，它存储的只是一些指令，我们要听到声音，必须把这些指令发送给音源，再由音源按照到声音，必须把这

展开阅读全文