《音频信息的获取与处理精.ppt》由会员分享,可在线阅读,更多相关《音频信息的获取与处理精.ppt(125页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、音频信息的获取与处理第1页,本讲稿共125页2.1 音频信号及其概念u2.1.1 声音处理技术历史回顾 语言、音乐和各种自然声是以声波为载体传递信息的基本语言、音乐和各种自然声是以声波为载体传递信息的基本形式形式 。人类很早就开始研究声音,并利用当时已掌握了的声音。人类很早就开始研究声音,并利用当时已掌握了的声音的某些规律来制造乐器、进行建筑设计或传声装置设计,使发出的某些规律来制造乐器、进行建筑设计或传声装置设计,使发出的声音传得更远。可是几千年来,人类只能凭耳朵来辨别声音的的声音传得更远。可是几千年来,人类只能凭耳朵来辨别声音的高低、强弱,而不能把声音记录和储存起来。所以与其他研究领高低、
2、强弱,而不能把声音记录和储存起来。所以与其他研究领域相比,声学的研究相对滞后。直到域相比,声学的研究相对滞后。直到1919世纪爱迪生发明了留声机,世纪爱迪生发明了留声机,人们才能用机械的方法把各种声音记录在唱片上。可是声音、机人们才能用机械的方法把各种声音记录在唱片上。可是声音、机械振动不容易传递,也不容易放大,机械方法很不方便。随着电械振动不容易传递,也不容易放大,机械方法很不方便。随着电学、电子学的发展学、电子学的发展,人们开始尝试记录下这些真实的声音,利用人们开始尝试记录下这些真实的声音,利用把声的振动转换成电信号的原理,使声音的记录成为可能。最终电把声的振动转换成电信号的原理,使声音的
3、记录成为可能。最终电声技术获得了迅速发展。声技术获得了迅速发展。第2页,本讲稿共125页 电声技术是研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。顾名思义,电声技术是依靠“电电”来记录并播放声音的,其基本原理是通过电压来产生模拟声波变化的电流信号,并记录下来,灌录成早期的唱片或磁带,这种电流信号便被称之为“模拟信号模拟信号”。传统的声音记录方式就是将模拟信号直接记录下来,例如磁带录音和密纹唱片就是将声音拾取处理后以磁记录或机械刻度的方式记录下来,此时磁带上磁极的变化或密纹唱片音槽内的纹路起伏变化都是与声音信号的变化相对应、成正比的。这里,密纹唱片、盒式磁带等是记录储存这种模拟声
4、音信号的载体,而能够播放和(或)记录这些软件的信号处理设备,诸如电唱机、磁带录音机等,则称为模拟音响设备。第3页,本讲稿共125页 电声技术把声信号转换成电信号,经扩声系统直接进行扩声;或者将其信号利用磁带、CD或其他存储形式,使声音可超越时间和空间,通过重放系统将其信号(数字的或模拟的)经过放大,由扬声器或耳机转换成声信号,进入最后的终端-人耳,以实现任何时间和地点的声音重现。电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等技术,是音频技术的主要对象。第4页,本讲稿共125页 随着计算机技术的发展,特别是海量存储设备和大容量内存在计算机上的实
5、现,对音频媒体进行数字化处理便成为可能。数字化处理的核心是对音频信息的采样,通过对采集到的样本进行加工,生成各种效果。音频信息在多媒体中的应用是极为广泛的,当计算机配有声卡和音箱后,就能够发出各种悦耳的声音,尤其是视频图像配以娓娓动听的音乐和语音,使计算机的操作得以藉由视觉以外的听觉加以辅助而成为一种愉快的过程。静态或动态图像配以解说和背景音乐,可使图像充满生气;立体声音乐可增加空间感,使人身临其境;语音电子邮件,听声如见其人,游戏中的音响效果对于渲染气氛则为显得更为重要;此外,在多媒体通信中,可视电话、电视会议、这些都离不开数字化音频处理技术。第5页,本讲稿共125页u2.1.2 音频信号的
6、形式 在日常生活中,音频(Audio)信号可分为两类:语音信号和非语音信号。语音是语言的物质载体,是社会交际工具的符号,它包含了丰富的语言内涵,是人类进它包含了丰富的语言内涵,是人类进行信息交流所特有的形式。非语音信号主要包括音乐和自然行信息交流所特有的形式。非语音信号主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不具有复杂的界存在的其他声音形式。非语音信号的特点是不具有复杂的语义和语法信息,信息量低、识别简单。语义和语法信息,信息量低、识别简单。我们之所以能听到日常生活中的各种声音信息,其实就我们之所以能听到日常生活中的各种声音信息,其实就是不同频率的声波通过空气产生震动,刺激人
7、耳的结果。在是不同频率的声波通过空气产生震动,刺激人耳的结果。在物理上,声音可用一条连续的曲线来表示。这条连续的曲线物理上,声音可用一条连续的曲线来表示。这条连续的曲线无论多复杂,都可分解成一系列正弦波的线性叠加。规则音无论多复杂,都可分解成一系列正弦波的线性叠加。规则音频是一种连续变化的模拟信号频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。因声波是在时间和幅度上都连续变化的量,我们称之为模拟量。第6页,本讲稿共125页 用声音录制软件记录的英文单词用声音录制软件记录的英文单词“Hello”Hello”的语音实际波形的语音实际波形 第7页,本讲稿共125页u2.1.3 模拟音
8、频信号的物理特征 模拟音频信号有两个重要参数:频率和幅度。声音的模拟音频信号有两个重要参数:频率和幅度。声音的频率体现音调的高低,声波幅度的大小体现声音的强弱。频率体现音调的高低,声波幅度的大小体现声音的强弱。一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之为信号的频率,单位用赫兹(Hz)(Hz)或千赫兹(kHz)表示。例如一个声波信号在一秒钟内有表示。例如一个声波信号在一秒钟内有5000个波峰,则可将它的频率表示为5000Hz或或5kHz5kHz。人们在日常说话时的语音信号频率范围在300Hz300Hz3000Hz之间。频率小于之间。频率小于20 Hz20 Hz的信号称为亚
9、音的信号称为亚音(Subsonic);频率范围;频率范围为为20Hz20Hz20kHz的信号称为音频(Audio),高于20kHz的信的信号称为超音频号称为超音频(Ultrasonic)。第8页,本讲稿共125页 与频率相关的另一个参数是信号的周期。它是指信号在两个峰点或谷底之间的相对时间。周期和频率之间的关系是互为倒数。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号,声音的强度用分贝(dB)表示,分贝的幅度就是音量。幅 度限周期基线第9页,本讲稿共125页u2.1.4 声音的A/D与D/A转换 模拟信号很容易受到电子干扰,因此随着技术的
10、发展,声音信号就逐渐过渡到了数字存储阶段,A/D转换和转换和D/A转换技术便应运而生。这里,A A代表AnalogAnalog”(类比、模拟),D代表代表“Digital”(数字、数码),(数字、数码),A/DA/D转换就是把模拟信号转换成数字信号的过程,模拟电信号变为了由“0 0”和“1”组成的BitBit信号。这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩,这也就是为什么如今磁带逐渐被淘汰,CD唱片却趋于流行的原因。唱片却趋于流行的原因。A/DA/D转换的一个关键步骤是声音的采样和量化,得到转换的一个关键步骤是声音的采样和量化,得到数字音
11、频信号,它在时间上是不连续的离散信号。数字音频信号,它在时间上是不连续的离散信号。第10页,本讲稿共125页借助于借助于A/DA/D或或D/AD/A转换器,模拟信号和数字信号可以互相转换转换器,模拟信号和数字信号可以互相转换第11页,本讲稿共125页u2.1.5 与声音有关的几个术语 音高是人对声波频率的主观属性,它首先与声波的频率有关。声波的振动频率高,我们听到的声音就高,反之亦然,但它们之间并非线性关系。音色是声波波形的主观属性。不同的发音体所发出的音音色是声波波形的主观属性。不同的发音体所发出的音波都有自己的特异性。声波的类型是多种多样的,一般可分波都有自己的特异性。声波的类型是多种多样
12、的,一般可分为纯音和复合音两大类。为纯音和复合音两大类。语音是特殊的复合音。语音由元音和辅音所构成。元音语音是特殊的复合音。语音由元音和辅音所构成。元音是一种能连续发出的乐音,辅音主要是不能连续发出的短是一种能连续发出的乐音,辅音主要是不能连续发出的短促的噪音,元音与辅音合成汉语音节。促的噪音,元音与辅音合成汉语音节。响度是声波振幅的主观属性,它是由声波的振幅引起的。振幅越大则响度越大,但它们之间也不是线性关系。第12页,本讲稿共125页u2.1.6 声音质量的评价 我们经常会对某一位歌手的歌声发表意见,并与其他歌手进行比较,这其实是在对声音的质量进行评价。声音质量的评价是一个很困难的问题,也
13、是一个值得研究的课题。目前来看,声音质量的度量有两种基本方法,一种是客观质量度量,另一种是主观质量的度量。声音客观质量的度量方法 声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测量与分析。由于计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现。这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作:第13页,本讲稿共125页q评价值的测量评价值的测量 响度和响度级,噪音级,清晰度指数,噪响度和响度级,噪音级,清晰度指数,噪音评价数。音评价数。q声源的测量 频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等。q音
14、质的测量 混响时间,隔音量,吸音量。声测量的基本仪器是声级计。声级计是一种能对声音作声测量的基本仪器是声级计。声级计是一种能对声音作出类似人耳的反应的仪器,同时,它能进行客观而可重复的出类似人耳的反应的仪器,同时,它能进行客观而可重复的声压和声级测量。声压测量的好处很多:它能帮助音乐厅提声压和声级测量。声压测量的好处很多:它能帮助音乐厅提高音响效果;能对烦扰声音进行精密的、科学的分析。声级高音响效果;能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用适当的听力保护措施。因此,声测量是不可少的。
15、人们采用适当的听力保护措施。因此,声测量是不可少的。第14页,本讲稿共125页 度量声音客观质量的一个主要指标是信噪比度量声音客观质量的一个主要指标是信噪比SNRSNR(Signal to Noise Ration),信噪比是有用信号与),信噪比是有用信号与噪声之比的简称。其单位是分贝噪声之比的简称。其单位是分贝(dB)。声音主观质量的度量声音主观质量的度量 采用客观标准方法很难真正评定某种编码器的质量,采用客观标准方法很难真正评定某种编码器的质量,在实际评价中,主观的质量度量比客观质量的度量更为恰在实际评价中,主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行
16、评价,当和合理。通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实验者进行综合评定。可以说,人的感觉机理最具有再由实验者进行综合评定。可以说,人的感觉机理最具有决定意义。当然,可靠的主观度量值是较难获得的。决定意义。当然,可靠的主观度量值是较难获得的。第15页,本讲稿共125页 平均判分(Mean Opnion Scose-MOS)过程是召集一批实验者,请每个实验者对某个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的MOS分对应的质量级别和失真级别见表2-。MOS质量级别失真级别5优
17、(Excellent)不察觉4 4良(Good)刚察觉但不可厌3 3中(Fair)察觉及稍微可厌2 2差(Poor)可厌(但不令人反感)1 1劣(Unacceptable)极可厌(令人反感)第16页,本讲稿共125页 声音质量分级与带宽 声音的质量与它所占用的频带宽度有关,频带越宽,信号强度的相对变化范围就越大大,音响效果也就越好。按照带宽可将声音质量分为4级:qq数字激光唱盘质量数字激光唱盘质量 ,通常又通常又CD-DACD-DA质量,这种质量也就是我们质量,这种质量也就是我们常说的超高保真,即常说的超高保真,即Super HiFi(High Fidelity)Super HiFi(High
18、 Fidelity)。qq调频无线电广播,简称调频无线电广播,简称FM(Frequency Modulation)FM(Frequency Modulation)质量。质量。qq调幅无线电广播,简称调幅无线电广播,简称AM(Amplitude Modulation)AM(Amplitude Modulation)质量。质量。qq电话电话(Telephone)(Telephone)质量。质量。在在这这4 4级质级质量中,以量中,以CD-DACD-DA的声音的声音质质量等量等级级最高,其余次之。最高,其余次之。第17页,本讲稿共125页4 4级声音质量的频率范围级声音质量的频率范围第18页,本讲稿
19、共125页2.2 模拟音频的数字化过程 如果要用计算机对音频信息进行处理,则首先要将模拟音频信号(如语音、音乐等)转变成数字信号。数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音频的采样、量化和编码。采样和量化的过程可由采样和量化的过程可由A/DA/D转换器实现。转换器实现。A/D转换器以固转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样定的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存
20、储介质中,这样的文件一般称以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。为数字声波文件。第19页,本讲稿共125页u2.2.1采样 早在早在4040年代,信息论的奠基者香农(年代,信息论的奠基者香农(ShannonShannon)指出:在一定条)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的件下,用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。采样定理看来象是一个数学问题,而实质上它为数字化基本内容。采样定理看来象是一个数学问题,而实质上它为数字化技术奠定了一个基础。技术奠定了一个基础。为实现为实现A/DA/D转换,需要把模拟音频信
21、号波形进行分割,以转转换,需要把模拟音频信号波形进行分割,以转变成数字信号,这种方法称为采样变成数字信号,这种方法称为采样(Sampling)(Sampling)。采样的过程是每。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号,变成时间上的离散信号。该时间间隔称为采样周的连续信号,变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率是指计算机每秒钟采集多少期,其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。采样频率越高,即采样的间隔时间越短,则在单个声音样本。采样频率越高,即
22、采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确。这和测定每天示也越精确。这和测定每天2424小时气温变化是一样的,每小时测小时气温变化是一样的,每小时测定定1 1次气温比每两小时测定次气温比每两小时测定1 1次气温的精度要高一倍。次气温的精度要高一倍。第20页,本讲稿共125页 采采样样频频率率与与声声音音频频率率之之间间有有一一定定的的关关系系,根根据据奈奈奎奎斯斯特特(NyquistNyquist)理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音。用公
23、式表示如下:T1/2fT1/2fc c 或或 f fc c 1/2T 1/2T 采采样样的的著著名名实实例例就就在在我我们们的的日日常常生生活活中中,例例如如电电话话和和CDCD唱片。在数字电话系统中,为将人的声音变为数字信号,采用脉冲编码调制PCMPCM方方法法,每每秒秒钟钟可可进进行行8000次次的的采采样样。PCM提供的数据传输率是56kb/s(b/s表表示示b/s)或或64kb/s。CD唱片存储的是数字信息,要想获得CD音音质质的的效效果果,则则要要保保证证采采样样频频率率为为44.1kHz44.1kHz,也就是能够捕获频率高达22050Hz22050Hz的信号。第21页,本讲稿共12
24、5页u2.2.2 量化 采样只解决了音频波形信号在时间坐标采样只解决了音频波形信号在时间坐标(即横轴即横轴)上把一上把一个波形切成若干个等分的数字化问题,但是每一等分的长方个波形切成若干个等分的数字化问题,但是每一等分的长方形的高是多少呢形的高是多少呢?即需要用某种数字化的方法来反映某一瞬间即需要用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小。该值的大小影响音量的高低。我们把声波幅度的电压值的大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为对声波波形幅度的数字化表示称之为“量化量化”。量化的过程是先将采样后的信号按整个声波的幅度划分量化的过程是先将采样后的信号按整
25、个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢并赋于相同的量化值。如何分割采样信号的幅度呢?我们还我们还是采取二进制的方式,以位是采取二进制的方式,以位(bit)(bit)或或1616位位(bit)(bit)的方式来划的方式来划分纵轴。也就是说在一个以分纵轴。也就是说在一个以8 8位为记录模式的音效中,其纵位为记录模式的音效中,其纵轴将会被划分为个量化等级轴将会被划分为个量化等级(quantizationlevels)(quantizationlevels),用以记录,用以记录
26、其幅度大小。而一个以其幅度大小。而一个以1616位为采样模式的音效中,它在每一个位为采样模式的音效中,它在每一个固定采样的区间内所被采集的声音幅度,将以个不同的量化等级固定采样的区间内所被采集的声音幅度,将以个不同的量化等级加以记录。加以记录。第22页,本讲稿共125页 在相同的采样频率之下,量化位数愈高,声音的质量在相同的采样频率之下,量化位数愈高,声音的质量越好。同理,在相同量化位数的情况下,采样频率越高,声越好。同理,在相同量化位数的情况下,采样频率越高,声音效果也就越好。这就好比是量一个人的身高,若是以毫米音效果也就越好。这就好比是量一个人的身高,若是以毫米为单位来测量,会比用厘米为单
27、位量更加准确。为单位来测量,会比用厘米为单位量更加准确。下下表给出了不同信号类型的采样率和量化精度。表给出了不同信号类型的采样率和量化精度。信号类型频率范围(Hz)采样率(kHz)量化精度(位)电话话音200-340088 8宽带音频50-700016161616调频广播20-15k3783781616高质量音频20-22k4414411616第23页,本讲稿共125页u2.2.3 采样与量化过程示例 以图2-12-1所示的原始模拟波形为例进行采样和量化。假设采所示的原始模拟波形为例进行采样和量化。假设采样频率为样频率为10001000次次/秒,即每秒,即每1/10001/1000秒A/DA/
28、D转换器采样一次,其幅度被划分成0 09共共10个量化等级,并将其采样的幅度值个量化等级,并将其采样的幅度值取最接近取最接近0 09之间的一个数来表示,如图之间的一个数来表示,如图2-22-2所示。图中每个正方形表示一次采样。第24页,本讲稿共125页 当当D/A转换器从图2-2得到的数值中重构原来信号时,得到图2-3中蓝色中蓝色(直线段直线段)线段所示的波形。从图中可以看线段所示的波形。从图中可以看出,蓝色线与原波形出,蓝色线与原波形(红色线红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。第25页,本讲稿共125页 失真在采样过程中是不可避免的,如何减少失真呢
29、?可以直观地看出,我们可以把图2-2中的波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在图2-4中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。在图2-5中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。第26页,本讲稿共125页 图图2-42-4采样率为采样率为2000Hz2000Hz,量化等级为,量化等级为2020的采样量化过程的采样量化过程 图图2-52-5采样率为采样率为4
30、000Hz4000Hz,量化等级为,量化等级为4040的采样量化过程的采样量化过程 第27页,本讲稿共125页u2.2.4 编码 模拟信号量经过采样和量化以后,形成一系列的离散信号模拟信号量经过采样和量化以后,形成一系列的离散信号脉冲脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。机内部运行的数据。所谓编码,就是按照一定的格式把经过采样和量所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步
31、和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正。的声音数据是否有错,如在一定范围内有错,可加以纠正。编码的形式比较多,常用的编码方式是编码的形式比较多,常用的编码方式是PCMPCM脉冲调制。脉冲编脉冲调制。脉冲编码调制(码调制(PCMPCM)是把模拟信号变换为数字信号的一种调制方式,既把连)是把模拟信号变换为数字信号的一种调制方式,既把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传
32、输或存储。代码形式传输或存储。PCMPCM的主要优点是:抗干扰能力强;失真小;的主要优点是:抗干扰能力强;失真小;传输特性稳定,尤其是远距离信号再生中继时噪声不累积,而且可传输特性稳定,尤其是远距离信号再生中继时噪声不累积,而且可以采用压缩编码、纠错编码和保密编码等来提高系统的有效性、可以采用压缩编码、纠错编码和保密编码等来提高系统的有效性、可靠性和保密性。靠性和保密性。第28页,本讲稿共125页 模模拟拟信信号号经经过过采采样样再再经经量量化化,然然后后用用有有限限个个二二进进制制码码去去代代表表量量化化后后的的幅幅度度,在在编编码码器器中中引引入入的的量量化化误误差差在在解解码码时时无无法
33、法消消除除,这这一一误误差差等等效效于于引引入入了了噪噪声声、降降低低了了信信噪噪比比。在在比比特特率率较较高高的的波波形形编编码码中中可可以以用用客客观观指指标标如如信信噪噪比比来来衡衡量量编编码码的的质质量量,例例如如现现在在电电话话中中普普遍遍使使用用的的律律标标准准(ITU ITU G.711G.711标标准准),要要求求信信噪噪比比优优于于35dB35dB。除除此此之之外外,还还可可以以规规定定动动态态范范围围和和频频率率响响应应,在在有有关关的的国国际际标标准准中中都都有有具具体体规规定定。在在低低比比特特率率情情况况下下,采采用用了了语语音音特特征征参参数数分分析析和和合成语音的
34、编码方法,每个样值仅或合成语音的编码方法,每个样值仅或0.50.5比特。比特。在在ISOISO的的红红皮皮书书(Red Red BookBook)标标准准中中,规规定定CD-DACD-DA每每2424字字节节双双声声道道音音频频数数据据为为一一帧帧,对对每每一一帧帧数数据据编编码码后后要要形形成成帧帧同同步步码码、子子码码(用用于于控控制制和和显显示示)及及纠纠错错码码,采采用用差差错错校校验验码码CIRCCIRC,用用来来检检测测和和纠纠正正因因CDCD表表面面的的划划伤伤或或灰灰尘尘产产生生的的差差错错。其其格格式式如如表表2-32-3所示。所示。第29页,本讲稿共125页 在在CD-DA
35、中,数据、控制码和纠错码分别记录在不同的光道上。定义9898个音频数据帧为一个扇区。因此每个音频数据帧为一个扇区。因此每个扇区所含音频数据量为个扇区所含音频数据量为 98 24 23522352(ByteByte),它),它使得一张使得一张CDCD唱盘上可容纳约唱盘上可容纳约7474分钟的立体声音乐信号。帧同步子码音频数据(左声道)Q校验音频数据(右声道)P校验41124124第30页,本讲稿共125页2.3 音频信号的压缩编码与标准 将量化后的数字声音信息直接存入计算机将会占用大量的存储空间。在多媒体系统中,一般是对数字化声音信息进行压缩和编码后再存入计算机,以减少音频的数据量。u2.3.1
36、 音频信号压缩编码概述在多媒体音频信号处理中,一般需要对数字化后的声音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和存储。在播放这些声音时,需要经解码器将二进制编码恢复成原来的声音信号播放。第31页,本讲稿共125页音频信号处理过程 声音信号能进行压缩编码的基本依据是:声音信号中存在着很大的冗余度,通过识别和去除这些冗余度,声音信号中存在着很大的冗余度,通过识别和去除这些冗余度,便能达到压缩的目的;便能达到压缩的目的;音频信息的最终接收者是人,人的听觉器官音频信息的最终接收者是人,人的听觉器官(包括视觉器器包括视觉器器官官)都具有某种不敏感性,舍去人的感官
37、所不敏感的信息对都具有某种不敏感性,舍去人的感官所不敏感的信息对声音质量的影响很小,在有些情况下,甚至可以忽略不计。声音质量的影响很小,在有些情况下,甚至可以忽略不计。例如,人耳听觉中有一个重要的特点,即听觉的例如,人耳听觉中有一个重要的特点,即听觉的“掩蔽掩蔽”。它是指一个强音能抑制一个同时存在的弱音的听觉现象。利用该它是指一个强音能抑制一个同时存在的弱音的听觉现象。利用该性质,可以抑制与信号同时存在的量化噪音。性质,可以抑制与信号同时存在的量化噪音。第32页,本讲稿共125页.对声音波形取样后,相邻样值之间存在着很强的相关性。音频数据压缩和编码与图像压缩编码有着很大的不同。图像数据表达的是
38、二维空间,很难找出固定的模型来形式化地表征它。音频数据表达的是一维随时间变化的函数,因而声音数据的压缩比图像数据压缩要容易得多。从方法上看,声音信号的编码方式大致可分为三类,即波形编码、参数编码和混合编码。波形编码的编码信息是声音的波形。这种方法要求重构的声音信号的各个样本尽可能地接近于原始声音的采样值,复原的声音质量较高。波形编码技术有PCMPCM(脉冲(脉冲编码调编码调制)、制)、ADPCMADPCM(自适应差分脉冲编码调制)和ATCATC(自适(自适应变换编码应变换编码)等)等。第33页,本讲稿共125页 参参数数编编码码是是一一种种对对语语音音参参数数进进行行分分析析合合成成的的方方法
39、法。语语音音的的基基本本参参数数是是基基音音周周期期、共共振振峰峰、语语音音谱谱、声声强强等等,如如能能得得到到这这些些语语音音基基本本参参数数,就就可可以以不不对对语语音音的的波波形形进进行行编编码码,而而只只要要记记录录和和传传输输这这些些参参数数就就能能实实现现声声音音数数据据的的压压缩缩。这这些些语语音音基基本本参参数数可可以以由由语语音音生生成成机机构构模模型型通通过过实实验验获获得得。得得到到语语音音参参数数后后,就就可可以以对对其其进进行行线线性性预预测测编编码码(LPC-Linear LPC-Linear Predictive CodingPredictive Coding)。
40、)。混混合合型型编编码码方方法法是是一一种种在在保保留留参参数数编编码码技技术术的的基基础础上上,引引用用波波型型编编码码准准则则去去优优化化激激励励源源信信号号的的方方案案。混混合合编编码码充充分分利利用用了了线线性性预预测测技技术术和和综综合合分分析析技技术术,其其典典型型算算法法有有:码码本本激激励励线线性性预预测测(CELPCELP)、多多脉脉冲冲线线性性预预测测(MP-LPCMP-LPC)及及矢矢量量和和激激励励线线性性预预测测(VSELPVSELP)等。等。总的来说,波形编码在声音编码方案中应用较广,可以获得很高的总的来说,波形编码在声音编码方案中应用较广,可以获得很高的声音质量。
41、下面我们介绍波形编码方案中常用的声音质量。下面我们介绍波形编码方案中常用的PCMPCM编码。编码。第34页,本讲稿共125页u2.3.2PCM编码 1939年法国工程师年法国工程师Alec Reeves发明了将连续的模拟信号变换成时间和幅度都离散的二进制码代表的脉冲编码调制信号(Pulse Code Modulation-PCM),),并申请了专利。首先开始应用于电话系统,但一直并申请了专利。首先开始应用于电话系统,但一直到年美国到年美国Bell实验室才为制成了国际上第一套商用电话系统(系统),这标志了通信开始步入数字化。以后的计算机发展更促进了通信的数字化,并逐步与通信相结合。PCM PCM
42、 编码是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称。PCM方法可以方法可以按量化方式的不同,分按量化方式的不同,分为为均匀量化均匀量化PCMPCM、非均匀量化、非均匀量化PCMPCM和自适和自适应应量化量化PCMPCM等几种。第35页,本讲稿共125页 如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图2-6所示。均匀量化PCM就是直接对声音信号作A/DA/D转换,在处理过程中没有利用声音信号的任何转换,在处理过程中没有利用声音信号的任何特性,也没有进行压缩。该方法将输入的声音
43、信号的振特性,也没有进行压缩。该方法将输入的声音信号的振幅范围分成个等份(幅范围分成个等份(B为量化位数),所以落入同一等份数的采样值都编码成相同的B位二进制码。只要位二进制码。只要采样频率足够大,量化位数也适当,便能获得较高的声音采样频率足够大,量化位数也适当,便能获得较高的声音信号数字化效果。为了满足听觉上的效果,均匀量化信号数字化效果。为了满足听觉上的效果,均匀量化PCM必须使用较多的量化位数。这样所记录和产生的音乐,可以达到最接近原声的效果。当然提高采样率及分辨率后,将引起储存数据空间的增大。第36页,本讲稿共125页第37页,本讲稿共125页 改改进进PCMPCM编码技术的一个方法是
44、采用非均匀量化,即让量化级高度随信号振幅而变化。信号振幅小则缩小量化级高度,信号振幅大时则增大量化级高度。这样就可以在满足精度要求的情况下用较少的位数实现编码。在声音数据还原时,采用相同的规则。在非均匀量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为 律律(-Law-Law)压(缩)扩(展)算法,另一种称为A A律律(A-Law)压(缩)扩(展)算法。这两种算法主要用于数字电话通信中。律的计算公式如下:律的计算公式如下:第38页,本讲稿共125页 其其中中是是信信号号x(n)x(n)的的最最大大幅幅度度,u u是是控控制制压压缩缩程程序序的的参参数数,u u越越大大压压缩
45、就越厉害缩就越厉害 图图2-72-7给给出出了了按按 律律压压扩扩算算法法的的输输入入输输出出特特性性曲曲线线,为为确确定定压压缩缩量量的的参参数数,它它反反映映最最大大量量化化间间隔隔和和最最小小量量化化间间隔隔之之比比。由由图图可可见见,值值越越大大,压压缩缩量量越越大大。由由于于 律律压压扩扩的的输输入入和和输输出出关关系系是是对对数函数关系,所以这种编码又称为对数数函数关系,所以这种编码又称为对数PCMPCM。A A律律压压扩扩与与 律律压压扩扩相相比比,则则压压缩缩的的动动态态范范围围略略小小些些,小小信信号号振振幅幅时时质质量量要要比比 律律稍稍差差。无无论论是是A A律律还还是是
46、 律律算算法法,它它们们的的特特性性在在输输入入信信号号振振幅幅小小时时都都呈呈线线性性,在在输输入入信信号号振振幅幅大大时时呈呈对对数数压压缩特性。缩特性。对于采样频率为对于采样频率为8kHz8kHz,样本精度为,样本精度为1616位的输入信号,使用位的输入信号,使用A A律压律压扩或扩或 律压扩编码,经过律压扩编码,经过PCMPCM编码器之后每个样本的精度为编码器之后每个样本的精度为8 8位,输出位,输出的数据率为的数据率为64kb/s64kb/s。这个数据就是。这个数据就是CCITT,CCITT,(国际电话与电报顾(国际电话与电报顾问委员会)推荐的问委员会)推荐的G.711G.711标准
47、:话音频率脉冲编码调制。标准:话音频率脉冲编码调制。第39页,本讲稿共125页u2.3.3 音频压缩编码的标准 随着多媒体计算机系统及数字通信系统的发展,数字音频编随着多媒体计算机系统及数字通信系统的发展,数字音频编码技术正日益受到重视。为了提高信号传输和存储的效率,人们码技术正日益受到重视。为了提高信号传输和存储的效率,人们多方致力于信源编码的研究,力图在保证声音质量的前提下,降多方致力于信源编码的研究,力图在保证声音质量的前提下,降低信源编码的数据速率,并由此产生了一系列的国际的区域的标低信源编码的数据速率,并由此产生了一系列的国际的区域的标准。准。国际电报电话咨询委员会(国际电报电话咨询
48、委员会(CCITTCCITT)先后提出了一系列有关语音压)先后提出了一系列有关语音压缩编码的建议。在缩编码的建议。在19721972年制定了年制定了G.711G.711,采用的是,采用的是 律或律或A A律的律的PCMPCM编编码技术,数据速率为码技术,数据速率为64kb/s64kb/s。19841984年,公布了年,公布了G.721G.721标准,它采用的标准,它采用的是是ADPCMADPCM编码技术,数据率为编码技术,数据率为32kb/s32kb/s。以上两个标准均适用于。以上两个标准均适用于300300 3400Hz3400Hz窄带语音信号,也可用于公用电话网。针对宽带语窄带语音信号,也
49、可用于公用电话网。针对宽带语音信号(音信号(50Hz50Hz 7kHz7kHz),),CCITTCCITT制定了制定了G.722G.722编码标准,它的数据速编码标准,它的数据速率为率为64kb/s64kb/s。用此标准编码,可在。用此标准编码,可在ISDNISDN(综合业务数据网)的(综合业务数据网)的B B通通道上传输音频数据。道上传输音频数据。第40页,本讲稿共125页 为为了了进进一一步步降降低低数数据据速速率率,CCITTCCITT从从19891989年年开开始始研研究究16kb/s16kb/s的的短短延延时时、高高质质量量的的音音频频编编码码标标准准。在在AT&T AT&T Bel
50、lBell实实验验室室16kb/s16kb/s短短延延时时码码激激励励(LD-CELPLD-CELP)编编码码方方案案的的基基础础上上,又又公公布布适适合合于于进进入入长长途途电电话话网网采采用用的的新新标标准准。另另外外,还还有有欧欧洲洲数数字字移移动动通通信信(GSMGSM)制制定定了了数数字字移移动动通通信信网网的的13kb/s13kb/s长长时时预预测测规规则则码码激激励励(RPE-LTPRPE-LTP)语语音音编编码码标标准准。美美国国19891989年年也也公公布布了了CTIACTIA标标准准。它它采采用用长长时时延延自自适适应应CELPCELP方方案,适应于更低速率的语音压缩,主