第3章音频信息处理.ppt-淘文阁

资源描述

《第3章音频信息处理.ppt》由会员分享，可在线阅读，更多相关《第3章音频信息处理.ppt（80页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第第3章章音频信息处理音频信息处理学习目标学习目标l了解声音信号的特点、存储格式及质量的度量方法l理解音频信号压缩方法及音频编码标准l掌握常用的音频处理软件对声音信号进行处理l了解语音识别技术及其应用3.1 音频信息处理基础音频信息处理基础音音频频信息信息在多媒体中的应应用用极为广泛：视频图像配以娓娓动听的音乐和语音；静态或动态图像配以解说和背景音乐；立体声音乐可增加空间感；游戏中的音响效果等。音频处理技术主要包括音频处理技术主要包括电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等。3.1.1 3.1.1 音频信号的特点音频信号的特点 1

2、.1.音频信号的分类音频信号的分类音频信号可分为两类：语音信号和非语音信号音频信号可分为两类：语音信号和非语音信号。语音语音是语言的物质载体，是社会交际工具的符号,它包含了丰富的语言内涵，是人类进行信息交流所特有的形式。非语音信号非语音信号主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不具有复杂的语义和语法信息，信息量低、识别简单。规则音频规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示，称为声波声波。因声波是在时间和幅度上都连续变化的量，我们称之为模拟量模拟量。用声音录制软件记录的英文单词用声音录制软件记录的英文单词“Hello”Hello”的语音实际波形的语音实际波形

3、2.2.模拟音频信号的两个重要参数模拟音频信号的两个重要参数模拟音频信号有两个重要参数：频率和幅度频率和幅度。声音的频率体现音调的高低，声波幅度的大小体现声音的强弱。一个声源每秒钟可产生成百上千个波，我们把每秒钟波峰所发生的数目称之为信号的频率频率，单位用赫兹(Hz)或千赫兹(kHz)表示。信号的幅度信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大，声音越强。对音频信号，声音的强度用分贝声音的强度用分贝(dB)dB)表示表示，分贝的幅度就是音量。幅度限周期基线3.3.声音的声音的A/DA/D与与D/AD/A转换转换A/DA/D转换转换就是把模拟信号转换成数字信

4、号的过程，模拟电信号变为了由“0”和“1”组成的Bit信号。这样做的好处是显而易见的，声音存储质量得到了加强，数字化的声音信息使计算机能够进行识别、处理和压缩。A/D转换的一个关键步骤是声音的采样和量化采样和量化，得到数字音频信号，它在时间上是不连续的离散信号。借助于A/D或D/A转换器，模拟信号和数字信号可以互相转换。4.4.声音的三要素声音的三要素 1 1）音音调调：代表了声音的高低。音调与频率有关，频率越高，音调越高，反之亦然。读者也许有这样的经验，当提高磁带录音机的转速时，其旋转加快，声音信号的频率提高，其喇叭放出来声音的音调提高了。同样，在使用音频处理软件对声音的频率进行调整时，也可

5、明显感到音调随之而产生的变化。各种不同的声源具有自己特定的音调，如果改变了某种声源的音调，则声音会发生质的转变，使人们无法辨别声源本来的面目。2 2）音音色色：即特色的声音。声音分纯纯音音和复复音音两种类型。所谓纯音，是指振幅和周期均为常数的声音；复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中，最低频率的声音是“基基音音”，它是声音的基调。其他频率的声音称为“谐音”，也叫泛泛音音。基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色，例如各种乐器的声音、每个人的声音、各种生物的声音等，人们就是依据音色来辨别声源种类的。3 3）音强）音强：声音的强度

6、，也被称为声音的响度，常说的“音量”也是指音强。音强与声波的振幅成正比，振幅越大，强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的，通过播放设备的音量控制，可改变聆听时的响度。声音的频谱有线性频谱和连续频谱之分。线线性性频频谱谱是具有周期性的单一频率声波；连连续续频频谱谱是具有非周期性的带有一定频带所有频率分量的声波。纯粹的单一频率的声波只能在专门的设备中创造出来，声音效果单调而乏味。自然界中的声音几乎全部属于非周期性声波，该声波具有广泛的频率分量，听起来声音饱满、音色多样且具有生气。5.5.声音的频谱声音的频谱3.1.2 3.1.2 模拟音频的数字化过程模拟音频的数字化过程

7、数字化的声音易于用计算机软件处理，现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音音频频的采的采样样、量化和、量化和编码编码。采样和量化的过程可由采样和量化的过程可由A/DA/D转换器转换器实现实现。A/D转换器以固定的频率去采样，即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号，可以将其以文件形式保存在计算机的存储介质中，这样的文件一般称为数字声波文件。信息论的奠基者香农（Shannon）指出：在一定条件下，用在一定条件下，用离散的序列可以完全代表一个连续函数离散的序列可以完全代表一个连续函数，这是采样定理的基本内容。为实现A/D

8、转换，需要把模拟音频信号波形进行分割把模拟音频信号波形进行分割，这种这种方法称为采样方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值模拟声音的波形上取一个幅度值，把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期，其倒数为采样频率。采样频率采样频率是指计算机每秒钟采集多少个声音样本。1.1.采样采样采样频率与声音频率之间有一定的关系，根据奈奎斯特（Nyquist）理论，只有采样频率高于声音信号最高频率的两只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音倍时，才能把数字信号

9、表示的声音还原成为原来的声音。采样只解决了音频波形信号在时间坐标时间坐标(即横轴即横轴)上把一个波形切成若干个等分的数字化问题，但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为对声波波形幅度的数字化表示称之为“量化量化”。量化的过程量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合，把落入某个区段内的样值归为一类，并赋于相同的量化值。如何分割采样信号的幅度呢?我们还是采取二进制的方式，以位以位(bit)或或16位位(bit)的方式来划分纵轴的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中，其

10、纵轴将会被划分为个量化等级，用以记录其幅度大小。2.量化量化以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒，即每1/1000秒A/D转换器采样一次，其幅度被划分成0到9共10个量化等级，并将其采样的幅度值取最接近09之间的一个数来表示，如下图所示。图中每个正方形表示一次采样。D/A转换器转换器从上图得到的数值中重构原来信号时，得到下图中蓝色(直线段)线段所示的波形。从图中可以看出，蓝色线与原波形(红色线)相比，其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。失真失真在采样过程中是不可避免的，如何减少失真呢如何减少失真呢？可以直观地看出，我们可以把上

11、图中的波形划分成更为细小的区间，即采用更高的采样频率。同时，增加量化精度采用更高的采样频率。同时，增加量化精度，以得到更高的量化等级，即可减少失真的程度。在下图（左）中，采样率和量化等级均提高了一倍，分别为2000次/秒和20个量化等级。在下图（右）中，采样率和量化等级再提高了一倍，分别达到4000次/秒和40个量化等级。从图中可以看出，当用D/A转换器重构原来信号时（图中的轮廓线），信号的失真明显减少，信号质量得到了提高。3.3.编码编码模拟信号量经过采样和量化以后，形成一系列的离散信号脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码，形成计算机内部运行的数据。所谓编码，就是按照一定的

12、编码，就是按照一定的格式把经过采样和量化得到的离散数据记录下来，并在有用的格式把经过采样和量化得到的离散数据记录下来，并在有用的数据中加入一些用于纠错、同步和控制的数据数据中加入一些用于纠错、同步和控制的数据。在数据回放时，可以根据所记录的纠错数据判别读出的声音数据是否有错，如在一定范围内有错，可加以纠正。编码的形式比较多，常用的编码方式是PCM脉冲调制。脉冲编码调制（脉冲编码调制（PCM）是把模拟信号变换为数字信号的一种调是把模拟信号变换为数字信号的一种调制方式，即把连续输入的模拟信号变换为在时域和振幅上都离制方式，即把连续输入的模拟信号变换为在时域和振幅上都离散的量，然后将其转化为代码形式

13、传输或存储散的量，然后将其转化为代码形式传输或存储。3.1.3 3.1.3 数字音频的文件格式数字音频的文件格式在多媒体技术中，存储音频信息的文件格式主要有：WAV文件、VOC文件和MP3文件等。1.WAVWAV文件文件WAV文件又称波形文件，来源于对声音模拟波形的采样，并以不同的量化位数把这些采样点的值轮换成二进制数，然后存入磁盘，这就产生了波形文件。WAV文件用于保存Windows平台的音频信息资源，被Windows平台及其应用程序所广泛支持。WAV声音文件是使用RIFF（Resource Interchange File Format资源交换文件）的格式描述的，它由文件头和波形音频文件

14、数据块组成。文件头包括标志符、语音特征值、声道特征以及PCM格式类型标志等。WAV数据块是由数据子块标记、数据子块长度和波形音频数据3个数据子块组成。Wave格式支持多种压缩算法，支持多种音频位数、采样频率和声道，是PC机上最为流行的声音文件格式，但其文件尺寸较大，多用于存储简短的声音片断。未压缩的声音文件的存储量未压缩的声音文件的存储量可用下式计算：可用下式计算：存储量（存储量（KBKB）=（采样频率采样频率KHZKHZ采样位数采样位数bitbit声道数声道数时间秒）时间秒）/8/8 2.2.VOCVOC文件文件 VOC文件是Creative公司所使用的标准音频文件格式，多用于保存 Crea

15、tive Sound Blaster(创新声霸)系列声卡所采集的声音数据，被Windows平台和DOS平台所支持。与WAV格式类似，VOC文件由文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始地址的指针，这个指针帮助数据块定位以便顺利找到第一个数据块。数据块分成各种类型的子块，如声音数据、静音、标记、ASCII码文件、重复、重复的结束及终止标记等。3.MPEG音频文件.MP1/.MP2/.MP3这里的音频文件格式指的是MPEG标准中的音频部分，即MPEG音频层(MPEG Audio Layer)。MPEG音频文件的压缩是一种有损压缩，根据压缩质量和编码复杂程度的不同可分

16、为三层(MPEG Audio Layer 1/2/3)，分别对应MP1、MP2和MP3这三种声音文件；MPEG音频编码具有很高的压缩率，MP1和MP2的压缩率分别为41和6181，而MP3的压缩率则高达101121，也就是说一分钟CD音质的音乐，未经压缩需要10MB存储空间，而经过MP3压缩编码后只有1MB左右，同时其音质基本保持不失真。4.RealAudio文件文件.RA/.RM/.RAMRealAudio文件是RealNetworks公司开发的一种新型流式音频(Streaming Audio)文件格式；它包含在RealNetworks所制定的音频、视频压缩规范RealMedia中，主要用于

17、在低速率的广域网上实时传输音频信息；网络连接速率不同，客户端所获得的声音质量也不尽相同：对于28.8kb/s的连接，可以达到广播级的声音质量；如果拥有ISDN或更快的线路连接，则可获得CD音质的声音。5.AIFF文件文件.AIF/.AIFF AIFF是音频交换文件格式(Audio Interchange File Format)的英文缩写，是苹果计算机公司开发的一种声音文件格式；被Macintosh平台及其应用程序所支持，其他专业音频软件包也同样支持这种格式。3.1.4 3.1.4 声音质量的评价声音质量的评价目前有三种方法可以衡量声音的质量。一是用声音信号的带宽来衡量声音的质量，等级由高到

18、低依次是DAT，CD，FM，AM和数字电话。此外，声音质量的度量还有两种基本的方法：一种是客观质量度量，另一种是主观质量度量。评价语音质量时，有时同时采取两种方法评估，有时以主观质量度量为主。1 1以声音的带宽衡量声音的质量以声音的带宽衡量声音的质量2 2、声音客观质量的度量、声音客观质量的度量声音客观质量的度量主要用信噪比(s signal to n niose r ratio，SNR)来度量。它指音源产生最大不失真声音信号强度与同时发出噪音强度之间的比率，通常以S/N表示。一般用分贝（dB）为单位，信噪比越高表示音频质量越好。信噪比(SNR)用下式计算：SNR 10 log(Vsignal

19、)2/(Vnoise)220 log(Vsignal/Vnoise)其中，Vsignal表示信号电压，Vnoise表示噪声电压；SNR的单位为分贝(db)。3 3、声音主观质量的度量、声音主观质量的度量与用SNR客观质量度量相比较，应该可以说人的感觉(如听觉、视觉等)更具有决定意义，感觉上的、主观上的测试应该成为评价声音质量和图像质量不可缺少的部分。而有的学者则认为，在语音和图像信号编码中使用主观质量度量比使用客观质量度量更加恰当，更有意义。可是一般来说，可靠的主观度量值也是比较难获得的，所获得的值也是一个相对值。对声音主观质量度量比较通用的标准是5分制：优(Excellent)、良(Goo

20、d)、中(Fair)、差(Poor)、劣(Bad)。3.2音频信号压缩技术音频信号压缩技术音频信号压缩编码的主要依据是人耳的听觉特性，主要有两点：1.人的听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号人耳听不到.2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时，强声使弱声难以听到，并且两者之间的关系与其相对频率的大小有关.声音编码算法就是通过这些特性来去掉更多的冗余数据，来达到压缩数据的目的。3.2.1 脉冲编码调制脉冲编码调制1编码的原理编码的原理它的原理框图下图所示3.2.1 脉冲编码调制脉冲编码调制1编码的原理编码的原理它的原理框图下图所示模拟信号数字化一般有三个步骤：第

21、一步是采样，就是每隔一段时间间隔读一次声音的幅度；第二步是量化，就是把采样得到的声音信号幅度转换成数字值。但那时并没有涉及如何进行量化。量化有好几种方法，但可归纳成两类：一类称为均匀量化，另一类称为非均匀量化。采用的量化方法不同，量化后的数据量也就不同。因此，可以说量化也是一种压缩数据的方法；第三步是编码，就是按一定格式记录采样和量化后的数据。2均匀量化均匀量化采用相同的“等分尺”来度量采样得到的幅度，也称为线性量化，如图3-4所示。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。3非均匀量化非均匀量化对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化

22、间隔，如图3-5所示。一个CDDA采用脉冲编码调制PCM编码的实例首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘，相乘的结果即输入信号在时间轴上的数字化。然后对采样以后的信号幅值进行量化。最简单的量化方法是均衡量化，这个量化的过程由量化器来完成。对经量化器A/D变换后的信号再进行编码，即把量化的信号电平转换成二进制码组，就得到了离散的二进制输出数据序列x(n)，n表示量化的时间序列，x(n)的值就是n时刻量化后的幅值，以二进制的形式表示和记录。3.2.2 3.2.2 增量调制增量调制它是一种预测编码技术，是PCM编码的一种变形。DM是对实际的采样信号与预测的采样信号之差的极性进行编码，将

23、极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示，或者相反。图3-7 DM波形示意图从上图中可以看到，在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化，这种现象称为增量调制器的“斜率过载”(slope overload)。在输入信号缓慢变化部分，即输入信号与预测信号的差值接近零的区域，增量调制器的输出出现随机交变的“0”和“1”。这种现象称为增量调制器的粒状噪声(granularnoise)，这种噪声是不可能消除的。在输入信号变化快的区域，斜率过载是关心的焦点，而在输入信号变化慢的区域，关心的焦点是粒状

24、噪声。3.2.3 自适应脉冲编码调制自适应脉冲编码调制是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是非瞬时自适应，即量化阶的大小在较长时间才发生变化。改变量化阶大小的方法有两种：一种称为前向自适应，后向自适应。前者是根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信息(side information)传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息。(a)前向自适应(b)后向自适应后向自适应3.2.4 差分脉冲编码调制差分脉冲编码调制是利用样本与样

25、本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是，根据过去的样本去估算(estimate)下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是，PCM是直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值。差分脉冲编码调制的概念示于图差分脉冲编码调制的概念示于图3-93-9。图中的。图中的差分信号差分信号d(k)d(k)是离散输入信号是离散输入信号s(k)s(k)和预测器输和预测器输出的估算值出的估算值

26、se(k-1)se(k-1)之差。注意，之差。注意，se(k-1)se(k-1)是对是对s(k)s(k)的预测值，的预测值，3.2.5 自适应差分脉冲编码调制自适应差分脉冲编码调制综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。它的核心想法是：利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值,使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。它的编码简化框图如图3-10所示。3.3音频编码标准3.3.1 CCITT G系列声音压缩标准系列声音压缩标准CCITT和

27、ISO先后提出了一系列有关语音数据编译码标准,下面简要介绍几种音频编码技术标准。1电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准信号频率规定在300Hz3.4kHz，采用标准的脉冲编码调制(PCM)，当采样频率为8kHz，进行8bit量化时，所得数据速率为64kb/s，即一个数字电话。1972年CCITT为电话质量和语音压缩制定了PCM标准G.711，其速率为64Kbs，使用非线性量化技术，主要用于公共电话网中。2 2调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准频率在50Hz一7kHz范围。G.722标准是采用16kHz采样，14bit量化，信号数据速率为

28、224kbits，采用子带编码方法，将输入音频信号经滤波器分成高子带和低子带两个部分，分别进行ADPCM编码，再混合形成输出码流，224kbits可以被压缩成64kbits，最后进行数据插入(最高插入速率达16kbits)，因此利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号。3 3高保真度立体声音频压缩编码技术标准高保真度立体声音频压缩编码技术标准高保真立体声音频信号频率范围是50Hz20kHz，采用441kHz采样频率，16bit量化进行数字化转换，其数据速率每声道达705kbits。1991年国际标准化组织ISO和CCITT开始联合制定MP

29、EG标准，其中ISOCDlll72-3作为“MPEG音频”标准，成为国际上公认的高保真立体声音频压缩标准。MPEG音频第一和第二层次编码是将输入音频信号进行采样频率为48kHz，44.1kHz，32kHz的采样，经滤波器组将其分为32个子带，同时利用人耳屏蔽效应，根据音频信号的性质计算各频率分量的人耳屏蔽门限，选择各子带的量化参数，获得高的压缩比。MPEG第三层次是在上述处理后再引入辅助子带，非均匀量化和熵编码技术，再进一步提高压缩比。MPEG音频压缩技术的数据速率为每声道32448kbits，适合于CDDA光盘应用。3.3.2 3.3.2 MP3MP3压缩技术压缩技术 MP3的全名是MPEG

30、 Audio Layer-3，简单地说就是一种声音文件的压缩格式。ISO/MPEG音频压缩标准里包括了三个使用高性能音频数据压缩方法的感知编码方案，按照压缩质量(每Bit的声音效果)和编码方案的复杂程度分别是Layer1、Layer2、Layer3。所有这三层的编码采用的基本结构是相同的。它们在采用传统的频谱分析和编码技术的基础上还应用了子带分析和心理声学模型理论。也就是通过研究人耳和大脑听觉神经对音频失真的敏感度，在编码时先分析声音文件的波形，利用滤波器找出噪音电平(Noise Level)，然后滤去人耳不敏感的信号，通过矩阵量化的方式将余下的数据每一位打散排列，最后编码形成MPEG的文件。

31、而音质听起来与CD相差不大。MPEGMPEG的层次与压缩比率的层次与压缩比率 Layer1(相当于384kbps立体声信号)4:1Layer2(相当于192256kbps立体声信号)6:18:1Layer3(相当于112154kbps立体声信号)10:112:13.3.3 MP4压缩技术压缩技术MP4并不是MPEG-4或者MPEG-1Layer4，它的出现是针对MP3的大众化、无版权的一种保护格式，由美国网络技术公司开发，美国唱片行业联合会倡导公布的一种新的网络下载和音乐播放格式。MP4使用的是MPEG-2 AAC技术也就是俗称的a2b或AAC。其中，MPEG-2是MPEG于1994年11月针

32、对数码电视(数码影像)提出的。它的特点就是，音质更加完美而压缩比更加大(1:15)。MPEG-2 AAC(ISO/IEC 13818-7)在采样率为896KHz下提供了148个声道可选范围的高质量音频编码。AAC就是Advanced Audio Coding(先进音频编码)的意思，适用于从比特率在8kbit/s单声道的电话音质到160kbit/s多声道的超高质量音频范围内的编码，并且允许对多媒体进行编码/解码。AAC与MP3相比，增加了诸如对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪优异等MP3没有的特性，使得在音频压缩后仍能完美的再现CD音质。AAC技术主要由以下三个部分组成。第一

33、，AT&T的音频压缩技术专利。它可以将AAC压缩比提高到20:1而不损失音质。这样，一首3分钟的歌仅仅需要2.25MB，这在互联网上的下载速度是很惊人的。第二、安全数据库。它可以为你的AACMusic创建一个特定的密钥，将此密钥存于其数据库中。同时，只有AAC的播放器才能播放含有这种密钥第三、协议认证。这个认证包含了复制许可、允许复制副本数目、歌曲总时间、歌曲可以播放时间以及售卖许可等信息。MP4技术的优越性要远远高于MP3，因为它更适合多媒体技术的发展以及视听欣赏的需求。但是，MP4是一种商品，它利用改良后的MPEG-2 AAC技术并强加上由出版公司直接授权的知识产权协议作为新的标准；而MP

34、3是一种自由音乐格式，任何人都可以自由使用。此外，MP4实际上是由音乐出版界联合授意的官方标准；MP3则是广为流传的民间标准。相比之下，MP3的灵活和自由度要远远大于MP4，这使得音乐发烧友们更倾向于使用MP3。更重要的一点是，MP3是目前最为流行的一种音乐格式，它占据着大量的网络资源，这使得MP4的推广普及难上加难。3.3.4乐器数字接口乐器数字接口MIDI 产生MIDI乐音的方法很多，现在用得较多的方法有两种：一种是频率调制(frequency modulation，FM)合成法，另一种是乐音样本合成法，也称为波形表(Wavetable)合成法。这两种方法目前主要用来生成音乐。FM合成器生

35、成乐音的工作原理主要是把几种乐音的波形用数字来表达，并且用数字计算机而不是用模拟电子器件把它们组合起来，通过数模转换器(digitaltoanalogconvertor，DAC)来生成乐音。但是使用FM合成法来产生各种逼真的乐音是相当困难的，有些乐音几乎不能产生。乐音样本合成法就是把真实乐器发出的声音以数字的形式记录下来，播放时改变播放速度，从而改变音调周期，生成各种音阶的音符。乐音样本的采集相对比较直观。MIDI协议协议提供了一种标准的和有效的方法，用来把演奏信息转换成电子数据。MIDI信息是以“MIDI messages”传输的，它可以被认为是告诉音乐合成器(music synthesiz

36、er)如何演奏一小段音乐的一种指令，而合成器把接收到的MIDI数据转换成声音。国际MIDI协会(International MIDI Association)出版的MIDI 1.0规范对MIDI协议作了完整的说明。MIDIMIDI数据流数据流是单向异步的数据位流(bit stream)，其速率为31.25 kbps，每个字节为10位(1位开始位，8位数据位和1位停止位)。MIDI乐器上的MIDI接口通常包含3种不同的MIDI连接器，用IN(输入),OUT(输出)和THRU(穿越)。MIDI数据流通常由MIDI控制器(MIDI controller)产生，如乐器键盘(musical instru

37、ment keyboard)，或者由MIDI音序器(MIDI sequencer)产生。MIDI控制器是当作乐器使用的一种设备，在播放时把演奏转换成实时的MIDI数据流，MIDI音序器是一种装置，允许MIDI数据被捕获、存储、编辑、组合和重奏。来自MIDI控制器或者音序器的MIDI数据输出通过该装置的MIDI OUT连接器传输。3.4 常用音频处理软件简介常用音频处理软件简介 3.4.1 Cool Edit ProCoolEdit Pro是著名的Syntrillium公司开发的数字音频处理软件，其运行环境为Windows启动后其界面如右图所示。CoolEdit Pro的主要特色有：(1).(1

38、).支持的音支持的音频频格式十分丰富格式十分丰富，多达十余种，还提供了对5种不同类型WAV文件的支持。(2).(2).提供丰富的特殊效果提供丰富的特殊效果。包括3D混响、降噪、滤波、音频缩/放、合声、延迟、变形、反转、静音等。(3).(3).提供了强大的提供了强大的DSPDSP（数字信号处理）能力。能够同时数字信号处理）能力。能够同时处理处理6464条音轨。条音轨。支持录音、回放、混音、音频编辑。借助它，能够方便地制作出自己想要的任何特殊音效，并添加到各种类型的多媒体作品中去。(4).(4).操作界面设计简捷方便操作界面设计简捷方便。在工具栏中，提供了56个图形化按钮。几乎所有的编辑操作都能够

39、方便地进行操作。3.4.2 Gold WaveGoldWave的窗口界面如图下图所示。GoldWave是一款相当不错的数码录音及编辑软件，除了附有许多的效果处理功能外，它还能将编辑好的文件存为WAV、AU、SND、RAW和AFC等格式，而且它可以不经由声卡直接抽取SCSI形式的CDROM中的音乐来录制编辑。作为Wave文件编辑处理工具，支持从MP3、MPG、AVI、ASF、MOV等文件中提取音频进行编辑，所以除了它强大的编辑功能外，用作把以上格式的音频转换成WAV文件也是很方便的。GoldWave同时是较新的、适合于一般进行音频素材采集与制作的软件，它集音频录制和编辑于一体，不仅是一个录音程序

40、，可以很方便地制作CAI课件的背景音乐、音效、录制CD、转换音乐格式等，而且还具有各种复杂的音乐编辑和特效处理功能。该软件不需要安装，只要运行程序文件夹中的可执行程序即可。GoldWave小巧玲珑，只有600K左右，可从http:/下载。3.4.3 CakeWalk（音乐大师）音乐大师）作为一种图形化的音乐编辑软件，CakeWalk的主要工作界面就是各种工作窗口，我们对MIDI事件和音频事件的所有编辑和操作都是在工作窗口中完成的。如下图所示，音轨窗既是CakeWalk主界面的主要组成部分，也是重要的工作窗口。类似的还有钢琴窗帘、事件列表窗、调音台窗等，每个窗口各有所长，分别适用于不同的编辑对象

41、和编辑特征。1.Cakewalkakewalk的的调调音音台台可以自动混音，可以一边播放乐曲，一边记录控制键（滑键）的调整动作，而且多个控制键可以编组控制，这为制作渐强减弱效果提供了最为简单的操作手段。2.对于所有连续变化的数据，例如弯音、调制、控制器、键速和速度等，Cakewalk都提提供供了了手手工工划划线线的的编编辑辑方方式式，用鼠标划一条斜线或曲线便可随意改变数值。因此，对于像弯音轮的细微变化过程、速度的自由变化等之类较难处理的数据，在Cakewalk中都变得异常简单。3.Cakewalk可以将其所有菜单操作命令赋予MIDI键盘，也就是说，可可以以用用合合成成器器的的键键盘盘来来控控制

42、制软软件件的的各各种种操操作作，其功能是所有音序软件中最全面的。4.Cakewalk可以将将音音符符的的位位置置、控控制制器器的的变变化化等等MIDIMIDI信信息息图图形形化地显示出来化地显示出来，因此看起来更加接近总谱。Cakewalk Pro AudioCakewalk Pro Audio的的一些特色功能一些特色功能3.5波形音频文件的采集与制作波形音频文件的采集与制作3.5.1利用利用“录音机录音机”生成和编辑波形文件生成和编辑波形文件Windows录音机的主要功能是录音和放音，使用“录音机”可以录制、混合、播放和编辑声音，也可以将声音链接或插入到另一文档中。其主要功能操作如下所述：

43、（1）波形文件的录制：确保音频输入设备已经连接到计算机。录音机常用的输入设备是麦克风和CD-ROM播放机。（2）波形文件的存储：存储的文件格式为波形（.wav）文件。（3）声音的编辑：复制、粘贴、插入、删除等操作。（4）音频变换与特殊效果：更改声音的大小、速度、回音等。CoolEditPro是一种非常出色的声音编辑器，其主要功能操作如下所述。（1）波形文件的录制：录制及录制参数（采样率、量化位数、单双声道等）的设定。（2）波形文件的存储：存储的文件格式（.wav、.au、.smp、.asf、.wma等）的选择，文件格式与参数（采样率、量化位数、单双声道）的变换。（3）波形文件选定范围播放，记录

44、播放时间。（4）声音的编辑：剪切、拷贝、混合粘贴、插入多轨工程、插入多轨播放列表、删除静音、零点定位、确定节拍等。（5）声音的变换与特殊效果：降噪、扩音、剪接、添加立体环绕、淡入淡出、3D回响等音效。3.5.2用用Cool Edit Pro编辑制作波形文件编辑制作波形文件3.6 声音文件格式的互换声音文件格式的互换1 1选择声音文件格式的部分原则 1）Wav文件：不仅所有的Windows的音效处理应用程序都可以播放WAVE文件，而且常见的各种多媒体编辑制作软件的音效播放都能直接使用WAV文件。再者，WAV格式的音质效果也不错。2）MP3文件：如果通过适当的工具来截取CD上的数字音频并保存为CD

45、音质的WAVE文件，然后进行MPEG Layer 3的压缩编码形成MP3文件，再用合适的解码软件对MP3解码。那么可以形成一个节约大量存储空间，保持CD音质的整体解决方案。3）MIDI文件：是多媒体计算机产生音频（特别是音乐）的另一种主要方式，可以满足需要长时间音乐的场合。4）SWA文件：SWA格式的音乐文件，是Authorware4.0以上版本支持的特殊音乐格式，它的容量类似于流行的MP3，也非常小。在Authorware4.0或4.0以上版本中，自带WAVSWA转换器，3.6.2转换转换CD音轨音轨下面以比较常用的CDCopy为例来说明一下如何转换CD音轨。CDCopy是一个常用的抓音轨工

46、具，它对烂盘的纠错性能非常好，还可以把CD音轨转换为WAV、AU、RA、YamahaVQF、AAC、MP3等多种声音格式，而且CDCopy是一个共享软件，我们可以从http:/下载到它的最新版本。抓取及转换音轨步骤分以下3步：1选择文件格式2设置文件保存路径3转换音轨3.7.1语音识别的发展历史语音识别的发展历史可以将语音识别近六十年的发展历史划分为4个时期：（1）初始发展期（2）基础突破期（3）综合发展期（4）成熟期 3.7 语音识别技术及应用语音识别技术及应用3.7.2语音识别技术语音识别技术语音识别以语音为研究对象，是语音信号处理的一个重要研究方向，是模式识别的一个分支，其目的就是要让

47、机器具有人的听觉功能，在人机语音通讯中“听懂”人类口述的语言。根据不同的需求，语音识别的识别内容可分为狭义的语音识别和说话人语音识别。1语音识别技术的基础语音识别技术的基础一个完整的语音识别系统可大致分为三部分：（1）语音特征提取：其目的是从语音波形中提取出随时间变化的语音特征序列。（2）声学模型与模式匹配（识别算法）：声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型（模式）进行匹配与比较，得到最佳的识别结果。（3）语言模型与语言处理：语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。对小词表语音识别系统，往往不

48、需要语言处理部分。声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方

49、面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系，减少了识别系统的搜索空间，这有利于提高系统的识别。2语音识别的基本原理语音识别的基本原理预处理预处理包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等，并涉及到语音识别基元的选取和端点检测问题：特征提取部分特征提取部分用于提取语音中反映本质特征的声学参数，如平均能量、平均跨零率、共振峰等；训练训练在识别之前进行，通过让讲话者多次重复语音，从原始语音样本中去除冗余信息，保留关键数据，再按照一定规则对数据加以聚类，形成模式库；模式匹配部分模式

50、匹配部分是整个语音识别系统的核心，它是根据一定的准则（如某种距离测度）以及专家知识（如构词规则、语法规则、语义规则等），计算输入特征与库存模式之间的相似度，判断出输入语音的语意信息。3 3处理的方法：处理的方法：(1)连续语音流的预处理波形硬件采样率的确定、分帧大小与帧移策略的确定；剔除噪声的带通滤波、高频预加重处理、各种变换策略；波形的自动切分(依赖于识别基元的选择方案)。(2)特征参数提取识别语音的过程，实际上是对语音特征参数模式的比较和匹配的过程。语音特征参数的选取对系统识别结果起着重要的作用。因此，必须寻找一个既能充分表达语音特征又能彼此区别的特征参数，这是语音识别中的一个最重要基本

展开阅读全文

第3章 音频信息处理.ppt

第3章音频信息处理.ppt