《第2章数字音频处理(第二次课).ppt》由会员分享,可在线阅读,更多相关《第2章数字音频处理(第二次课).ppt(89页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 第第2章章 数字音频处理数字音频处理 本章重点本章重点:n模拟音频与数字音频的概念模拟音频与数字音频的概念n数字音频的获取数字音频的获取n音频信号压缩编码标准音频信号压缩编码标准n音乐合成和语音识别音乐合成和语音识别 第第2章章 数字音频处理数字音频处理n2.1概述概述n2.2数字音频的获取数字音频的获取n2.3音频信号压缩编码标准音频信号压缩编码标准n2.4音乐合成和音乐合成和MIDIn2.5语音识别语音识别n2.6实例实例 VC+播放声音的实现播放声音的实现n2.7本章小结本章小结2.12.1概述概述声音是携带信息的重要媒体。研究表明,人类从声音是携带信息的重要媒体。研究表明,人类从外部
2、世界获取的信息中,外部世界获取的信息中,10%10%是通过听觉获得的是通过听觉获得的,因此声音是多媒体技术研究中的一个重要内容。因此声音是多媒体技术研究中的一个重要内容。声音是由物体振动产生的,这种振动引起周围空声音是由物体振动产生的,这种振动引起周围空气压强的振荡,从而使耳朵产生听觉的印象。气压强的振荡,从而使耳朵产生听觉的印象。声音的种类繁多,人的语音是最重要的声音。此声音的种类繁多,人的语音是最重要的声音。此外,还有动物、乐器等发出的声音,风声、雨声、外,还有动物、乐器等发出的声音,风声、雨声、雷声等自然声音,以及机器合成产生的声音等。雷声等自然声音,以及机器合成产生的声音等。2.12.
3、1概述概述幅幅值值t一个周期一个周期+空气压强空气压强图图2.1 空气压强振荡的波形示意图空气压强振荡的波形示意图0 人耳能识别的声音频率范围大约在人耳能识别的声音频率范围大约在202020kHz20kHz,通常称为音频(通常称为音频(audioaudio)信号。信号。2.12.1概述概述 声音包含三个要素:音调、音强和音色。声音包含三个要素:音调、音强和音色。基频与音调:一个声源每秒钟可产生成百上基频与音调:一个声源每秒钟可产生成百上千个波,通常把每秒钟波峰所产生的数目称之为千个波,通常把每秒钟波峰所产生的数目称之为信号的频率,单位用赫兹信号的频率,单位用赫兹(Hz)或千赫兹或千赫兹(kHz
4、)表表示。示。人对声音频率的感觉表现为音调的高低,在人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率音乐中称为音高。音调正是由频率所决定的。所决定的。2.12.1概述概述 音乐中音阶的划分是在音乐中音阶的划分是在频率频率的对数坐标的对数坐标(20log)上取等分而得的。如表所示上取等分而得的。如表所示,20log261=48.3,20log293=49.3等。等。音阶音阶C CD DE E F FG GA AB B简谱符号简谱符号1 12 23 34 45 56 67 7频率频率(H(HZ Z)2612612932933303303493493923924404404944
5、94频率频率(对数对数)48.348.349.349.350.350.350.850.851.851.852.852.853.853.82.12.1概述概述谐波与音色:谐波与音色:no称为基波称为基波o的的n次谐波分量次谐波分量(n就是高次谐波的方次,就是高次谐波的方次,n o就是基波就是基波o的的n次次谐波谐波),也称为泛音。音色是由混入基音的泛音所决,也称为泛音。音色是由混入基音的泛音所决定的定的。幅度与音强:信号的幅度是从信号的基线到当前波幅度与音强:信号的幅度是从信号的基线到当前波峰的距离。峰的距离。幅度决定了信号音量的强弱程度。幅度越幅度决定了信号音量的强弱程度。幅度越大,声音越强。
6、一般用动态范围定义相对强度:大,声音越强。一般用动态范围定义相对强度:动态范围动态范围20log(信号的最大强度信号的最大强度/信号的最小强度信号的最小强度)(dB)2.12.1概述概述音宽与频带:频带宽度,也称为带宽,它是描音宽与频带:频带宽度,也称为带宽,它是描述组成复合信号的频率范围。述组成复合信号的频率范围。客观上,通常用频带宽度、动态范围、信噪比客观上,通常用频带宽度、动态范围、信噪比等指标衡量音频信号的质量。音频信号的频带越等指标衡量音频信号的质量。音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。宽,所包含的音频信号分量越丰富,音质越好。动态范围越大,信号强度的相对变化范
7、围越大,动态范围越大,信号强度的相对变化范围越大,音响效果越好。音响效果越好。CD-DA数字音乐、FM广播、AM广播和电话的带宽10 20 50 200 3.4 K 7K 15K 22K f(Hz)电话AM广播CDDAFM广播图2.3 几种音频业务的频带宽度10 20 50 200 3.4K 7K 15K 22K f(Hz)电话AM广播CDDAFM广播图2.3 几种音频业务的频带宽度2.12.1概述概述 声音的质量可以通过信噪比来度量。信噪比声音的质量可以通过信噪比来度量。信噪比(SNR,Signal to Noise Ratio)是有用信号与噪声是有用信号与噪声之比的简称,定义为:之比的简称
8、,定义为:信噪比越大,声音质量越好。信噪比越大,声音质量越好。2.22.2数字音频的获取数字音频的获取n2.2.1采样采样n2.2.2量化量化n2.2.3数字音频的技术指标数字音频的技术指标n2.2.4数字音频的文件格式数字音频的文件格式音频信息处理结构框图 2.2.12.2.1采样采样图2.5 模拟信号的采样 所谓采样就是在某些特定的时刻对模拟信号进所谓采样就是在某些特定的时刻对模拟信号进行取值,如上图所示。采样的过程是每隔一个时行取值,如上图所示。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅值,把时间间间隔在模拟声音的波形上取一个幅值,把时间上的连续信号变成时间上的离散信号。上的
9、连续信号变成时间上的离散信号。2.2.12.2.1采样采样 采样时间间隔称为采样周期采样时间间隔称为采样周期t,其倒数为采样频其倒数为采样频率率fs=1/t。一般来讲,采样频率越高,则在单位时一般来讲,采样频率越高,则在单位时间内计算机得到的声音样本数据就越多,对声音间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确,声音失真越小,但用于存波形的表示也越精确,声音失真越小,但用于存储音频的数据量越大。储音频的数据量越大。根据奈奎斯特定理,只有采样频率高于声音信根据奈奎斯特定理,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声号最高频率的两倍时,才能把数字信号表示的声音
10、还原为原来的声音。音还原为原来的声音。2.2.22.2.2量化量化 每个采样值在幅度上进行离散化处理的过程称每个采样值在幅度上进行离散化处理的过程称为量化为量化。量化可分为均匀量化和非均匀量化。均匀量化量化可分为均匀量化和非均匀量化。均匀量化是把将采样后的信号按整个声波的幅度等间隔分是把将采样后的信号按整个声波的幅度等间隔分成有限个区段,把落入某个区段内的样值归为一成有限个区段,把落入某个区段内的样值归为一类,并赋于相同的量化值。以类,并赋于相同的量化值。以8bit或或16bit的方式来的方式来划分纵轴为例,其纵轴将会被划分为划分纵轴为例,其纵轴将会被划分为28个和个和216个个量化等级,用以
11、记录其幅度大小。量化等级,用以记录其幅度大小。均匀量化 2.2.22.2.2量化量化 非均匀量化是根据信号的不同区间来确定量化非均匀量化是根据信号的不同区间来确定量化间隔。对于信号值小的区间,其量化间隔也小;间隔。对于信号值小的区间,其量化间隔也小;反之,量化间隔就大。反之,量化间隔就大。量化会引入失真,并且量化失真是一种不可逆量化会引入失真,并且量化失真是一种不可逆失真,这就是通常所说的量化噪声。失真,这就是通常所说的量化噪声。模拟信号经过采样和量化,形成一系列离散信号。这种数字信号可以以一定方式进行编码,形成计算机内部存储运行的数据,经过编码后的声音信号就是数字音频信号。2.2.32.2.
12、3数字音频的技术指标数字音频的技术指标 衡量数字音频的主要指标包括:衡量数字音频的主要指标包括:采样频率采样频率量化位数量化位数 通道通道(声道声道)个数个数 数据传输率是计算机处理时基本参数。未经压数据传输率是计算机处理时基本参数。未经压缩的数字音频数据传输率可按下式计算:缩的数字音频数据传输率可按下式计算:数据传输率数据传输率=采样频率采样频率量化位数量化位数声道数声道数 2.2.32.2.3数字音频的技术指标数字音频的技术指标例例:假定语音信号的带宽是50 Hz10kHz,而音乐信号的是15Hz 20 kHz。采用奈奎斯特频率,并用12bit表示语音信号样值,用16bit表示音乐信号样值
13、,计算这两种信号数字化以后的比特率以及存储一段10分钟的立体声音乐所需要的存储器容量。解:语音信号:取样频率210kHz20kHz;比特率=20k12240 kbit/s 音乐信号:取样频率220kHz40kHz;比特率40kl6bit/s21280kbits(立体声-双声道)所需存储空间1280k 600896MB2.2.42.2.4数字音频的文件格式数字音频的文件格式WAVWAV文件格式简介文件格式简介 WAVWAV是是Microsoft WindowsMicrosoft Windows提供的音频格式。这个提供的音频格式。这个格式是目前通用音频格式,它通常用来保存一些没格式是目前通用音频格
14、式,它通常用来保存一些没有压缩的音频。目前所有的音频播放软件和编辑软有压缩的音频。目前所有的音频播放软件和编辑软件都支持这一格式。件都支持这一格式。WAVWAV文件由三部分组成:文件头文件由三部分组成:文件头(标明是标明是WAVWAV文件、文件、文件结构和数据的总字节数文件结构和数据的总字节数)、数字化参数、数字化参数(如采样如采样频率、声道数、编码算法等频率、声道数、编码算法等),最后是实际波形数据,最后是实际波形数据。一般来说,声音质量与其。一般来说,声音质量与其WAVWAV格式的文件大小成正格式的文件大小成正比。比。nWAVE(Waveform Audio File Format)文件是
15、多媒体中使用的声音文件格式之一,它以RIFF格式为基础,每个WAVE文件的头四个字节为“RIFF”。WAVE文件的扩展名为“.WAV”。WAVE 文件格式WAVE 文件格式Format 块块Sound 数据块数据块 RIFF WAVE Chunk WAVE文件由文件头和数据两部分组成。最小的 WAVE文件结构 _|RIFF WAVE Chunk|groupID=RIFF|riffType=WAVE|_|Format Chunk|ckID=fmt|_|_|Sound Data Chunk|ckID=data|_|_ _|RIFF WAVE 块头块标志 RIFF块大小 (32-bits)Wave类
16、型标志 WAVEThe Format(fmt)Chunk格式块(fmt)是WAVE文件必选项,描述波形文件的基本参数,如采样率、位分辨率以及通道数等。#define FormatID fmt /*chunkID for Format Chunk.*/typedef struct ID chunkID;long chunkSize;short wFormatTag;/*currently PCM*/unsigned short wChannels;/*num of channels*/unsigned long dwSamplesPerSec;/*sample rate in Hz*/unsig
17、ned long dwAvgBytesPerSec;/*xxx Bytes/s*/unsigned short wBlockAlign;/*1/2/4-8/16 mono/stereo*/unsigned short wBitsPerSample;/*bits in a sample*/*根据 wFormatTag不同,可以有附加字段.*/FormatChunk;Data Chunk数据块包含实际的波形数据:#define DataID data/*chunk ID for data Chunk*/typedef struct ID chunkID;long chunkSize;unsigne
18、d char waveformData;DataChunk;Offset Description-Offset Contents-0 x00 chunk id RIFF0 x04 chunk size(32-bits)0 x08 wave chunk id WAVE0 x0C0 x0C format chunk id format chunk id fmtfmt 0 x10 0 x10 format chunk size(32-bits)format chunk size(32-bits)0 x14 format tag (currently PCM)0 x16 number of chann
19、els 1=mono,2=stereo0 x18 sample rate in Hz0 x1C average bytes per second-Offset Contents-0 x20 number of bytes per sample 1=8-bit mono 2=8-bit stereo or 16-bit mono 4=16-bit stereo 0 x22 number of bits in a sample 0 x240 x24 data chunk id datadata chunk id data 0 x280 x28 length of data chunk(32-bit
20、s)length of data chunk(32-bits)0 x2C Sample data-2.2.42.2.4数字音频的文件格式数字音频的文件格式MP3MP3文件格式简介文件格式简介 MP3MP3是第一个实用的有损音频压缩编码技术。在是第一个实用的有损音频压缩编码技术。在MP3MP3出现之前,一般的音频编码即使以有损方式进出现之前,一般的音频编码即使以有损方式进行压缩,能达到行压缩,能达到4:14:1的压缩比例已经非常不错了。的压缩比例已经非常不错了。但是,但是,MP3MP3可以实现可以实现12:112:1的压缩比例。的压缩比例。衡量衡量MP3MP3文件的压缩比例通常使用比特率来表示文
21、件的压缩比例通常使用比特率来表示。通常比特率越高,压缩文件就越大,但音乐中。通常比特率越高,压缩文件就越大,但音乐中获得保留的成分就越多,音质就越好。获得保留的成分就越多,音质就越好。2.2.42.2.4数字音频的文件格式数字音频的文件格式MIDI MIDI 文件格式简介文件格式简介 MIDIMIDI最初应用在电子乐器上用来记录乐手的弹最初应用在电子乐器上用来记录乐手的弹奏,以便以后重播。随着在电脑里面引入了支持奏,以便以后重播。随着在电脑里面引入了支持MIDIMIDI合成的声音卡之后,合成的声音卡之后,MIDIMIDI才正式地成为了一才正式地成为了一种音频格式。种音频格式。MIDIMIDI的
22、内容除了乐谱之外还记录了的内容除了乐谱之外还记录了每个音符的弹奏方法。每个音符的弹奏方法。2.2.42.2.4数字音频的文件格式数字音频的文件格式 各种文件格式与各种文件格式与WAVWAV格式之间可以进行转换。格式之间可以进行转换。最简单的方法就是使用最简单的方法就是使用WINAMPWINAMP。只要只要WINAMPWINAMP能播能播放某种格式的音乐,就可以通过它的放某种格式的音乐,就可以通过它的Output Output PluginPlugin中的中的Disk Writer Disk Writer PluginPlugin 来输出为来输出为WAVWAV文文件。目前件。目前WINAMPWI
23、NAMP支持的格式包括:支持的格式包括:VOCVOC、WAVWAV、MIDMID、MP3MP3、MP2MP2、MP1MP1、CDCD、ITIT、XMXM、S3MS3M、STMSTM、MODMOD、DSMDSM、FARFAR、ULTULT、MTMMTM、669669、ASAS、WMAWMA、MJFMJF。2.32.3音频信号压缩编码音频信号压缩编码n2.3.12.3.1概述概述n2.3.32.3.3音频数据的标准音频数据的标准为什么要进行语音编码?随着对音质要求的增加,信号频率范围逐渐增随着对音质要求的增加,信号频率范围逐渐增加,要求描述信号的数据量也就随之增加,从而加,要求描述信号的数据量也就
24、随之增加,从而带来处理这些数据的时间和传输、存储这些数据带来处理这些数据的时间和传输、存储这些数据的容量增加,因此多媒体音频压缩技术是多媒体的容量增加,因此多媒体音频压缩技术是多媒体技术实用化的关键之一。技术实用化的关键之一。2.3.12.3.1概述概述根据解压后数据是否有失真可以将音频压缩根据解压后数据是否有失真可以将音频压缩分为无损压缩(无失真压缩)和有损压缩(有失分为无损压缩(无失真压缩)和有损压缩(有失真压缩)。真压缩)。无损压缩的压缩效率低,但是可以无失真地重现无损压缩的压缩效率低,但是可以无失真地重现原始数据。原始数据。无损压缩的压缩效率较高,但有数据丢失。无损压缩的压缩效率较高,
25、但有数据丢失。2.3.12.3.1概述概述 音频信息编码技术主要可分为三类音频信息编码技术主要可分为三类 。波形编码:这种方法主要基于语音波形预测,波形编码:这种方法主要基于语音波形预测,它力图使重建的语音波形保持原有的波形状态。它力图使重建的语音波形保持原有的波形状态。常用的波形编码技术有增量调制常用的波形编码技术有增量调制(DM)(DM)、自适应差自适应差分脉冲编码调制分脉冲编码调制(ADPCM)(ADPCM)、子带编码子带编码(SBC)(SBC)和矢量和矢量量化编码量化编码(VQ)(VQ)等等。等等。2.3.12.3.1概述概述 波形编码的特点是在高码率的条件下获得高波形编码的特点是在高
26、码率的条件下获得高质量的音频信号,适用于高保真度语音和音乐信质量的音频信号,适用于高保真度语音和音乐信号的压缩技术。号的压缩技术。它的优点是编码方法简单、易于实现、适应能它的优点是编码方法简单、易于实现、适应能力强、语音质量好等,缺点是压缩比相对来说较力强、语音质量好等,缺点是压缩比相对来说较低,需要较高的编码速率。低,需要较高的编码速率。2.3.12.3.1概述概述参数编码:参数编码的方法是将音频信号以某参数编码:参数编码的方法是将音频信号以某种模型表示,再抽出合适的模型参数和参考激励种模型表示,再抽出合适的模型参数和参考激励信号进行编码;声音重放时,再根据这些参数重信号进行编码;声音重放时
27、,再根据这些参数重建即可。显然参数编码压缩比很高,但计算量建即可。显然参数编码压缩比很高,但计算量大。它主要用于在窄带信道上提供大。它主要用于在窄带信道上提供4.8kb/s4.8kb/s以下以下的低速语音通信和一些对延时要求较宽的应用场的低速语音通信和一些对延时要求较宽的应用场合(如卫星通信等)。最常用的参数编码法为线合(如卫星通信等)。最常用的参数编码法为线性预测(性预测(LPCLPC)编码。编码。2.3.12.3.1概述概述混合编码:这种方法克服了原有波形编码与参混合编码:这种方法克服了原有波形编码与参数编码的弱点,并且结合了波形编码的高质量和数编码的弱点,并且结合了波形编码的高质量和参数
28、编码的低数据率,取得了比较好的效果。混参数编码的低数据率,取得了比较好的效果。混合编码是指同时使用两种或两种以上的编码方法合编码是指同时使用两种或两种以上的编码方法进行编码的过程。由于每种编码方法都有自己的进行编码的过程。由于每种编码方法都有自己的优势和不足,若是用两种或两种以上的编码方法优势和不足,若是用两种或两种以上的编码方法进行编码,可以优势互补,克服各自的不足,从进行编码,可以优势互补,克服各自的不足,从而达到高效数据压缩的目的。而达到高效数据压缩的目的。2.3.32.3.3音频数据的标准音频数据的标准 从数据通信的角度,音频编码标准主要有三种从数据通信的角度,音频编码标准主要有三种:
29、在电话传输系统中应用的电话质量的音频压缩编码在电话传输系统中应用的电话质量的音频压缩编码技术标准技术标准,如如PCMPCM(ITU G.711ITU G.711)等等。在窄带综合服务数据网传送中应用的调幅广播质量在窄带综合服务数据网传送中应用的调幅广播质量的音频压缩编码技术标准的音频压缩编码技术标准,如如G.722G.722等。等。在电视传输系统、视频点播系统中应用的音频编码在电视传输系统、视频点播系统中应用的音频编码标准,如标准,如MPEGMPEG音频标准等。音频标准等。2.3.32.3.3音频数据的标准音频数据的标准l电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准G.711G
30、.711标准是标准是19721972年年CCITTCCITT(现称为现称为ITU-ITU-T T)制定的制定的PCMPCM语音标准,采样频率为语音标准,采样频率为8kHz8kHz,每个样本值用每个样本值用8 8位二进制编码,因此输出位二进制编码,因此输出的数据的数据率率64kb/s.64kb/s.2.3.32.3.3音频数据的标准音频数据的标准l调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准 调幅广播质量音频信号的频率在调幅广播质量音频信号的频率在50Hz50Hz7kHz7kHz范范围。围。CCITTCCITT在在19881988年制定了年制定了G.722G.722标准。
31、标准。G.722G.722标准标准是采用是采用16kHz16kHz采样,采样,14bit14bit量化,信号数据速率为量化,信号数据速率为224kbit/s224kbit/s。2.3.32.3.3音频数据的标准音频数据的标准l 高保真度立体声音频压缩编码技术标准 高保真立体声音频信号频率范围是高保真立体声音频信号频率范围是50Hz50Hz20kHz20kHz,采用采用44.1kHz44.1kHz采样频率,采样频率,16bit16bit量化进行数字化转换,其数据速量化进行数字化转换,其数据速率每声道率每声道705kbit/s705kbit/s。为了制定一套通用的视频和声音编码方案,为了制定一套通
32、用的视频和声音编码方案,ISO/IECISO/IEC标标准组织成立了准组织成立了ISO/IEC/JTC1/SC29/WG11,ISO/IEC/JTC1/SC29/WG11,即运动图像专家即运动图像专家组(组(Moving Picture Experts Moving Picture Experts Group,MPEGGroup,MPEG),它开发了),它开发了一系列标准,如一系列标准,如MPEG-1MPEG-1,MPEG-2MPEG-2,MPEG-4MPEG-4,MPEG-7MPEG-7,MPEG-21MPEG-21等。等。MPEG-1MPEG-1于于19921992年年1111月完成,其中
33、月完成,其中ISO11172.3ISO11172.3作为作为“MPEGMPEG音频音频”标准,成为国际上公认的高保真立体声音频标准,成为国际上公认的高保真立体声音频压缩标准。压缩标准。2.3.32.3.3音频数据的标准音频数据的标准nMPEG-2MPEG-2也定义了音频标准,由两部分组成,即也定义了音频标准,由两部分组成,即MPEG-2MPEG-2音频(音频(ISO/IEC 13818-3ISO/IEC 13818-3)和)和MPEG-2 AACMPEG-2 AAC(先进的音频(先进的音频编码,编码,ISO/IEC 13818-7 ISO/IEC 13818-7)。)。MPEG-2MPEG-2
34、音频编码标准是音频编码标准是对对MPEG-1MPEG-1向后兼容的、支持二至五声道的后继版本。向后兼容的、支持二至五声道的后继版本。nMPEG-4MPEG-4的音频部分国际标准号是的音频部分国际标准号是ISO/IEC 14496-3ISO/IEC 14496-3,可,可集成从话音到高质量的多通道声音,从自然声音到合集成从话音到高质量的多通道声音,从自然声音到合成声音。合成部分的组合工具可以实现对音乐和语音成声音。合成部分的组合工具可以实现对音乐和语音按符号进行定义,它包括按符号进行定义,它包括MIDIMIDI系统和文本系统和文本-语音转换系语音转换系统。此外,它还包括对声音的三维空间定位工具,
35、可统。此外,它还包括对声音的三维空间定位工具,可以利用人工音源和自然音源人为地制造出声音。以利用人工音源和自然音源人为地制造出声音。nMPEG-7 AudioMPEG-7 Audio标准提供了音频描述工具。标准提供了音频描述工具。2.3.32.3.3音频数据的标准音频数据的标准nAAC(Advanced Audio Coding),中文称为“先进音频编码”,出现于1997年,最初是基于MPEG-2的音频音频编码技术。由Fraunhofer IIS、Dolby Laboratories(杜比实验室)、AT&T(美国电话电报公司)、Sony(索尼)等公司共同开发,目的是取代MP3格式。2000年,
36、MPEG-4标准出台,AAC重新集成了其特性,加入了SBR技术和PS技术,为区别于传统的MPEG-2 AAC,故含有SBR或PS特性的AAC又称为MPEG-4 AAC。2.3.32.3.3音频数据的标准音频数据的标准n作为一种高压缩比的音频压缩算法压缩算法,AAC压缩比通常为18:1,远胜mp3;在音质方面,由于采用多声道,和使用低复杂性的描述方式,使其比几乎所有的传统编码方式在同规格的情况下更胜一筹。不过直到2006年,使用这一格式储存音乐的并不多,可以播放该格式的mp3播放器更是少之又少,目前所知仅有苹果iPod、Sony Walkman(NWZ-A、NWZ-S、NWZ-E、NWZ-X系列
37、)、任天堂NDSi,此外计算机上很多音乐播放软体都支持AAC(前提是安装过AAC解码器),如苹果iTunes。但在移动电话领域,AAC的支持度已很普遍,Nokia、Sony Ericsson、Motorola 等品牌均在其中高端产品中支持 AAC。2.42.4音乐合成和音乐合成和MIDIMIDIn2.4.1概述n2.4.2计算机上合成音乐的产生过程n2.4.3MIDI音乐合成器2.4.12.4.1概述概述 数字音频实际上是一种数字式录音数字音频实际上是一种数字式录音/重放的过重放的过程,它需要很大的数据量。在多媒体系统中,除程,它需要很大的数据量。在多媒体系统中,除了用数字音频的方式之外,还可
38、以用采样合成的了用数字音频的方式之外,还可以用采样合成的方式产生音乐。音乐合成的方式是根据一定的协方式产生音乐。音乐合成的方式是根据一定的协议标准,采用音乐符号记录方法来记录和解释乐议标准,采用音乐符号记录方法来记录和解释乐谱,并合成相应的音乐信号,这也就是谱,并合成相应的音乐信号,这也就是MIDIMIDI(Musical Instrument Digital InterfaceMusical Instrument Digital Interface)方方式。式。2.4.12.4.1概述概述 MIDIMIDI是乐器数字接口的缩写,泛指数字音乐是乐器数字接口的缩写,泛指数字音乐的国际标准,它是音
39、乐与计算机结合的产物。的国际标准,它是音乐与计算机结合的产物。MIDIMIDI不是把音乐的波形进行数字化采样和编码,不是把音乐的波形进行数字化采样和编码,而是将数字式电子乐器弹奏过程记录下来,如按而是将数字式电子乐器弹奏过程记录下来,如按了哪一个键、力度多大、时间多长等。当需要播了哪一个键、力度多大、时间多长等。当需要播放这首乐曲时,根据记录的乐谱指令,通过音乐放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。合成器生成音乐声波,经放大后由扬声器播出。2.4.12.4.1概述概述 音乐合成器生成音乐采用音乐合成器生成音乐采用MIDIMIDI文件存储。文件存储。
40、MIDIMIDI文件是用来记录音乐的一种文件格式,文件后缀文件是用来记录音乐的一种文件格式,文件后缀是是“.mid.mid”或者或者“.midi.midi”。这种文件格式非常这种文件格式非常特殊,其中记录的不是音频数据,而是演奏音乐特殊,其中记录的不是音频数据,而是演奏音乐的指令,不同的指令与不同的乐器对应,就像乐的指令,不同的指令与不同的乐器对应,就像乐队演奏交响曲一样,每一种乐器发出不同的声音队演奏交响曲一样,每一种乐器发出不同的声音,合在一起组成了听众听到的音乐。,合在一起组成了听众听到的音乐。2.4.12.4.1概述概述 一个一个MIDIMIDI文件包括一个头块和若干个轨迹块。文件包括
41、一个头块和若干个轨迹块。每个轨迹块中可以包含若干个指令,每个指令的每个轨迹块中可以包含若干个指令,每个指令的基本格式是一样的,在基本格式的基础上各个指基本格式是一样的,在基本格式的基础上各个指令有所差别,指令可以用来记录一个声音、一个令有所差别,指令可以用来记录一个声音、一个系统命令等内容。系统命令等内容。2.4.22.4.2计算机上合成音乐的产生过程计算机上合成音乐的产生过程MIDI音乐的产生过程如图音乐的产生过程如图:图图2.12 MIDI音乐的产生过程示意图音乐的产生过程示意图MIDI指令指令MIDI乐器乐器MIDI接口接口合成器合成器扬声器扬声器音序器音序器MIDI文件文件音频卡音频卡
42、PC机机2.42.4音乐合成和音乐合成和MIDIMIDI 把把MIDI指令送到合成器,由合成器产生相应指令送到合成器,由合成器产生相应的声音的声音。MIDI标准提供了标准提供了1616个通道。按照所用通个通道。按照所用通道数的不同,合成器又可分成基本型和扩展型两道数的不同,合成器又可分成基本型和扩展型两种,如下表所示。种,如下表所示。合成器类型 旋律乐器通道 打击乐器通道 基本合成器 1315 16 扩展合成器 19 10 2.42.4音乐合成和音乐合成和MIDIMIDI MIDI合成的产生方式有两种:合成的产生方式有两种:FM(frequency Modulation)合成和波形表合成和波形
43、表(wavetable)合成。合成。FM是使高频振荡波的频率按调制信号规律变化的一是使高频振荡波的频率按调制信号规律变化的一种调制方式。种调制方式。FM频率调制合成是通过硬件产生频率调制合成是通过硬件产生正弦信号,再经处理合成音乐。合成的方式是将正弦信号,再经处理合成音乐。合成的方式是将波形组合在一起。波形组合在一起。2.42.4音乐合成和音乐合成和MIDIMIDI 目前较高级的音频卡一般都采用波形表合成方目前较高级的音频卡一般都采用波形表合成方式。波形表的原理是在式。波形表的原理是在ROM中已存储各种实际乐中已存储各种实际乐器的声音采样,当需要合成某种乐器的声音时,器的声音采样,当需要合成某
44、种乐器的声音时,调用相应的实际声音采样合成该乐器的乐音。显调用相应的实际声音采样合成该乐器的乐音。显然,然,ROM存储器的容量越大,合成的效果越好,存储器的容量越大,合成的效果越好,但价格也越贵。但价格也越贵。2.52.5语音识别语音识别n2.5.1文本-语音TTS技术n2.5.2语音识别系统实例-IBM Via Voice2.5.12.5.1文本文本-语音语音TTSTTS技术技术TTSTTS的基本概念的基本概念 文语转换(文语转换(Text-to-SpeechText-to-Speech)是将文本形式的是将文本形式的信息转换成自然语音的一种技术,其最终目标是信息转换成自然语音的一种技术,其最
45、终目标是力图使计算机能够以清晰自然的声音,以各种各力图使计算机能够以清晰自然的声音,以各种各样的语言,甚至以各种各样的情绪来朗读任意的样的语言,甚至以各种各样的情绪来朗读任意的文本。也就是说,要使计算机具有像人一样、甚文本。也就是说,要使计算机具有像人一样、甚至比人更强的说话能力。因而它是一个十分复杂至比人更强的说话能力。因而它是一个十分复杂的问题,涉及到语言学、韵律学、语音学、自然的问题,涉及到语言学、韵律学、语音学、自然语言处理、信号处理、人工智能等诸多的学科。语言处理、信号处理、人工智能等诸多的学科。2.5.12.5.1文本文本-语音语音TTSTTS技术技术 TTSTTS分为综合的和连贯
46、的两种类型。综合的语分为综合的和连贯的两种类型。综合的语音就是通过分析单词,由计算机确认单词的发音音就是通过分析单词,由计算机确认单词的发音,然后这些音素就被输入到一个复杂的模仿人声,然后这些音素就被输入到一个复杂的模仿人声音并发声的算法,这样就可以读文本了。通过这音并发声的算法,这样就可以读文本了。通过这种方式,种方式,TTSTTS就能读出任何单词,甚至自造的词就能读出任何单词,甚至自造的词,但是它发出的声音不带任何感情,带有明显的,但是它发出的声音不带任何感情,带有明显的机器语音味道。机器语音味道。2.5.12.5.1文本文本-语音语音TTSTTS技术技术 连贯语音系统分析文本从预先备好的
47、文库里抽连贯语音系统分析文本从预先备好的文库里抽出单词和词组的录音。数字化录音是连贯的,因出单词和词组的录音。数字化录音是连贯的,因为声音是事先录制的语音,听起来很舒服。遗憾为声音是事先录制的语音,听起来很舒服。遗憾的是,如果文本包含没有录的词和短语,的是,如果文本包含没有录的词和短语,TTSTTS就就读不出来了。连贯读不出来了。连贯TTSTTS可以被看成是一种声音压可以被看成是一种声音压缩形式,因为单词和常用的短语只能录一次。连缩形式,因为单词和常用的短语只能录一次。连贯贯TTSTTS会节省开发时间并减少错误,使软件增加会节省开发时间并减少错误,使软件增加相应的功能。相应的功能。2.5.12
48、.5.1文本文本-语音语音TTSTTS技术技术TTS系统的组成与工作过程系统的组成与工作过程 汉语汉语TTS系统有系统有3 3个主要的组成部分:文本分个主要的组成部分:文本分析模块、韵律分析模块、语音生成模块。析模块、韵律分析模块、语音生成模块。TTS的基本工作过程是:输入的汉字文本经语的基本工作过程是:输入的汉字文本经语言学和语音学处理,得到语流的控制参数,然后言学和语音学处理,得到语流的控制参数,然后读取语音数据库,再经语音信号处理,输出连续读取语音数据库,再经语音信号处理,输出连续的语音。的语音。2.5.12.5.1文本文本-语音语音TTSTTS技术技术TTSTTS的应用领域的应用领域
49、文语转换在各种计算机相关领域中有着广泛的文语转换在各种计算机相关领域中有着广泛的应用前景。除了人应用前景。除了人-机交互外,机交互外,TTS系统在医疗、系统在医疗、教育、通信、信息、家电等领域也具有相当广泛教育、通信、信息、家电等领域也具有相当广泛的用途。的用途。2.5.22.5.2语音识别系统实例语音识别系统实例-IBM Via Voice-IBM Via Voice 语音识别是把输入的语音信号经过数字信号语音识别是把输入的语音信号经过数字信号处理后得到一组特征参数,然后将这组特征参数处理后得到一组特征参数,然后将这组特征参数与预存的模板进行比较,从而确定说话者所说内与预存的模板进行比较,从
50、而确定说话者所说内容的一门新的声音识别技术。容的一门新的声音识别技术。2.5.22.5.2语音识别系统实例语音识别系统实例-IBM Via Voice-IBM Via Voice 语音识别系统可根据不同的分类方式及依据,语音识别系统可根据不同的分类方式及依据,分为以下三类分为以下三类:根据对说话人说话方式的要求,可以分为孤立字根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。续语音识别系统。根据对说话人的依赖程度可以分为特定人和非特根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。定人语音