第二章-多媒体音频技术分解优秀PPT.ppt-淘文阁

资源描述

《第二章-多媒体音频技术分解优秀PPT.ppt》由会员分享，可在线阅读，更多相关《第二章-多媒体音频技术分解优秀PPT.ppt（76页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、返回返回多媒体音频技术多媒体音频技术主讲老师：张敏主讲老师：张敏其次章其次章多媒体媒体元素是指多媒体应用中多媒体媒体元素是指多媒体应用中可显示给用户的媒体组成。可显示给用户的媒体组成。多媒体中的媒体元素多媒体中的媒体元素音频音频动画动画视频视频文本文本图形图形图像图像目目录录2.1 2.1 数字音频基础数字音频基础返回返回2.2 2.2 声卡与音箱声卡与音箱 2.3 MIDI2.3 MIDI音频音频 2.4 2.4 语音识别技术语音识别技术 2.5 2.5 音频处理软件音频处理软件 2.1 2.1 数字音频基础数字音频基础2.1.1 2.1.1 声音的基本概念声音的基本概念 2.1.2

2、2.1.2 声音的数字化声音的数字化返回返回2.1.3 2.1.3 数字音频的文件格式数字音频的文件格式音频音频数字音频（数字音频（AudioAudio）可分为）可分为波形声音波形声音、语音语音和和音乐音乐。波形声音事实上已经包含了全部的波形声音事实上已经包含了全部的声音形式，它可以将任何声音都进行采声音形式，它可以将任何声音都进行采样量化，相应的文件格式是样量化，相应的文件格式是WAV WAV 文件或文件或VOCVOC文件。文件。语音也是一种波形，所以和波形声语音也是一种波形，所以和波形声音的文件格式相同。音的文件格式相同。音乐是符号化了的声音，乐谱可转音乐是符号化了的声音，乐谱可转变为符号

3、媒体形式。对应的文件格式是变为符号媒体形式。对应的文件格式是MID MID 或或CMF CMF 文件。文件。2.1.1 2.1.1 声音的基本概念声音的基本概念声音是由空气中分子的振动而产生的。自声音是由空气中分子的振动而产生的。自然界的声音是一个随时间而变更的连续信号，然界的声音是一个随时间而变更的连续信号，可近似地看成是一种周期性的函数。通常用模可近似地看成是一种周期性的函数。通常用模拟的连续波形描述声波的形态，单一频率的声拟的连续波形描述声波的形态，单一频率的声波可用一条正弦波表示，如下图所示。波可用一条正弦波表示，如下图所示。振振幅幅周期周期基线基线声音的质量声音的质量次声波次声波

4、声音频率声音频率可听声波可听声波 20Hz20Hz20kHz20kHz 超声波超声波语音信号频率：语音信号频率：300Hz300Hz3Khz3Khz声音质量声音质量频率范围频率范围/Hz电话质量电话质量2003400调幅广播调幅广播507000调频广播调频广播2015000数字激光唱盘数字激光唱盘1020000 与声音的带宽有关，一般来与声音的带宽有关，一般来说频率范围越宽，声音质量也就越高。说频率范围越宽，声音质量也就越高。声音质量的频率范围（频域或频带）声音质量的频率范围（频域或频带）声音是具有确定的振幅和频率且随时间声音是具有确定的振幅和频率且随时间变更的声波，通过话筒等转扮装置可将

5、其变成变更的声波，通过话筒等转扮装置可将其变成相应的电信号（模拟信号），不能由计算机直相应的电信号（模拟信号），不能由计算机直接处理。接处理。为使计算机能处理音频，必需对声音信号为使计算机能处理音频，必需对声音信号数字化。数字化。2.1.2 2.1.2 声音的数字化声音的数字化采样采样编码编码量化量化声音的声音的模拟信号模拟信号声音的声音的数字信号数字信号声音的数字化过程声音的数字化过程:模拟信号模拟信号数字信号数字信号A/D ADCD/A DAC采样和量化采样和量化(c)(c)采样信号的量化采样信号的量化(a)(a)模拟音频信号模拟音频信号(b)(b)音频信号的采样音频信号的采样数字化

6、音频的过程如下图所示。数字化音频的过程如下图所示。示意示意示意示意采样定理：采样定理：仅仅当当采采样样频频率率2倍倍的的原原始始信信号号频频率率时时，才才能能保保证证采采样样后后信信号号可可被被保保真真地地复复原原为为原原始信号。始信号。模模拟拟声声音音在在时时间间上上是是连连续续的的，或或称称连连续续时时间间函函数数x(t)。用用计计算算机机处处理理这这些些信信号号时时，必必需需先先对对连连续续信信号号采采样样，即即按按确确定定的的时时间间间间隔隔(T)在在模模拟拟声声波波上上截截取取一一个个振振幅幅值值(通通常常为为反反映映某某一一瞬瞬间间声声波波幅幅度度的的电电压压值值)，得得到到离离散

7、散信信号号x(nT)(n为为整整数数)。T称称采样周期，采样周期，1/T称为采样频率。称为采样频率。量化：量化：为了把采样得到的离散序列信号为了把采样得到的离散序列信号x(nT)存入计算机，必需将采样值量化成存入计算机，必需将采样值量化成有限个幅度值的集合有限个幅度值的集合x(nT)，采样值用二，采样值用二进制数字表示的过程称为量化编码。进制数字表示的过程称为量化编码。对模拟音频信号进行采样量化编码后，得到数对模拟音频信号进行采样量化编码后，得到数字音频。数字音频的质量取决于字音频。数字音频的质量取决于采样频率采样频率、量量化位数化位数和和声道数声道数三个因素。三个因素。影响数字音频质量的技术

8、参数影响数字音频质量的技术参数采样频率是指一秒钟时间内采样的次数。采样频率是指一秒钟时间内采样的次数。在计算机多媒体音频处理中，采样频率通常接受在计算机多媒体音频处理中，采样频率通常接受三种：三种：11.025KHz(语音效果语音效果)、22.05KHz(音乐效音乐效果果)、44.1KHz(高保真效果高保真效果)。常见的。常见的CD唱盘的唱盘的采样频率即为采样频率即为44.1KHz。1）采样频率）采样频率2)量化位数量化位数量化位数也称量化位数也称“量化精度量化精度”，是描述每个采样，是描述每个采样点样值的二进制位数。例如，点样值的二进制位数。例如，8位量化位数表示位量化位数表示每个采样值可以

9、用每个采样值可以用28即即256个不同的量化值之一个不同的量化值之一来表示，而来表示，而16位量化位数表示每个采样值可以位量化位数表示每个采样值可以用用216即即65536个不同的量化值之一来表示。常个不同的量化值之一来表示。常用的量化位数为用的量化位数为8位、位、12位、位、16位。位。3)声道数声道数声音通道的个数称为声道数，是指一次采样所记声音通道的个数称为声道数，是指一次采样所记录产生的声音波形个数。记录声音时，假如每次录产生的声音波形个数。记录声音时，假如每次生成一个声波数据，称为单声道；每次生成两个生成一个声波数据，称为单声道；每次生成两个声波数据，称为双声道（立体声）。随着声道数

10、声波数据，称为双声道（立体声）。随着声道数的增加，所占用的存储容量也成倍增加。的增加，所占用的存储容量也成倍增加。Sampling Resolution8 bitSamplingFrequency11 KHz+127+64+320-32-64-12801001010Comparison:Sampling Resolution16 bitSamplingFrequency22 KHz+32767+512+1280-128-512-327680010101100011000Comparison:数字音频文件的存储量数字音频文件的存储量存储量存储量=采样频率采样频率量化位数量化位数/8声道数声道数时

11、间时间例如，用例如，用44.1KHz的采样频率进行采样，的采样频率进行采样，量化位数选用量化位数选用16位，则录制位，则录制1秒的立体声节目，秒的立体声节目，其波形文件所需的存储量为：其波形文件所需的存储量为：以字节为单位，模拟波形声音被数字化后以字节为单位，模拟波形声音被数字化后音频文件的存储量音频文件的存储量(假定未经压缩假定未经压缩)为：为：44100164410016821=176400(821=176400(字节字节)数字音频信号的编码数字音频信号的编码一般状况下，声音的制作是运用麦克风或录音机一般状况下，声音的制作是运用麦克风或录音机来产生，再由声卡上的来产生，再由声卡上的WAVE

12、合成器的合成器的(模模/数转数转换器换器)对模拟音频采样后，量化编码为确定字长对模拟音频采样后，量化编码为确定字长的二进制序列，并在计算机内传输和存储。在数的二进制序列，并在计算机内传输和存储。在数字音频回放时，再由数字到模拟的转化器字音频回放时，再由数字到模拟的转化器(数数/模模转换器转换器)解码可将二进制编码复原成原始的声音解码可将二进制编码复原成原始的声音信号，通过音响设备输出。如下图所示。信号，通过音响设备输出。如下图所示。模拟音频信号输入模拟音频信号输入采样采样/量化编码量化编码传输传输/存储存储解码解码播放播放1)WAV文件文件扩展名：扩展名：.wav.wav相关公司或组织相关公司

13、或组织:Microsoft:Microsoft和和IBMIBM主要优点：声音层次丰富、还原性好、表主要优点：声音层次丰富、还原性好、表现力强、可通过增加驱动程序而支持各种现力强、可通过增加驱动程序而支持各种各样的编码技术。各样的编码技术。主要缺点：波形文件的数据量大，不适于主要缺点：波形文件的数据量大，不适于传播和用作倾听。支持的编码技术大部分传播和用作倾听。支持的编码技术大部分只能在只能在WindowsWindows平台下运用。平台下运用。适用领域：自然语音的保存与重放适用领域：自然语音的保存与重放2.1.3 数字音频的文件格式2)MP3文件文件扩展名：扩展名：mp3 mp3（包括（包括mp

14、2mp2和和mp1mp1等）等）相关公司或组织相关公司或组织:Fraunhofer-IIS:Fraunhofer-IIS 主要优点：在低至主要优点：在低至128kbps128kbps的比特率下供的比特率下供应接近应接近CDCD音质的音频质量。广泛的支持。音质的音频质量。广泛的支持。主要缺点：出现得比较早，因此音质不是主要缺点：出现得比较早，因此音质不是很好。很好。适用领域：一般倾听和高保真倾听。适用领域：一般倾听和高保真倾听。3)mp3PRO文件文件扩展名：扩展名：mp3 mp3（包括（包括mp2mp2和和mp1mp1等）等）相关公司或组织相关公司或组织:Fraunhofer-IIS:Frau

15、nhofer-IIS、CodingTechnologiesCodingTechnologies、Thomson Thomson MultimediaMultimedia 主要优点：在低至主要优点：在低至64kbps64kbps的比特率下供应的比特率下供应接近接近CDCD音质的音频质量。音质的音频质量。主要缺点：专利费用较高，支持的软件和主要缺点：专利费用较高，支持的软件和硬件不多。硬件不多。适用领域：一般倾听和高保真倾听。适用领域：一般倾听和高保真倾听。4)WMA文件文件扩展名：扩展名：wma,asf wma,asf相关公司或组织相关公司或组织:Microsoft:Microsoft 主要优点

16、：功能齐全，运用便利。同时支持主要优点：功能齐全，运用便利。同时支持无失真、有失真、语音压缩方式。在无失真、有失真、语音压缩方式。在MP3MP3文件文件一半大小的前提下，保持相同的音频。一半大小的前提下，保持相同的音频。主要缺点：失真压缩方式下音质不高。必需主要缺点：失真压缩方式下音质不高。必需在在WindowsWindows平台下才能运用。平台下才能运用。适用领域：音频档案级别保存，一般倾听，适用领域：音频档案级别保存，一般倾听，网络音频流传输。网络音频流传输。5)MIDI文件（乐器数字接口）文件（乐器数字接口）扩展名：扩展名：MID MID、MIDIMIDI、RMIRMI、XMIXMI等等

17、相关公司或组织相关公司或组织:MIDI Association:MIDI Association 主要优点：音频数据为乐器的演奏限制，主要优点：音频数据为乐器的演奏限制，通常不带有音频采样。通常不带有音频采样。主要缺点：没有波表硬件或软件协作时播主要缺点：没有波表硬件或软件协作时播放效果不佳。放效果不佳。适用领域：与电子乐器的数据交互，乐曲适用领域：与电子乐器的数据交互，乐曲创作等。创作等。2.2 2.2 声卡与音箱声卡与音箱2.2.1 2.2.1 声卡声卡 2.2.2 2.2.2 音箱音箱声卡1.声卡的主要功能声卡的主要功能 2.声卡的组成原理声卡的组成原理 3.声卡的性能指标声卡的性能指

18、标 4.声卡的外部接口声卡的外部接口 1.声卡的主要功能声卡的主要功能声卡是负责录音、播音和声音合成的一种多媒体声卡是负责录音、播音和声音合成的一种多媒体板卡，其功能包括板卡，其功能包括:录制、编辑和回放数字音频录制、编辑和回放数字音频文件，限制各种声源的音量并加以混合，在记录文件，限制各种声源的音量并加以混合，在记录和回放数字音频文件时进行压缩和解压缩，接受和回放数字音频文件时进行压缩和解压缩，接受语音合成技术让计算机朗读文本，初步的语音识语音合成技术让计算机朗读文本，初步的语音识别，别，MIDIMIDI接口和输出放大等。接口和输出放大等。2.声卡的组成原理声卡的组成原理总线接口芯片总线

19、接口芯片混音器混音器A/DA/D和和D/AD/A数字音频处理芯片数字音频处理芯片音乐合成器音乐合成器话筒输入话筒输入线性输入线性输入扬声器输出扬声器输出线性输出线性输出MIDIMIDI接口接口CDCD接口接口对以下音源进行混合：数字化声音对以下音源进行混合：数字化声音(DAC)(DAC)，调，调频频FMFM合成音乐合成音乐(FM),CD(FM),CD音频音频(CD-ROM)(CD-ROM)，线路输，线路输入入(AUX)(AUX)，话筒输入，话筒输入(MIC)(MIC)及及PCPC声音输出声音输出(SPK)(SPK)将数字音频波形数据或将数字音频波形数据或MIDIMIDI消息合成为声音。消息合成

20、为声音。完成信号的记录、播放任务，完成信号的记录、播放任务，ADPCMADPCM压压缩，变更采样频率，说明缩，变更采样频率，说明MIDIMIDI指令等指令等3.声卡的性能指标声卡的性能指标采样和量化实力采样和量化实力采样频率和量化位数越高，声卡产生的声音越采样频率和量化位数越高，声卡产生的声音越细腻，干脆影响声卡的频率响应范围。细腻，干脆影响声卡的频率响应范围。芯片类型芯片类型通常有通常有2 2声道、声道、2.12.1声道、声道、4.14.1声道、声道、5.15.1声道。声道。总线类型总线类型输出声道数输出声道数按声卡与计算机连接方式不同，分为按声卡与计算机连接方式不同，分为ISAISA总线

21、、总线、PCIPCI总线和总线和USBUSB电缆连接方式。电缆连接方式。CODECCODEC芯片、专用数字信号处理器芯片、专用数字信号处理器4.4.声卡的外部接口声卡的外部接口 LINE INLINE INLINE OUTLINE OUTSPK OUTSPK OUT游戏杆游戏杆/MIDI/MIDI录音机、录音机、CDCD唱机等唱机等线性输出线性输出话筒话筒扬声器扬声器线性输入线性输入立体声放大器立体声放大器MIDIMIDI设备设备/游戏杆游戏杆MIC INMIC IN2.2.2 2.2.2 音箱音箱1.1.音箱的分类音箱的分类2.2.音箱的性能指标音箱的性能指标.音箱的分类音箱的分类依据箱体材

22、质依据箱体材质塑料和木质音箱。塑料和木质音箱。依据功率放大器的内外置依据功率放大器的内外置通常有通常有2.02.0、2.12.1、4.14.1、5.15.1、7.17.1。依据接口依据接口依据声道数量依据声道数量一般声卡接口、数字接口、一般声卡接口、数字接口、USBUSB接口等。接口等。有源音箱和无源音箱。有源音箱和无源音箱。.音箱的性能指标音箱的性能指标输出功率输出功率分为：额定功率和最大峰值功率两种。音箱功分为：额定功率和最大峰值功率两种。音箱功率越大，音质效果越好。率越大，音质效果越好。频率范围与频率响应频率范围与频率响应信噪比信噪比一般音箱：一般音箱：7080dB7080dB，高档音箱

23、：，高档音箱：8090dB8090dB，专业音箱：专业音箱：95dB95dB以上。以上。音箱的频率响应曲线越平坦，失真越小，性能音箱的频率响应曲线越平坦，失真越小，性能越高。越高。.音箱的性能指标（音箱的性能指标（cont）灵敏度灵敏度指产生全功率输出时的输入信号。输入信号越指产生全功率输出时的输入信号。输入信号越低，灵敏度越高，音箱性能就越好。低，灵敏度越高，音箱性能就越好。阻抗阻抗扬声器输入信号的电压与电流的比值。低阻抗扬声器输入信号的电压与电流的比值。低阻抗的音箱可以获得较大的输出功率，但阻抗太低的音箱可以获得较大的输出功率，但阻抗太低又会造成低音劣化等现象。又会造成低音劣化等现象。分为

24、谐波失真、互调失真和瞬态失真分为谐波失真、互调失真和瞬态失真3 3种。种。失真度失真度2.4 MIDI2.4 MIDI音频音频MIDIMIDI是是Musical Instrument Digital Musical Instrument Digital Interface(Interface(乐器数字接口乐器数字接口)的缩写。的缩写。MIDIMIDI是一种国际标准，是计算机和是一种国际标准，是计算机和MIDIMIDI设备之设备之间进行信息交换的一整套规则，包括各种间进行信息交换的一整套规则，包括各种电子乐器之间传送数据的通信协议。电子乐器之间传送数据的通信协议。适用于长时间音乐演奏的场合。适用

25、于长时间音乐演奏的场合。1.1.什么是什么是MIDI MIDI MIDI音频是将电子乐器键盘上的弹奏信息音频是将电子乐器键盘上的弹奏信息记录下来，包括键名、力度、时值长短等，是乐记录下来，包括键名、力度、时值长短等，是乐谱的一种数字式描述。当须要播放时，只需从相谱的一种数字式描述。当须要播放时，只需从相应的应的MIDI文件中读出文件中读出MIDI消息，生成所须要的消息，生成所须要的声音波形，经放大后由扬声器输出。声音波形，经放大后由扬声器输出。合成器合成器扬声器扬声器MIDIMIDI键盘键盘MIDIMIDI接口接口音序器音序器 1.1.什么是什么是MIDI MIDI 2.MIDI2.MIDI设

26、备配置设备配置 3.MIDI3.MIDI文件的特点文件的特点 MIDIMIDI设备就是处理设备就是处理MIDIMIDI信息所需的硬件设信息所需的硬件设备，其基本组成包括：备，其基本组成包括：2.MIDI2.MIDI设备配置设备配置 (1).MIDI(1).MIDI端口端口 (2).MIDI(2).MIDI键盘键盘 (3).(3).音序器音序器(Sequencer)(Sequencer)(4).(4).合成器合成器 (1).MIDI(1).MIDI端口端口一台一台MIDMID设备可以有一至三个设备可以有一至三个MIDIMIDI端口，分端口，分别称为别称为MIDI InMIDI In、MIDI

27、OutMIDI Out、MIDI ThruMIDI Thru。它们的。它们的作用是：作用是：MIDI InMIDI In：接收来自其它：接收来自其它MIDIMIDI设备的设备的MIDIMIDI信信息。息。MIDI OutMIDI Out：发送本设备生成的：发送本设备生成的MIDIMIDI信息到信息到其它设备。其它设备。MIDI ThruMIDI Thru：将从：将从MIDI InMIDI In端口传来的信息端口传来的信息转发到相连的另一台转发到相连的另一台MIDIMIDI设备上。设备上。(2).MIDI(2).MIDI键盘键盘 MIDIMIDI键盘是用于键盘是用于MIDIMIDI乐曲演奏的，乐

28、曲演奏的，MIDIMIDI键键盘本身并不发出声音，当作曲人员触动键盘上的盘本身并不发出声音，当作曲人员触动键盘上的按键时，就发出按键信息，所产生的仅仅是按键时，就发出按键信息，所产生的仅仅是MIDIMIDI音乐消息，从而由音序器录制生成音乐消息，从而由音序器录制生成MIDIMIDI文件。文件。(3).(3).音序器音序器(Sequencer)(Sequencer)用于记录、编辑、生成用于记录、编辑、生成MIDIMIDI的声音文件，的声音文件，音序器有以硬件形式供应的，目前大多为软件音音序器有以硬件形式供应的，目前大多为软件音序器。音序器可捕获序器。音序器可捕获MIDIMIDI消息，将其存入消息

29、，将其存入MIDIMIDI文文件，件，MIDIMIDI文件扩展名为文件扩展名为.MID.MID。音序器还可编辑。音序器还可编辑MIDIMIDI文件。文件。(4).(4).合成器合成器 MIDIMIDI文件的播放是通过文件的播放是通过MIDIMIDI合成器，合合成器，合成器说明成器说明MIDIMIDI文件中的指令符号，生成所须要文件中的指令符号，生成所须要的声音波形，经放大后由扬声器输出，声音的的声音波形，经放大后由扬声器输出，声音的效果比较丰富。效果比较丰富。1).MIDI1).MIDI合成方式合成方式MIDIMIDI合成方式主要有调频合成合成方式主要有调频合成(FM)(FM)和波和波形表合成

30、形表合成(Wave Table)(Wave Table)两种方式。调频合成方两种方式。调频合成方式，其原理是依据傅立叶级数而来。波形表合式，其原理是依据傅立叶级数而来。波形表合成的原理是成的原理是ROMROM中已存储着各种实际乐器的声中已存储着各种实际乐器的声音采样，合成时以查表方式调用这些样本将其音采样，合成时以查表方式调用这些样本将其还原回放。还原回放。2).2).硬波形表合成与软波形表合成硬波形表合成与软波形表合成硬波表合成方式的数字声音样本被保存硬波表合成方式的数字声音样本被保存在在ROMROM内或内或RAM(RAM(可动态更换可动态更换)内。而软波表的数内。而软波表的数字化样本保存于

31、系统主存中，合成运算靠字化样本保存于系统主存中，合成运算靠CPUCPU完成，最终的音频合成靠声卡上的完成，最终的音频合成靠声卡上的WAVEWAVE合成器合成器来完成。来完成。软波表事实上是针对合成软波表事实上是针对合成MIDIMIDI音乐而开音乐而开发的一套软件，其主要作用是限制高速发的一套软件，其主要作用是限制高速CPUCPU来来完成波表完成波表MIDIMIDI合成器的部分功能。合成器的部分功能。3.MIDI3.MIDI文件的特点文件的特点 (1).(1).由于由于MIDIMIDI文件只是一系列指令的集合，因文件只是一系列指令的集合，因此它比数字波形文件小得多，大大节约了此它比数字波形文件小

32、得多，大大节约了存储空间。存储空间。(2).(2).运用运用MIDIMIDI文件，其声音卡上必需含有硬件文件，其声音卡上必需含有硬件音序器或者配置有软件音序器。音序器或者配置有软件音序器。(3).MIDI(3).MIDI声音适于重现打击乐或一些电子乐器声音适于重现打击乐或一些电子乐器的声音，利用的声音，利用MIDIMIDI声音方式可用计算机来声音方式可用计算机来进行作曲。进行作曲。(4).(4).对对MIDIMIDI的编辑很敏捷，在音序器的帮助下，的编辑很敏捷，在音序器的帮助下，用户可自由地变更音调、音色以及乐曲速用户可自由地变更音调、音色以及乐曲速度等，以达到须要的效果。度等，以达到须要的效

33、果。2.4 语音识别技术2.4.1 2.4.1 语音识别的发展史语音识别的发展史 2.4.2 2.4.2 语音识别的基本原理语音识别的基本原理2.4.3 2.4.3 语音识别系统的分类语音识别系统的分类2.4.4 2.4.4 语音识别软件语音识别软件 2.4.1 2.4.1 语音识别的发展史语音识别的发展史 1.201.20世纪世纪5050年头：年头：1952 1952，BellBell，K.H.David,K.H.David,识别识别1010个数字个数字 1952 1952，J.W.RorgieJ.W.Rorgie，英文元音和孤立字，英文元音和孤立字2.202.20世纪世纪6060年头：提出

34、年头：提出DPDP、LPLP技术。技术。3.203.20世纪世纪7070年头末年头末8080年头初：年头初：LP LP、DTWDTW成熟，提出成熟，提出VQVQ、HMMHMM理论，实现了基理论，实现了基于线性预料倒谱和于线性预料倒谱和DTWDTW技术的特定人、孤立词、技术的特定人、孤立词、小词汇量与语音识别系统。小词汇量与语音识别系统。4.204.20世纪世纪8080年头年头:HMM,ANN.HMM,ANN.卡内基卡内基-梅隆高校运用梅隆高校运用VQVQ、HMMHMM的非特的非特定人、大词汇量、连续语音识别系统。定人、大词汇量、连续语音识别系统。5.205.20世纪世纪9090年头年头:IBM

35、(ViaVoice):IBM(ViaVoice)、AT&TAT&T、NTTNTT2.4.2 2.4.2 语音识别的基本原理语音识别的基本原理语音输出预处理特征提取模式匹配训练模式库语音输入2.4.3 2.4.3 语音识别系统的分类语音识别系统的分类 1.1.按识别的词汇量：按识别的词汇量：小词汇量：小词汇量：中等词汇量：中等词汇量：大词汇量：大词汇量：2.2.从说话者与识别系统的相关性：从说话者与识别系统的相关性：特定人：特定人：非特定人：非特定人：限定人：限定人：3.3.从说话的方式：从说话的方式：孤立词：孤立词：连接词语：连接词语：连续语音：连续语音：2.5 2.5 音频数据处理音频数据处

36、理2.6.2 2.6.2 音频编辑软件音频编辑软件 Cool Edit Cool Edit 2000 2000 简介简介2.2.6.3 6.3 音频编辑软件音频编辑软件 Cool Edit Cool Edit Pro Pro 简介简介2.6.1 2.6.1 准备音频数据准备音频数据2.6.1 准备音频数据1.音频的获得途径2.音频的存储格式3.音频数据的编辑1.音频的获得途径音频数据的获得方法主要有以下几种：(1).运用声卡录制、采集声音信息，并以文件的形式存储在计算机中。(2).运用声卡及MIDI设备在计算机上创作乐曲。(3).从互联网下载或购买音频光盘。2.音频的存储格式在多媒体音频技术中

37、，存储声音信息的文件格式有多种，如WAV、MIDI、MP3、RM及CD唱盘数字音频。(1).WAV格式(2).MIDI格式(3).CD.DA格式(4).MP3格式MP3接受MPEG Layer 3标准对WAVE音频文件进行压缩而成，以达到CD唱盘的音质。(5).RM格式RM接受音频/视频流和同步回放技术来实现在互联网上供应优质的多媒体信息。3.音频数据的编辑音频数据的编辑包括声音的剪辑(删除片段.插入声音、混入声音)、特殊效果的添加等操作。除了Window自带的“录音机”程序可进行音频的制作编辑外，目前广泛运用的音频处理软件还有Sound Forge、Wave Edit、Cool Edit等。

38、2.6.2 音频编辑软件Cool Edit 2000 简介1.1.Cool Edit 2000 Cool Edit 2000 的功能的功能 2.2.Cool Edit 2000 Cool Edit 2000 应用程序界面应用程序界面3.3.音频的录制音频的录制 4.4.音频的基本编辑音频的基本编辑 5.5.音频特殊效果编辑音频特殊效果编辑 1.Cool Edit 2000 的功能运用 Cool Edit 2000 可以录制音频文件；轻松地在音频文件中进行剪切、粘贴、合并、重叠声音操作；供应有多种特效如放大、降低噪音压缩、扩展、回声、延迟、失真、调整音调等。运用它可以生成噪音、低音、静音、电话信

39、号等声音；其他功能有自动静音检测和删除，自动节拍查找等。另外，它还可以在多种文件格式之间进行转换。2.Cool Edit 2000 应用程序界面Cool Edit 2000 应用程序界面主要由标题栏、菜单栏、工具条、状态栏、编辑区等组成。3.音频的录制安装好声卡，将麦克风与声卡的MIC IN连接或将线性输入设备如录音机、CD唱机等输出端与声卡的LINE IN接口正确连接。然后运行 Cool Edit 2000 程序，执行File|New吩咐，弹出对话框。在对话框中选择采样频率、量化位数、声道数后单击“确定”。然后单击功能键中的录音按钮，起先录音，录制完毕单击停止按钮停止录音。最终执行 File

40、|Save命令保存声音文件。4.音频的基本编辑在Cool Edit 2000中，不管进行什么操作，都要首先选择须要处理的区域，假如不选，Cool Edit 2000则认为要对整个音频文件进行操作。(1).删除选好要操作的选区，执行Edit|Delete Selection吩咐或干脆按DEL键就可删除当前被选择的音频片段，这时后面的波形自动前移。(2).剪切执行Edit|Cut吩咐将当前被选择的片段从音频中移去并放置到内部剪贴板上。(3).拷贝执行Edit|Copy吩咐将拷贝选区到内部剪贴板上。(4).粘贴执行Edit|Pastet吩咐将内部剪贴板上的数据插入到当前插入点位置。(5).粘贴到新文

展开阅读全文