《第三章 多媒体音频.ppt》由会员分享,可在线阅读,更多相关《第三章 多媒体音频.ppt(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章 多媒体音频技术3.1 声音n声波是一种物理现象,是由物体在空气或其他声波是一种物理现象,是由物体在空气或其他介质中振动,通过振动使空气分子交替的压紧介质中振动,通过振动使空气分子交替的压紧和放松而产生疏密波。和放松而产生疏密波。n当声波进入人耳、鼓膜振动导致内耳的微细感当声波进入人耳、鼓膜振动导致内耳的微细感骨的振动,将神经冲动传向大脑,听者感觉到骨的振动,将神经冲动传向大脑,听者感觉到的这些冲动就是声音。的这些冲动就是声音。3.2 声音的属性n人耳对不同强度、不同频率声音的听觉范围称为声域。在人耳的声域范围内,声音听觉心理的主观感受主要有响度、音高、音色等特征。其中响度、音高(音调)
2、、音色可以在主观上用来描述具有振幅、频率和频谱三个物理量的任何复杂的声音,故又称为声音“三要素”。3.2 声音的属性频率(f):每秒中声波周期性振动的次数,单位HZ,决定了声音的音调。人耳能听见的频率段为2020000HZ20HZ20kHZ2KHZ4KHZ超声波次声波f振幅:声波的强度,决定了声音的响度。人耳能听见的是0140dB频谱:不同频率,不同政府的声波合起来产生的复合音,决定了声音的音质(音色)。不同乐器、不同人有不同的音色。3.3.1 声音信号的类型n模拟信号(自然界、物理):为连续的波形n数字信号(计算机)波形不连续,而是每隔一段时间采样,工作方式与人耳相似,只是将耳膜振动产生的振
3、动信息用电压信息代替。振幅(dB)电压值(V)3.3 音频信息处理3.3.2 声音数字化过程 采样:计算机每单位时间在模拟音频的连续波上获得它的幅度值。量化:用电压值描述这些幅度值。编码:将电压值转化为计算机可识别的二进制数值。采样采样量化量化编码编码模拟信号模拟信号数字信号数字信号模拟信号模拟信号数字信号数字信号A/D ADCD/A DAC3.3 音频信息处理数字音频数字音频n数字音频:在计算机内,所有的信息均以数字表示。数字音频:在计算机内,所有的信息均以数字表示。各种命令是不同的数字,各种幅度的物理量也是不同各种命令是不同的数字,各种幅度的物理量也是不同的数字。音频信号也用一系列数字表示
4、,称之为数字的数字。音频信号也用一系列数字表示,称之为数字音频。数字音频的特点是保真度好,动态范围大。音频。数字音频的特点是保真度好,动态范围大。数字音频的文件格式数字音频的文件格式.WAV Microsoft.WAV Microsoft公司的波形音频文件格式。公司的波形音频文件格式。.MID MIDI.MID MIDI文件格式。文件格式。.VOC Creative.VOC Creative公司的波形音频文件格式。公司的波形音频文件格式。.SND NeXT.SND NeXT计算机的波形音频文件格式。计算机的波形音频文件格式。.AIF Apple.AIF Apple计算机的波形音频文件格式。计算
5、机的波形音频文件格式。.RMI.RMI MicrosoftMicrosoft公公司司的的MIDIMIDI文文件件格格式式。它它可可以以包包括图片、标记和文本。括图片、标记和文本。n采样:模拟声音在时间上是连续的,而数字音采样:模拟声音在时间上是连续的,而数字音频是一个数字序列,在时间上只能是断续的。频是一个数字序列,在时间上只能是断续的。因此当把模拟声音变成数字声音时,需要每隔因此当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个幅度值,一个时间间隔在模拟声音波形上取一个幅度值,称之为采样,采样的时间间隔称为采样周期。称之为采样,采样的时间间隔称为采样周期。n常用的音频采样
6、率有:常用的音频采样率有:8kHz8kHz、11.025kHz11.025kHz、22.05kHz22.05kHz、16kHz16kHz、37.8kHz37.8kHz、44.1kHz44.1kHz、48kHz48kHz。n量化:在数字音频技术中,把采样得到的表示量化:在数字音频技术中,把采样得到的表示声音强弱的模拟电压用数字表示。模拟电压的声音强弱的模拟电压用数字表示。模拟电压的幅值仍然是连续的,而用数字表示音频幅度时,幅值仍然是连续的,而用数字表示音频幅度时,只能把无穷多个电压幅度用有限个数字表示,只能把无穷多个电压幅度用有限个数字表示,即把某一幅度范围内的电压用一个数字表示,即把某一幅度范
7、围内的电压用一个数字表示,这称之为量化。这称之为量化。音频编码的分类音频编码的分类(1 1)基于音频数据的统计特性进行编码)基于音频数据的统计特性进行编码,其典型技术是其典型技术是波形编码。波形编码。(2 2)基于音频的声学参数,进行参数编码)基于音频的声学参数,进行参数编码,可进一步降可进一步降低数据率。其目标是使重建音频保持原音频的特性。低数据率。其目标是使重建音频保持原音频的特性。(3 3)基于人的听觉特性进行编码:从人的听觉系统出)基于人的听觉特性进行编码:从人的听觉系统出发,利用掩蔽效应,设计心理声学模型,从而实现更发,利用掩蔽效应,设计心理声学模型,从而实现更高效率的数字音频的压缩
8、。其中以高效率的数字音频的压缩。其中以MPEGMPEG标准中的高频标准中的高频编码和编码和DoldyDoldy AC-3 AC-3最有影响。最有影响。连续的模拟声音信号连续的模拟声音信号声音信号的采样声音信号的采样离散的音频信号离散的音频信号示示示示意意意意3.3 音频信息处理3.3.3 声音数字化过程采样频率量化位数声道数每秒钟抽取声波幅度样本的次数每个采样点用多少二进制位表示数据范围使用声音通道的个数采样频率越高声音质量越好数据量也越大量化位数越多音质越好数据量也越大立体声比单声道的表现力丰富,但数据量翻倍11.025kHz(电话)22.05kHz(FM广播)44.1kHz(CD音质)8位
9、 256 个值16位65536个值单声道立体声3.3.4 声音数字化三要素数据量采样频率量化位数声道数/8(字节/秒)采样频率(kHz)量化位数(bit)数据量(KB/s)单声道立体声11.025810.7721.531621.5343.0722.05821.5343.071643.0786.1344.1843.0786.131686.13172.27 3.3.5 声音数字化计算公式3.4 数字音频压缩 3.4.1 压缩的两种形式:n信息的压缩信息的压缩-n信息是可以压缩的。声音、图像和视频的数字化信息量一般都比较大,所以都要采用压缩技术。MP3是音乐信息压缩标准;JPG是静态图像信息的压缩标
10、准;MPEG和RM是视频信息的压缩标准,这些标准都有很高的压缩比。压缩分无损压缩和有损压缩。无损压缩:解压后能够完全还原为原来的数据;有损压缩:解压后还原的数据没有原来的精确,质量有所损失,但在可接受的范围内,主要用于音频和视频数据的压缩。图形和图像的冗余表现在三个方面:空间冗余、时序冗余和光谱冗余。多媒体信息可以大幅度地被压缩。VCD就是一种采用MPEG-1标准来压缩的图像信息,其理论压缩比是200:1,一般实际实现的是50:1。n声音文件的压缩:有损:.mp3、.ogg、.wma等 无损:.ape、.flac、.wv等音频三要素n一个乐音,包括必备的三要素:音高、音色和响度。一个乐音,包括
11、必备的三要素:音高、音色和响度。若把一个乐音放在运动的旋律中,它还应具备时值若把一个乐音放在运动的旋律中,它还应具备时值持续时间。这些要素的理想配合是产生优美动听的旋持续时间。这些要素的理想配合是产生优美动听的旋律的必要条件。律的必要条件。音音高高:音音高高指指声声波波的的基基频频。基基频频越越低低,给给人人的的 感感觉觉越低沉。音阶与频率的对应关系越低沉。音阶与频率的对应关系 音音色色:声声音音的的音音质质。由由声声音音的的频频谱谱决决定定的的:各各阶阶谐谐波波的的比例不同,随时间衰减的程度不同,音色就不同。比例不同,随时间衰减的程度不同,音色就不同。响度:响度是对声音强度的衡量,它是听判乐
12、音的基础。响度:响度是对声音强度的衡量,它是听判乐音的基础。3.4.2 数字音频压缩常见概念:比特率(Bitrate):在用特定音频压缩编码方式压缩信息时,单位时间内所需的二进制数值,以bps为单位,常见的比特率有:4kbps:可识别的话语所需要的最小比特率 8kbps:电话话音音质 32kbps:MW广播音质 96kbps:FM广播音质 128kbps:CD音质3.4.2 数字音频压缩常见概念nCBR(Constant Bitrate)用固定大小的比特率来压缩音频的方式,而不论该段音频中有些是静音,有些音量过大。一般用于流媒体方式播放的,互联网上的音频文件压缩多用这种方式。nVBR(Vari
13、able Bitrate)可变比特率,根据需要来调节比特率。在整个文件中码率将不会固定不变(就像在CBR中固定不变一样),音频中较复杂的部分将会使用更高的码率以获得更佳的听觉感受,而其它部分则获得较少的码率。3.5.1 WAV文件 又称波形文件,WAV是Microsoft/IBM共同开发的PC波形文件。WAV文件来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值转换成二进制数,然后存入磁盘,就产生了波形文件。Wav文件直接反映了一个声音在每个时刻的大小值。WAV文件使用三个参数来表示声音:采样位数,采样频率和声道数。WAV文件支持MSADPCM、CCITT A LAW等多种压缩算法
14、,支持多种音频位数、采样频率和声道。标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数 特点:声音层次丰富,还原音质好,因未经压缩,文件数据量很大,不便于交流和传播。3.5数字音频的文件格式3.5.2 3.5.2 MPEGMPEG音频文件音频文件q这里的音频文件格式指的是MPEG标准中的音频部分,也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层,分别对应“*.mp1”/“*.mp2”/“*.mp3”这3种声音文件。qMPEG音频文件的压缩是一种有损压缩。qMPEG3音频编码具有10:1-12:1的高压缩率,同时基本保持低音频部分不失真,但是牺
15、牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸,相同长度的音乐文件,用.mp3格式来储存,一般只有.wav文件的1/10,而音质要次于CD格式或WAV格式的声音文件。3.5.3 MP3(MPEG Audio layer3)3.5.3 MP3(MPEG Audio layer3)是一种按MPEG标准的音频压缩技术制作的音频文件。其压缩率为12:1。特点:利用了知觉编码技术,即人耳的特性,削减了音乐中人耳听不到的成分,同时尽可能的维持原来的声音质量,使得这种格式的音乐在高压缩比下,还有优美的音质。3.5.43.5.4 WMAWMA文件文件 WMA(Windows Media
16、 Audio)是Windows Media格式中的一个子集(音频格式)。特点:压缩率比较高,可达到18:1,比MP3的压缩率都更大。WMA的内容提供商可以加入防复制保护,可限制播放时间和播放次数甚至播放的机器等。WMA支持音频流(stream)技术,适合在网络上在线播放。3.5.5 MIDI3.5.5 MIDI文件文件 Musical Instrument Digital Interface(乐器数字接口)的缩写。它是由世界上主要电子乐器制造厂商建立起来的一个通信标准,以规定计算机音乐程序、电子合成器和其它电子设备之间交换信息与控制信号的方法。MIDI文件中包含音符定时和多达16个通道的乐器定
17、义,每个音符包括键通道号持续时间音量和力度等信息。所以MIDI文件记录的不是乐曲本身,而是一些描述乐曲演奏过程中的指令,因此其数据量小。特点:数据量很小,缺乏重现自然音或语音的能力。主要用于原始乐器作品、留下歌曲的业余表演、游戏音轨及电子贺卡等。3.5.6 Real Audio3.5.6 Real Audio文件文件 现在Real主要有RA(RealAudio)、RM(RealMedia)、RAS(RealAudioSecured)等几种文件格式。Real Audio采用“音频流”技术,可以随网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较富裕的听众获得较好的音质。
18、特点:可以实时传输音频信息,尤其是在网速较慢的情况下,仍然可以较为流畅地传送数据,因此RealAudio主要适用于网络上的在线播放。3.5.7 APE3.5.7 APE文件文件nAPE是目前流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同,APE是一种无损压缩技术,也就是说当你将从音频CD上读取的音频数据文件压缩成APE格式后,你还可以再将APE格式的文件还原,而还原后的音频文件与压缩前的一模一样,没有任何损失,所以被誉为“无损音频压缩格式”。n先安装Winamp,再安装APE编码器Monkeys Audio V3.98和CDex 1.50,这样,安装APE编码器的时候会自动安装上Wi
19、namp的APE播放插件,才能用Winamp播放APE。3.5.8 OGG3.5.8 OGG文件文件nOGG是一种先进的有损的音频压缩技术,正式名称是OGG Vorbis,是一种免费的开源音频格式。OGG编码格式远比90年代开发成功的MP3先进,它可以在相对较低的数据速率下实现比MP3更好的音质。此外,OGG Vorbis支持VBR(可变比特率)和ABR(平均比特率)两种编码方式,OGG还具有比特率缩放功能,可以不用重新编码便可调节文件的比特率。n OGG格式可以对所有声道进行编码,支持多声道模式,而不像MP3只能编码双声道。多声道音乐会带来更多临场感,欣赏电影和交响乐时更有优势,而且未来人们
20、对音质要求不断提高,OGG的优势将更加明显。3.5.9 其他格式n nCMFCMF,Creative Musical Format:Creative公司的专用音乐格式,和MIDI差不多,只是音色、效果上有些特色,专用于FM声卡,但其兼容性也很差。n nCD AudioCD Audio:音乐CD,扩展名CDA,唱片采用的格式,又叫“红皮书”格式,记录的是波形流,绝对的纯正。但缺点是无法编辑,文件长度太大,一张CD大约74分钟。n nAIFAIF文件文件:Apple计算机的音频文件格式。Windows的Convert工具同样可以把AIF格式的文件换成Microsoft的WAV格式的文件。n nVO
21、CVOC文件文件:Creative公司波形音频文件格式,也是声霸卡(sound blaster)使用的音频文件格式。每个VOC文件由文件头块(header block)和音频数据块(data block)组成。文件头包含一个标识版本号和一个指向数据块起始的指针。数据块分成各种类型的子块。如声音数据静音标识ASCII码文件重复的结果重复以及终止标志,扩展块等。3.6 声音素材的获取n自行录制n网站下载nCD、DVD等文件获取 Audition软件 EAC 抓轨:Exact Audio Copy 超级解霸、豪杰解霸等3.7 语音识别技术n语音识别替代键盘、鼠标成为计算机主要的输入手段 始于20世纪
22、50年代,当时的AT&T Bell实验室实现了第一个可识别10英文数字的话音识别系统Audry。IBM公司的ViaVoice语音识别系统,现在已经达到了9.0版本,识别率可达到95以上。3.7 语音识别技术n倾听:实现大词汇量、非特定人连续语音的识别,能完全听懂并理解人的自然语言。n诉说:TTS(Text To Speech)将文本信息转换成自然语言的技术,计算机能以清晰自然的声音,以各种语言,各种情绪来读任意的文本。3.8 常用音频处理软件概况n数字音频作品的编辑创造主要包括对音频文件简单的编辑工作,如对波形文件进行删除、截取、添加等。还有特效的使用,如对多音轨的混合、声音渐入渐出、制作和消除噪声等。n常见的处理软件有:Cooleditor(被Adobe收购后,改名为Audition)、Sound Forge、Cakewalk、Samplitude、Fruity loop、Audacity以及Wavecn。后两种可以免费使用。