《数字音频基础.pptx》由会员分享,可在线阅读,更多相关《数字音频基础.pptx(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 音频是多媒体应用的重要组成部分。现实世界的声音来源是相当复杂的,声音不仅与时间和空间有关,还与强度、方向等很多因素有关。在计算机中创建音频时,所能模拟的声音还必须要符合人类的听觉特征和听力范围。第1页/共45页声音的数字化原理 声音的模/数转换(ADCADC),首先需对声波采样,用数字方式记录声音。图中横轴表示时间,纵轴表示振幅,按时间对声波分割从而提取波形的样本。实现这个过程的装置就被称为模/数转换器。声音的数/模转换(DACDAC)即由数字声音变成模拟的波形。音频系统是将声波波形转换成的连续的二进制数据来还原声音的。实现这个过程的装置被称为数/模转换器。第2页/共45页一、模拟音频的数字
2、化过程 数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音频的采样、量化和编码。采样和量化的过程可由A/DA/D转换器实现。A/D转换器以固定的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。第3页/共45页 信息论的奠基者香农(Shannon)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。为实现A/D转换,需要把模拟音频信号波形进行分割,这种方法称为采样(Sampling)。采
3、样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。1.1.采样采样 采样频率与声音频率之间有一定的关系,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音。第4页/共45页 采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形切成若干个等分的数字化问题,但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为“量化”。量化的过程是先将采样后的信号按整个声
4、波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。如何分割采样信号的幅度呢?我们还是采取二进制的方式,以位(bit)或16位(bit)的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中,其纵轴将会被划分为个量化等级,用以记录其幅度大小。2.量化第5页/共45页 以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0到9共10个量化等级,并将其采样的幅度值取最接近09之间的一个数来表示,如下图所示。图中每个正方形表示一次采样。第6页/共45页D/A转换器从上图得到的数值中重构原来信
5、号时,得到下图中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。第7页/共45页失真在采样过程中是不可避免的,如何减少失真呢?可以直观地看出,我们可以把上图中的波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在下图(左)中,采样率和量化等级均提高了一倍,分别为2000次/秒和20个量化等级。在下图(右)中,采样率和量化等级再提高了一倍,分别达到4000次/秒和40个量化等级。从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信
6、号的失真明显减少,信号质量得到了提高。第8页/共45页 模拟信号量经过采样和量化以后,形成一系列的离散信号脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正。编码的形式比较多,常用的编码方式是PCM脉冲调制。脉冲编码调制(PCM)是把模拟信号变换为数字信号的一种调制方式,即把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或
7、存储。3.编码第9页/共45页二、数字声音质量的主要因素 影响数字化声音质量的因素主要有三个,即采样频率,采样精度和通道个数。1.1.声音的采样精度 采样精度,即采样位数或采样分辨率,指表示声波采样点幅度值的二进制数的位数。换句话说,采样位数可表示采样点的等级数,若用8bit二进制描述采样点的幅值,则可以将幅值等量分割为256个区,若用16bit二进制分割,则分为65536个区。采样位数越多,可分出的幅度级别越多,则分辨率越高,失真度越小,录制和回放的声音就越真实。但是位数越多,声音质量越高,所占的空间就越大。常用的采样精度分别是8位、16位和32位。国际标准的语音采用8位二进制位编码。根据抽
8、样理论可知,一个数字信源的信噪比大约等于采样精度乘以6 6分贝。8 8位的数字系统其信噪比只有4848分贝,1616位的数字系统的信噪比可达9696分贝,信噪比低会出现背景噪声以及失真。因此采样位数越多,保真度越好。第10页/共45页2.2.声音的采样速率 采样速率,即采样频率,指每秒钟采样的次数,单位为HzHz(赫兹)。奈奎斯特采样定理指出:采样频率高于信号最高频率的两倍,就可以从采样中完全恢复原始信号的波形。对于以11kHz11kHz的频率的采样系统,只能恢复的最高音频是5.5kHz5.5kHz。如果要把20Hz20KHz20Hz20KHz范围的模拟音频信号变换为二进制数字信号,那么脉冲采
9、样频率至少应为40KHz40KHz,其周期为Tp=1/fp=1/40KHz=25sTp=1/fp=1/40KHz=25s。流行的采样频率主要为22.05KHz22.05KHz、44.1KHz44.1KHz、48KHz48KHz采样速率越高,采样周期越短,单位时间内得到的数据越多,对声音的表示越精确,音质越真实。所以采样频率决定音质清晰、悦耳、噪音的程度,但高采样率的数据占有很大空间。第11页/共45页3.3.声音的通道个数 声音的采样数据还与声道数有关。单声道只有一个数据流,立体声的数据流至少在两个以上。由于立体声声音具有多声道、多方向的特征,因此,声音的播放在时间和空间性能方面都能显示更好的
10、效果,但相应数据量将成倍增加。第12页/共45页4.4.采样数据量 要从模拟声音中获得高质量的数字音频,必须提高采样的分辨率和频率,以采集更多的信号样本。采样数据的存储容量计算公式如下:存储容量(字节)=)=采样频率采样精度/8/8声道数 时间 第13页/共45页表6-26-2列出了1 1分钟的双声道声音,采用不同采样频率和精度所需的存储容量。例如,采用44.1kHz44.1kHz采样频率和1616位采样精度时,数字化后需要的存贮容量为:44.116/8260=10.584B 44.116/8260=10.584B 采样频率kHzkHz采样精度bit存储容量MB数据速率kb/s常用编码方式质量
11、44.11610.33688.2PCM激光唱片级质量22.05165.16844.1ADPCM调频广播级质量常用于伴音82.58422.05ADPCM11.025162.58422.05ADPCM调频广播级质量常用于伴音或解说81.29211.025ADPCM表6 6-2 2 几种数字化声音的信息 为了减少数据量,采样且量化后的数据常要进行压缩。数字音频的编码必须具有压缩声音信息的能力,压缩方法自适应脉冲编码调制(压缩方法自适应脉冲编码调制(ADPCMADPCM)法)法ADPCMADPCM压缩编码方案的特点是:信噪比高,数据压缩倍率可达信噪比高,数据压缩倍率可达2-52-5倍,而不会明倍,而不
12、会明显失真。显失真。第14页/共45页第15页/共45页三、音频文件的格式 1.1.波形格式 WAV WAV文件又称波形文件,来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值轮换成二进制数,然后存入磁盘,这就产生了波形文件。WAVWAV文件用于保存WindowsWindows平台的音频信息资源,被WindowsWindows平台及其应用程序所广泛支持。第16页/共45页Wave格式支持多种压缩算法,支持多种音频位数、采样频率和声道,是PC机上最为流行的声音文件格式,但其文件尺寸较大,多用于存储简短的声音片断。2.VOC2.VOC文件 VOCVOC文件是CreativeCreati
13、ve公司所使用的标准音频文件格式,多用于保存 Creative Sound Blaster(创新声霸)系列声卡所采集的声音数据,被Windows平台和DOS平台所支持。第17页/共45页 MIDI MIDI文件所包含的信息完全符合GSGS的标准,所以,不仅在电脑上可以处理和重现MIDIMIDI音乐,也可以在不同的乐器间传输并且互相控制。MIDI MIDI文件储存着MIDIMIDI资料和命令,包括音色、音符、时间码、速度、调号、拍号、键号等乐谱指令,能保存多达1616个通道的音乐信息。按照指令中时间码的顺序,音序器能够精确地按时间合成音乐,再现文件内部的乐谱指令所包含的音乐旋律。3.MIDI3.
14、MIDI格式MIDI MIDI 事件所谓MIDIMIDI事件,就是指当用户按下鼠标按钮、键盘或一个琴键的动作,而这个动作将激活它所对应消息数据的传递,这些消息包括声音、通道和模式消息数据。第18页/共45页 标准的MIDIMIDI格式的文件扩展名是midmid,包括格式0 0和格式1 1。midmid格式可以用任何MIDIMIDI软件进行创建、编辑和处理,但不能保存如强弱、其它符号、歌词等信息。为了控制软件和硬件设备,可以在文件中加入许多其他的信息,并随其它信息一起保存下来。这种文件格式就是非标准的MIDIMIDI文件,由软件开发商自己制定的。在这些非标准的MIDIMIDI文件里可以记录一些“
15、.mid.mid”文件无法记录的内容。例如:可以记录强弱、其它符号、歌词的tritri格式,可以记录歌词、表情等内容的.wrk.wrk(CakewalkCakewalk软件)格式、Band-In-a-boxBand-In-a-box的“.sgu.sgu”格式。自定格式的文件可以把效果器代码和参数、音场(指器材所再生的乐队所排列的形状)和位向(播放方向)、混响度等等信息通过系统码的方式保存在文件中。但当将自定格式的文件转存为标准MIDIMIDI格式,将会忽略这些信息。有许多播放器,如图5-115-11所示的WinGrooveWinGroove、Roland Virtual Sound Rolan
16、d Virtual Sound CanvasCanvas和YAMAHA S-YXG PlayerYAMAHA S-YXG Player等软音源播放器,它们都支持标准的MIDIMIDI文件,并且在其中安装了软波表,从而可获得较好的效果。第19页/共45页4.4.压缩格式 压缩音频文件是将音频文件按一定的方式压缩而成的文件,它可降低原有文件的存储空间,更加便于存储和传递。mp3mp3 MP3MP3 即MPEG1 Layer 3 MPEG1 Layer 3(Moving Picture Experts Group,Audio Layer Moving Picture Experts Group,Au
17、dio Layer IIIIII),是Fraunhofer-IISFraunhofer-IIS研究所的研究成果。由于使用了 MPEG1 Audio Layer 3 MPEG1 Audio Layer 3 技术,可将音频文件以1:101:10至 1:12 1:12 的压缩率进行压缩。这种技术主要是利用了知觉音频编码技术,削减了音乐中人耳所听不到的成分,尽可能保持原有的音质。MP3 MP3文件的特点是文件存储空间和音质损坏都较小。每分钟MP3MP3格式的音乐文件大约占有1MB1MB左右,便于存储和网上传播。标准的MP3MP3压缩比是1010:1 1,也可以不同的比率进行压缩。压缩得越多,声音质量下
18、降也将越多。第20页/共45页表表5-3MPEG1Audio音频文件压缩比率和播放媒体最低位率音频文件压缩比率和播放媒体最低位率Layer大约压缩比率播放媒体最低位率11:4348Kbit/s21:61:8256Kbit/s192Kbit/s31:101:12128Kbit/s112Kbit/sMP3MP3(Layer 3Layer 3)编码是MPEG1 MPEG1 AudioAudio音频压缩标准之一。第21页/共45页mp3PRO mp3PRO 随着网络上收听声音和收看视频的需求不断增加,网络流媒体RealReal和Windows MediaWindows Media格式传播的媒体质量不断
19、提高,特别是MicrosoftMicrosoft推出的WMAWMA格式可使相同内容的MP3MP3文件缩小至原来的一半大小,极大地冲击着MP3MP3格式在流行应用中的地位。图图5-12 Thomson mp3PRO5-12 Thomson mp3PRO播放器播放器 mp3PRO mp3PRO的特点是降低了压缩比,并可以在64KB/s64KB/s速率下最大限度地保持压缩前的音质。音乐文件大小只有原MP3MP3文件的1 12 2。同时,MP3ProMP3Pro实现了高低版本的完全兼容,所以它的文件类型也是mp3mp3。高版本的MP3ProMP3Pro播放器也可以播放低版本的MP3MP3文件,低版本的
20、播放器也可以播放高版本的MP3ProMP3Pro文件,但只能播放出mp3mp3的音质。第22页/共45页Real MediaReal Media格式 Real MediaReal Media是网络流媒体文件格式。其中包含RARA、RMARMA这两个音频文件类型是由Real NetworksReal Networks公司推出的,特点是可以在低达28.8kbps28.8kbps的带宽下提供足够好的音质。较成功的Real MediaReal Media播放器是Real One PlayerReal One Player,其界面如图所示。可以获得许多服务,包括录制音频、播放CDCD或音频文件、管理文件
21、、刻录CDCD,并具有在网上搜索和播放流媒体、收听电台、收看节目频道等功能。在网络传输过程中,流媒体是被分割处理的。首先要将原来的音频分割成多个带有顺序标记的小数据包,经过网络的实时传递后,在接收处将重新按顺序组织这些数据包以提供播放。第23页/共45页Windows MediaWindows Media MicrosoftMicrosoft推出的Windows MediaWindows Media,也是一种网络流媒体技术。Windows MediaWindows Media包含了Windows Media Audio&Video Windows Media Audio&Video 编码和解码
22、器、可选集成数字权限管理系统和文件容器。其特点是高质量、高安全性、最全面的数字媒体格式。可用于 PCPC、机顶盒和便携式设备上的流式处理和下载并播放等应用程序。Windows MediaWindows Media使用高级的系统格式文件容器,支持高达17001700万TBTB的文件大小。在一个文件中可存储音频、多比特率视频、元数据(如文件的标题和作者)以及索引和脚本命令。为了确保内容与兼容的播放机相关联,提供了多种不同的文件扩展名,如表5-45-4所示。WMAWMA用于包括利用 Windows Media Audio Windows Media Audio 编解码器压缩的音频的文件,WMVWMV
23、用于同时包括利用 Windows Media Audio Windows Media Audio 和 Windows Media Video Windows Media Video 编解码器压缩的音频和视频的文件。利用其他编解码器压缩的内容应该存储在文件中,应使用ASFASF扩展名。第24页/共45页表表5-4WindowsMedia支持的文件扩展名支持的文件扩展名扩展名说明.wmv基于 Windows Media Windows Media 的文件,同时包含视频和音频 .wma基于 Windows Media Windows Media 的文件,只包含音频 .wvx元文件,指向 Window
24、s Media Video(.WMV)Windows Media Video(.WMV)文件 .wax元文件,指向 Windows Media Audio(.WMA)Windows Media Audio(.WMA)文件 .asfASF结构的文件,包含利用其它编解码器压缩的音频和/或视频内容 .asx元文件,指向 ASF ASF 结构的文件 (.ASF)(.ASF).wmsWindowsMedia外观文件,与Windows Windows Media Media Player Player 7 7或高版本兼容 .wmz压缩的Windows Windows MediaMedia文件,与Windo
25、ws Windows Media Media Player Player 7 7 或更高版本兼容 .wmdWindows Media下载软件包,与 Windows Windows Media Media Player 7 Player 7 或更高版本兼容 第25页/共45页常见音频格式的小结常见音频格式的小结WAV wav MicrosoftWAV wav Microsoft 可通过增加驱动程序而支持各种各样的编码技术。不适于传播和用作聆听。支持的编码技术大部分只能在Windows平台下使用。音频原始素材保存。mp3(MPEG 音频)mp3(包括mp2 mp1 mpa等)Fraunhofer-
26、IIS 在低至128kbps的比特率下提供接近CD音质的音频质量。广泛的支持。出现得比较早,因此音质不是很好。一般聆听和高保真聆听。mp3PRO mp3 Fraunhofer-IIS CodingTechnologies Thomson Multimedia在低至64kbps的比特率下提供接近CD音质的音频质量。专利费用较高,支持的软件和硬件不多。一般聆听和高保真聆听。第26页/共45页RealMedia ra,rma RealNetworks在极低的比特率环境下提供可听的音频质量。不适于除网络传播之外的用途。音质不是很好。网络音频流传输。Windows Media wma,asf Micro
27、softWindows Media wma,asf Microsoft 功能齐全,使用方便。同时支持无失真、有失真、语音压缩方式。失真压缩方式下音质不高。必须在Windows平台下才能使用。音频档案级别保存,一般聆听,网络音频流传输。MIDI MID MIDI RMI XMI MIDI AssociationMIDI MID MIDI RMI XMI MIDI Association 音频数据为乐器的演奏控制,通常不带有音频采样。没有波表硬件或软件配合时播放效果不佳。与电子乐器的数据交互,乐曲创作等。Ogg Vorbis OGG Xiph FoundationOgg Vorbis OGG Xi
28、ph Foundation 在低至64kbps的比特率下提供接近CD音质的音频质量。开放源代码,不需要支付使用许可费用。跨平台。发展较慢。推广力度不足。一般聆听和高保真聆听。第27页/共45页VQF vqf tvq NTT Human Interface LaboratoriesVQF vqf tvq NTT Human Interface Laboratories 在低至96kbps的比特率下提供接近CD音质的音频质量。相关软件太少。一般聆听。Aiff aiff AppleAiff aiff Apple 可通过增加驱动程序而支持各种各样的编码技术 一般限于苹果电脑平台使用。苹果电脑平台下音频
29、原始素材保存。Au au SunAu au Sun Unix和Java平台下的标准文件格式。支持的压缩技术太少且音频数据格式受文件格式本身局限。Unix和Java平台下音频原始素材保存。第28页/共45页音频文件的创作 音频文件的获取可通过3 3种途径:1.1.通过音频软件可以录音获取声音或语音。2.2.通过网络或外接设备获取,例如网上下载、电视接入、CDCD设备或CDCD光盘抓轨。3.3.通过现有的电子音频素材库。第29页/共45页数字音频设备-激光唱机第30页/共45页第31页/共45页留声机原理声音存储的思想及装置是美国的伟大发明家Thomas Alva Edison首创的1877年,他
30、受电话接受机的启发,发明了留声机.留声机的机理为:机械振动与声波的互相转换.留声机的结构可为转动圆筒,外覆锡箔,有螺纹.录音的时候,转动手柄使针尖沿螺线运动,振动膜压迫针尖,沿螺线留下深浅凹坑;放音的时候,秃头的针尖沿螺线随着凹坑振动,反过来激发振动膜,发出声音第32页/共45页第33页/共45页第34页/共45页第35页/共45页第36页/共45页一、数字信号二、CD1.CD种类:VCDDVDCDDACD软件2.CD结构:第37页/共45页第38页/共45页第39页/共45页激光拾音头激光拾音头光检测柱形透镜分光镜准直透镜激光器光栅CD片物镜聚焦循迹第40页/共45页厚度:1.2mm直径:1
31、2mm8mm坑点:深度0.1微米 轨迹间距:1.6微米每毫米:625条结构:树脂保护层反射层信号层盘基内容:导入区导出区内容区第41页/共45页三、激光唱机1.结构:光学拾取单元机械传动系统电子线路2.特点信噪比好.噪声低动态范围大,频响宽,失真度低,抖晃小信息容量大,放唱时间长寿命长功能多,自动化程度高四、唱机和盘片的使用与维护CD唱机或唱片应置于干燥、干净、通风良好的环境中,注意防止灰尘与油烟第42页/共45页CD唱机应平稳放置,防震动、防撞击,不要经常搬动.不要用手触摸唱片的光洁面,不用时应装入封套内好好保存.不要播放有严重划伤、断裂、污渍或扭曲的唱片.不要盲目拆卸,更不要轻易调整机内各微调元件.第43页/共45页音响设备日常维护基本常识1.音响器材正常的工作温度应该为1845C。2.音响器材切忌阳光直射,也要避免靠近热源,如暖气。3.影响器材用完后,各功能键要复位。4.开关音响电源之前,把功放的音量旋至最小。5.开机时由前至后开,即先开CD,再开其他周边设备,最后功放,关机相反。6.机器要常用。7.定期通电。8.定期用干净潮湿的软棉布擦拭机器表面。9.不能带电插拔设备。第44页/共45页感谢您的观看!第45页/共45页