《《数字声音及》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数字声音及》PPT课件.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章 数字声音及MIDIn信息:数、文、形、音、图n音频:麦克风、扬声器n多媒体计算机:n声音的输入、存储、处理、输出n声音:消息、意向、情感 表示方式数据量表达信息汉字内码2-4字节编码点阵32数百字节 汉字形、体声音几千字节声学、意向、情感2.1 声音与听觉n声音:通过空气传播的一种连续的波,又称声波。n声音的度量:频率与幅度(声波压力的大小)频率用音高表示,幅度用声强表示与看得见的水波类似波形声音n波形声音,实际上包含了所有的声音形式。任何波形声音,实际上包含了所有的声音形式。任何声音信号,包括麦克风、磁带录音、无线电和电声音信号,包括麦克风、磁带录音、无线电和电视广播、光盘等各种声源
2、所产生的声音,都要首视广播、光盘等各种声源所产生的声音,都要首先对其进行模数转换,然后再恢复出来。先对其进行模数转换,然后再恢复出来。语音(speech)n人的声音不仅是一种波形,而且还有内在的语言、人的声音不仅是一种波形,而且还有内在的语言、语音学的内涵,可以利用特殊的方法进行抽取,语音学的内涵,可以利用特殊的方法进行抽取,通常将语音也作为一种媒体。通常将语音也作为一种媒体。音乐n音乐是符号化了的声音。这种符号就是乐曲,乐音乐是符号化了的声音。这种符号就是乐曲,乐谱是转化为符号媒体的声音。电子乐器数字接口谱是转化为符号媒体的声音。电子乐器数字接口(musical instrument dig
3、ital interface,MIDI)是十分规范的一种形式。)是十分规范的一种形式。语语音音(SpeechSpeech)带带宽宽音音频频(AudioAudio)带带宽宽次声带次声带超声带超声带 20 300 320 300 3K 20K K 20K f(Hz)f(Hz)n带宽与听觉nHertz,Amplitude,Frequencyinfra-sound,ultrasound,hypersound18kn感知声音的幅度:用dyne(达因)/平方厘米表示,常转换成0120dB(decibel),但对不同的频率,同样的声强,感觉不同。n声音信号:有许多不同频率的信号组成,又称复合信号。n带宽:组
4、成复合信号的频率范围。n纯音:单一频率的声音。声音是由空气中分子的振动而产生的。自然界的声音是一个随时间而变化的连续信号,可近似地看成是一种周期性的函数。通常用模拟的连续波形描述声波的形状,单一频率的声波可用一条正弦波表示,如下图所示。振幅周期基线基线基线是测量模拟信号的基准点。声波的振幅表示声音信号的强弱程度。声波的频率反映出声音的音调,声音细尖表示频率高,声音粗低表示频率低。振幅和频率不变的声音信号,称为单音。单音一般只能由专用电子设备产生。在日常生活中,我们听到的自然界的声音一般都属于复音,其声音信号由不同的振幅与频率合成而得到。n模拟声音信号:可分解成一系列正弦波的线性叠加。n最低频的
5、音波称为基音,频率为基频n其余的为泛音,频率是基频的整数倍。n声音三要素:音高、音色、音强音高:由基频决定,基频取对数后与人的音高感觉成线性关系。音色:有混入基音中的泛音决定。音强:幅度,听觉与声音信号强度不成线性关系,因而用20log幅度(分贝)表示简谱频率20log频率126148.3229349.3333050.3434950.8539251.8644052.8749453.8(1).采样和量化 (c)采样信号的量化(a)模拟音频信号(b)音频信号的采样数字化音频的过程如下图所示。2.2 声音信号数字化1.从模拟信号到数字信号模拟信号:在时间与幅度上都连续,连续 记为x(t).离散信号:
6、按一定的时间间隔T,得到的x(nT).nT为抽样周期,1/T抽样频率量化:把抽样序列x(nT)量化成一个有限个幅度之的集合x(nT).对模拟音频信号进行采样量化编码后,得到数字音频。数字音频的质量取决于采样频率量化位数声道数采样频率n采样频率是指一秒钟时间内采样的次数。n在计算机多媒体音频处理中,采样频率通常采用三种:11.025KHz(语音效果)、22.05KHz(音乐效果)、44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为44.1KHz。量化位数n量化位数也称“量化精度”,是描述每个采样点样值的二进制位数。n例如,8位量化位数表示每个采样值可以用28即256个不同的量化值之一来表
7、示,而16位量化位数表示每个采样值可以用216即65536个不同的量化值之一来表示。常用的量化位数为8位、12位、16位。声道数n声音通道的个数称为声道数,是指一次采样所记录产生的声音波形个数。n记录声音时,如果每次生成一个声波数据,称为单声道;每次生成两个声波数据,称为双声道(立体声)。随着声道数的增加,所占用的存储容量也成倍增加。2.声音数字化:Sampling,Quantization,Coding采样频率与量化精度3.采样频率奈奎斯特(Nyquist)定理(1928年提出原理,仙侬(Shannon)形成定理并应用,1933年卡切尼科夫用公式表述):采样频率2f 这里f为被采样信号的最高
8、频率。4.量化精度量化:取样值(-,+)有限个数(量化值近似)若量化值有J个,若用二进制表示,需要R=log2(J)位量化误差:用有限的离散值表示无限多的连续值,必然存在误差.该误差又称为量化噪声(与一般的噪声不同)。采样精度可以用信噪比表示:R为编码位数5.音频数据率未经压缩的数字音频数据率(bit/s)采样频率(Hz)量化位数(bit)声道数音频数据存储量(Byte)数据率(bit/s)持续时间(s)/8例:采样率11.025KHz、量化位8位,采集1分钟,则:音频数据率11.025(KHz)8(bit)88.2(Kbit/s)音频数据量11.025(KHz)8(bit)60(s)/8 0
9、.66(MByte)存储量=采样频率量化位数/8声道数时间声音的质量与数据率n根据声音的频带,把声音的质量分为5个等级质量采样频率(KHz)分辨率(b/s)单声道/立体声数据率KB/s频率范围(Hz)电话88单声道82003400AM11.0258单声道11.0507000FM22.05016立体声88.22015000CD44.116立体声176.4202000DAT4816立体声192.02020002.3 声音文件的存储格式1.声音文件的格式:PC机:.wavApple:.aiff,.sndUnix:.au 2.波形文件格式:1991年IBM与微软开发(以.wav为扩展名)Fig 2.3
10、3.常见声音文件的扩展名 表2-2声音文件n在多媒体技术中,存储声音信息的常用文件在多媒体技术中,存储声音信息的常用文件格式主要有:格式主要有:WAV文件、文件、VOC文件、文件、MIDI文件、文件、AIF文件、文件、SNO文件和文件和RMI文件等。文件等。(1)WAV文件nWAV是是Microsoft公司的音频文件格式。利用公司的音频文件格式。利用Microsoft Sound System软件软件Sound Finder可可以将以将AIF、SND和和VOD文件转换到文件转换到WAV格式。格式。nWAV文件来源于对声音模拟波形的采样。用不同文件来源于对声音模拟波形的采样。用不同的采样频率对声
11、音的模拟波形进行采样可以得到的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样点,以不同的量化位数(一系列离散的采样点,以不同的量化位数(8位或位或16位)把这些采样点的值转换成二进制数,然后位)把这些采样点的值转换成二进制数,然后存入磁盘,这就产生了声音的存入磁盘,这就产生了声音的WAV文件,即波形文件,即波形文件。文件。WAV文件是由采样数据组成的,所以它需文件是由采样数据组成的,所以它需要的存储容量很大。要的存储容量很大。(2)VOC文件nVOC文件是文件是Creative公司波形音频文件格式,也公司波形音频文件格式,也是声卡使用的音频文件格式。每个是声卡使用的音频文件格式。每个
12、VOC文件由文文件由文件头块(件头块(header block)和音频数据块()和音频数据块(data block)组成。文件头包含一个标识、版本号和一)组成。文件头包含一个标识、版本号和一个指向数据块起始的指针。数据块分成各种类型个指向数据块起始的指针。数据块分成各种类型的子块,如声音数据、静音、标记、的子块,如声音数据、静音、标记、ASCII码文件码文件、重复的结束,以及终止标记、扩展块等。、重复的结束,以及终止标记、扩展块等。(3)MIDI文件nMIDI(musical instrument digital interface)是一种技术规范,从它的英文全)是一种技术规范,从它的英文全名
13、可以看出,它用于音乐。名可以看出,它用于音乐。其他音频文件其他音频文件n最重要的是最重要的是PCM格式,它是模拟的音频信号经数模转格式,它是模拟的音频信号经数模转换(换(A/D变换)直接形成的二进制序列,该文件没有变换)直接形成的二进制序列,该文件没有附加的文件头和文件结束标志。在声卡提供的软件中,附加的文件头和文件结束标志。在声卡提供的软件中,可以利用可以利用VOCHDR程序,为程序,为PCM格式的音频文件格式的音频文件加上文件头,而形成加上文件头,而形成VOC格式。格式。Windows的的Convert工具也可以将工具也可以将PCM音频文件转换成音频文件转换成Microsoft的的WAV格
14、式。格式。nAIF是是Apple计算机的音频文件格式。计算机的音频文件格式。WindowsConvert工具可以把工具可以把AIF格式的文件转换成格式的文件转换成Microsoft的的WAV格式的文件。格式的文件。2.4 声音工具n声音工具:录、放、存储、编辑Windows自带:sound recordern播放和录音设备:SoundMAX Digital Audio声卡:附带wave studio网上:cool edit,goldwavenWindows Media Player播放和组织计算机和 Internet 上的数字媒体文件。这就好象把收音机、视频播放机、CD 播放机和信息数据库等都
15、装入了一个应用程序中Windows Media Player 播放器支持的文件类型.doc2.5 声音质量的度量1.声音信号的带宽2.客观质量度量signal-to-noise ratio,SNR3.主观质量度量:人的感觉 MOS:mean opinion score声音质量 MOS标准 分数 质量级别失真级别5优(Excellent)察觉不到4良(Good)(刚)察觉但不讨厌3中(Fair)(察觉)及有点讨厌2差(Poor)讨厌而不反感1劣(Bad)极讨厌(令人反感)2.5 声音质量的度量作业 1.使用“录音机”软件把10秒钟的CD音乐录制成CD音质(44.1kz、16位、双声道、PCM)的
16、.wav文件)。2.把录制的文件分别转换为“22.05kz、16位、单声道、PCM”,“11.025kz、8位、单声道、PCM”以及“44.1kz、4位、单声道、ADPCM”3.比较以上四种格式的声音文件的数据量和声音音质2.6 电子乐器数字接口MIDI1.MIDI(Musical Instruments Digital Interface)Musical synthesizers、musical instruments、计算机之间交换音乐信息的一种标准协议。MIDI是一套指令,指示MIDI设备做什么,如何做。MIDI不是声音信号,而是发送给Midi 设备的,产生声音或执行动作的指令。2.MI
17、DI乐音的产生方法频率调制合成,FM波形表合成 wave table synthesis3.频率调制FM合成(frequency modulation):把几种乐音的波形用数字表达,存于计算机中并通过数模转换器来生成乐音。专利售给Yamaha公司。乐音由一组参数控制。4.波形表合成 把乐器的真实声音记录下来,生成各种音符在乐器上演奏音符,采样存于ROM中合成。图2-95.MIDI系统:MPC:MIDI 接口与声音模块组合在卡上。SoundMAX Wavetable synthesizer(MIDI音乐播放器)Windows Media Player 播放 MIDI音乐制作软件Midisoft
18、Studio 6MIDI文件n记录记录MIDI信息的标准格式文件称信息的标准格式文件称MIDI文件文件,其中,其中包含音符、定时和多达包含音符、定时和多达16个个通道通道的乐器定义以及的乐器定义以及键号、通道号、持续时间、音量和击键力度等各键号、通道号、持续时间、音量和击键力度等各个音符的有关信息。定义和产生乐曲的个音符的有关信息。定义和产生乐曲的MIDI信息信息和数据组存放于和数据组存放于MIDI文件中,每个文件中,每个MIDI文件最多文件最多可存放可存放16个音乐通道的信息。个音乐通道的信息。n音序器音序器是一种为是一种为MIDI作曲而设计的软件或设备,作曲而设计的软件或设备,可用来记录、
19、播放及编辑可用来记录、播放及编辑MIDI事件,大多数音序事件,大多数音序器可输入输出器可输入输出MIDI文件。当演奏文件。当演奏MIDI文件时,音文件时,音序器将序器将MIDI信息从文件中取出并送至合成器中。信息从文件中取出并送至合成器中。MIDI作品nMIDI作者可以购买现成的产品,也可以自己制作。作者可以购买现成的产品,也可以自己制作。当然,开发自己的当然,开发自己的MIDI作品,除了必须拥有计算作品,除了必须拥有计算机方面的知识与设备之外,还需要具备专业音乐机方面的知识与设备之外,还需要具备专业音乐知识和专用工具。知识和专用工具。数字化声音和MIDI的比较n与与MIDI数据相比,数字化的
20、声音是声音的实际表数据相比,数字化的声音是声音的实际表示。它代表了声音的瞬时幅度。因为它与设备无示。它代表了声音的瞬时幅度。因为它与设备无关,每次播放时它都发出相同的声音。从这一点关,每次播放时它都发出相同的声音。从这一点看,它的一致性好,但代价较高,因其数据文件看,它的一致性好,但代价较高,因其数据文件要求较大的存储空间。要求较大的存储空间。nMIDI数据是与设备有关的,即数据是与设备有关的,即MIDI音乐文件所产音乐文件所产生的声音与用来播放的特定的生的声音与用来播放的特定的MIDI设备有关。设备有关。(3)在不需要改变音调或降低音质的情况下,可在不需要改变音调或降低音质的情况下,可以通过
21、改变其速度来改变以通过改变其速度来改变MIDI文件的长度。文件的长度。MIDI数据是完全可编辑的,我们可以用多种方数据是完全可编辑的,我们可以用多种方法来处理它的每一个细节,而在处理数字化声法来处理它的每一个细节,而在处理数字化声音时,这些方法却完全用不上。音时,这些方法却完全用不上。(4)为了创建数字化声音所要求的准备与编程工为了创建数字化声音所要求的准备与编程工作,不需要掌握许多音乐理论知识,作,不需要掌握许多音乐理论知识,MIDI则要则要求比较多。求比较多。(5)在应用软件和系统支持方面数字化声音都有在应用软件和系统支持方面数字化声音都有更多的选择,不管对更多的选择,不管对Macinto
22、sh还是还是Windows平台均如此。平台均如此。MIDI数据优点(1)文件紧凑,所占空间小,文件紧凑,所占空间小,MIDI文件的大小与回放文件的大小与回放质量完全无关。通常,质量完全无关。通常,MIDI文件比文件比CD质量的数字质量的数字化声音文件小化声音文件小200到到1000倍,它不占用较多的内倍,它不占用较多的内存、外存空间和存、外存空间和CPU资源。资源。(2)在某些情况下,如果所用的在某些情况下,如果所用的MIDI声源较好,声源较好,MIDI有可能发出比数字化声音更好的质量。有可能发出比数字化声音更好的质量。MIDI数据缺点(1)因因MIDI数据并不是声音,仅当数据并不是声音,仅当
23、MIDI回放设备与回放设备与产生时所指定设备相同时,回放的结果才是精确产生时所指定设备相同时,回放的结果才是精确的。的。(2)MIDI不能很容易地用来回放语言对话。不能很容易地用来回放语言对话。数字化声音和MIDI之间的选择(1)选择选择MIDI 由于没有足够的由于没有足够的RAM、硬盘空间或、硬盘空间或CPU处理能处理能力;力;具有高质量的声源;具有高质量的声源;对回放的硬件有完全的控制;对回放的硬件有完全的控制;没有语言对话的需要。没有语言对话的需要。(2)选择数字化声音选择数字化声音 对回放硬件没有完全的控制;对回放硬件没有完全的控制;有足够的计算资源处理数字文件;有足够的计算资源处理数字文件;有语言对话的需要。有语言对话的需要。