关于计算机图形学期末考试.ppt-淘文阁

资源描述

《关于计算机图形学期末考试.ppt》由会员分享，可在线阅读，更多相关《关于计算机图形学期末考试.ppt（53页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、1第二章数字声音及MIDI简介本章将介绍声音的基础知识，重点掌握声音数字化的两个最基本的概念。此外，还介绍在上网浏览或者脱机工作时你会经常遇到的声音文件存储格式和声音工具。22.1 声音的重要性声音的重要性声音是携带信息的极其重要的媒体，是多媒体技术研究中的一个重要内容。声音的种类繁多，如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的雷声、风声、雨声、闪电声等。这些声音有许多共同的特性，也有它们各自的特性。在用计算机处理这些声音时，既要考虑它们的共性，又要利用它们各自的特性。3什么是声音声音是通过一定介质（如空气、水等）传播的连续的波4声音的物理和心理特征物理特性心理/生理感

2、觉特性frequency(Hz)音调,音高Amplitude/power(W,mW)音量,响度shapeofwaveform音色5音色因为声音的波形绝大多数都不是简单的正弦波，而是一种复杂的波。分析表明这种复杂的波形，可以分解为一系列的正弦波，这些正弦波中有基频f0，还有与f0成整数倍关系的谐波：f1、f2、f3、f4，它们的振幅有特定的比例。这种比例，赋予每种乐器以特有的“色彩”音色。如果没有谐波成分，单纯的基音正弦信号是毫无音乐感的。比如：大提琴音色、黑管音色不同虽然演奏同一音高（基频）的音符，但人们能够明确分辨出哪个是乐器6声音特性连续性时间和幅度上都是连续的。声波具有普通波所具有的特性

3、，例如反射(reflection)、折射(refraction)和衍射(diffraction)等。图201 声音是一种连续的波 7第二章数字声音及MIDI简介复复合合声声音音信信号号：由许多频率不同的信号组成的声音信号。分量声音信号：分量声音信号：单一频率的信号。带带宽宽：用来描述复合声音信号的频率范围。如高保真音信号(high-fidelity audio)的频率范围为10Hz20,000Hz，带宽约为20kHz8声音的参数声音信号的两个基本参数：声音信号的两个基本参数：频率和幅度信信号号的的频频率率:指信号每秒钟变化的次数，用Hz表示。例如，大气压的变化周期很长，以小时或天数计算，一

4、般人不容易感到这种气压信号的变化，更听不到这种变化。对于频率为几Hz到20Hz的空气压力信号，人们也听不到，如果它的强度足够大，也许可以感觉到。9按照频率分类次音信号次音信号(infrasonic)：频率小于20Hz的信号可可听听音音(Audio)信信号号：频率范围为20Hz20kHz的信号超超声声波波(ultrasonic)信信号号：频率高于20kHz的信号。具有很强的方向性，形成波束。在工业上得到广泛的应用，如超声波探测仪，超声波焊接设备等。10Audio其中在Audio中话话音音(speech)信信号号：频率范围为3003400Hz的信号全频带声音20-20kHzMusic/Noise.

5、在多媒体技术中，处理的信号主要是Audio信号，包括音乐、话音、风声、雨声、鸟叫声、机器声等。11人的听力人耳对中频段13千赫的声音最为灵敏，对高、低频段的声音，特别是低频段的声音则比较迟钝。利用这些特性可以在压缩音频数据时区分对待12按照存储方式分类波形声音（存储的是波形）语音音乐效果声合成声音（存储的是命令）MIDI132.2 声音信号数字化声音信号数字化2.2.1 从模拟过渡到数字从模拟过渡到数字数字信号优点精确、运算容易、可编程142.2.2 模拟信号与数字信号模拟信号与数字信号话音信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的。时时间间上上“连连续续”：指在一个

6、指定的时间范围里声音信号的幅值有无穷多个。幅度上幅度上“连续连续”：指幅度的数值有无穷多个。模拟信号模拟信号：在时间和幅度上都是连续的信号。15数字信号数字信号采样采样(sampling)：在某些特定时刻对模拟信号进行测量。离散时间信号离散时间信号：由这些特定时刻采样得到的信号。离离散散幅幅度度信信号号：采样得到的幅值是无穷多个实数值中的一个，因此幅度还是连续的。如果把信号幅度取值的数目加以限定，这种由有限个数值组成的信号就称为离散幅度信号。【例例】假设输入电压的范围是0.0V0.7V，并假设它的取值只限定在0、0.1、0.2，0.7共8个值。如果采样得到的幅度值是0.123V，它的取值就应算

7、作0.1V，如果采样得到的幅度值是0.26V，它的取值就算作0.3，这种数值就称为离散数值。数字信号数字信号：时间和幅度都用离散数字表示的信号。162.2.3 声音信号数字化声音信号数字化数字化：数字化：采样量化，声音进入计算机的第一步处理。编码压缩量化后的数据量模拟声音信号量化数字声音01100011001编码采样17采样采采样样：连续时间的离散化。若每隔相等的一小段时间采样一次，称为均均匀匀采采样样(uniform sampling)采样点18采样采样频率采样频率(fs)：决定每秒钟需要采集多少个声音样本。奈奈奎奎斯斯特特定定理理：采样频率不应低于声音信号最高频率的两倍，这样就能

8、把以数字表达的声音还原成原来的声音，这叫做无损数字化(lossless digitization)。采样定律采样定律 fs2f 或者 TsT/2，其中f为被采样信号的最高频率。理理解解奈奈奎奎斯斯特特理理论论：声音信号可以看成由许许多多正弦波组成的，一个振幅为A、频率为f的正弦波至少需要两个采样样本表示，因此，如果一个信号中的最高频率为fmax，采样频率最低要选择2fmax。例如，电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。19量化量化量化(quantization)：连续幅度的离散化，就是把信号的强度划分成一小段一小段。如果幅度的划分是等间隔的，就称为线性线性量化量化，

9、否则就称为非线性量化非线性量化。202.2.4 量化精度量化精度每个采样点样本大小是用每个声音样本的位数bit表示的，它反映度量声音波形幅度的精度。量化精度既决定了取样值的动态范围，也决定着所引入的噪声大小。例如，每个声音样本用16位(2字节)表示，测得的声音样本值是在065536的范围里，它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多；位数越少，声音的质量越低，需要的存储空间越少。21信号噪声比采样精度的另一种表示方法是信号噪声比，简称为信噪比(signal-to-noise ratio，SNR)，并用下式计算：SNR1

10、0log(Vsignal)2/(Vnoise)220log(Vsignal/Vnoise)其中，Vsignal表示信号电压，Vnoise表示噪声电压；SNR的单位为分贝(db)【例1】假设Vnoise1，采样精度为1位表示Vsignal21，它的信噪比SNR6分贝。【例2】假设Vnoise1，采样精度为16位表示Vsignal216，它的信噪比SNR96分贝。22声音的质量根据声音的频带，通常把声音的质量分成5个等级，由低到高分别是：电话(telephone)、调幅(amplitude modulation，AM)广播、调频(frequency modulation，FM)广播、激光唱盘(CD

11、-Audio)和数字录音带(digital audio tape，DAT)的声音。23声音质量和数据率表201 声音质量和数据率质量量采采样频率率(kHz)(kHz)样本精度本精度(bit/s)(bit/s)单道声道声/立体声立体声数据率数据率(kB/s)(kB/s)(未未压缩)频率范率范围电话*88单道声8 2003 400 HzAM11.0258单道声11.02015 000HzFM22.05016立体声88.2 507 000HzCD44.116立体声176.42020 000 HzDAT4816立体声192.02020 000 Hz242.2.5 声音质量与数据率声音质量与数据率数据率

12、=取样频率x量化位数x通道数目例:电话语音=8kx8bx1=64kbps=8kB/s=28MB/h例：CD的数据率44.1KHz,16bits,2,252.3 声音文件的存储格式声音文件的存储格式在因特网上和各种机器上运行的声音文件格式很多，目前比较流行的有 wav(waveform)，au(audio)，aiff(Audio Interchangeable File Format)和snd(sound)文件格式。wav格式主要用在PC上，au主要用在Unix工作站上，aiff和snd主要用在苹果机和美国视算科技有限公司(Silicon Graphics，Inc.，SGI)的工作站上。

13、wav文件称为波形文件格式(WAVE File Format)，它在多媒体编程接口和数据规范1.0(Multimedia Programming Interface and Data Specifications 1.0)文档中有详细的描述。该文档是由IBM和微软公司于1991年8月联合开发的，它是一种为交换多媒体资源而开发的资源交换文件格式(Resource Interchange File Format，RIFF)。26波形文件格式波形文件格式支持存储各种采样频率和样本精度的声音数据，并支持声音数据的压缩。波形文件由许多不同类型的文件构造块组成，RIFFWAVEChunk,FormatC

14、hunk,FactChunk(可选),DataChunk。其中最主要的两个文件构造块是Format Chunk(格式块)和Sound Data Chunk(声音数据块)。格式块包含有描述波形的重要参数，例如采样频率和样本精度等，声音数据块则包含有实际的波形声音数据。图203 WAVE文件结构http:/www.moon- 律编码或者16位线性编码)aif(Audio Interchange)Apple计算机上的声音文件存储格式cmf(Creative Music Format)声霸(SB)卡带的MIDI文件存储格式MctMIDI文件存储格式mff(MIDI Files Format)MIDI文

15、件存储格式mid(MIDI)Windows的MIDI文件存储格式Mp2MPEG Layer I,IIMp3MPEG Layer IIImod(Module)MIDI文件存储格式rm(RealMedia)RealNetworks公司的流放式声音文件格式表表2-02 常见的声音文件扩展名常见的声音文件扩展名31常见的声音文件扩展名（常见的声音文件扩展名（2）ra(RealAudio)RealNetworks公司的流放式声音文件格式RolAdlib声音卡文件存储格式snd(sound)Apple计算机上的声音文件存储格式SeqMIDI文件存储格式SngMIDI文件存储格式voc(Creative V

16、oice)声霸卡存储的声音文件存储格式wav(Waveform)*Windows采用的波形声音文件存储格式WrkCakewalk Pro软件采用的MIDI文件存储格式*支持PCM，ADPCM，m 率和A率波形(详见第3章)322.4 声音工具声音工具声音工具(audio tools)用来录放、编辑和分析声音文件，声音工具使用相当普遍，但功能相差很大。1.Windows 本身带的本身带的“Sound Recorder”在英文版Windows界面上单击：StartProgramsAccessoriesMultimedia/EntertainmentSound Recorder，可录音，作简单的声

17、音编辑(如插入、删除等)。图204 Windows录音机33第二章数字声音及MIDI简介2.买声音卡时带的工具买声音卡时带的工具声卡一般都附带有声音工具。例如，声霸(Sound Blaster)卡带有几种声音工具，通常要由用户自己安装。其中，功能比较强的是WaveStudio,用户界面如图205所示。图205 Creative Wave Studio Version 4.00的用户界面34第二章数字声音及MIDI简介3.网络上下载的工具网络上下载的工具因特网上有许多站点提供试用的或者是免费的声音工具。图206所示的是Cool Edit工具，它很受声音研究工作者的欢迎，还有goldwave公

18、司的声音工具，Cakewalk，Cubase等。图206 Cool Edit 的用户界面352.5 声音质量的度量声音质量的度量用用声声音音信信号号带带宽宽来来衡衡量量声声音音的的质质量量：等级由高到低依次是DAT，CD，FM，AM和数字电话。1.声声音音客客观观质质量量度度量量：信噪比(signal to noise ratio，SNR)，峰值信噪比PSNR。2.主主观观度度量量声声音音质质量量：召集若干实验者，由他们对声音质量的好坏进行评分，求出平均值作为对声音质量的评价。这种方法称为主观平均判分法，所得的分数称为主观平均(mean opinion score，MOS)分，比较通用的标准是

19、5分制。（类似于评委打分）36MOS表2-03 声音质量评分标准分数分数质量级别质量级别失真级别失真级别5优(Excellent)无察觉4良(Good)(刚)察觉但不讨厌3中(Fair)(察觉)有点讨厌2差(Poor)讨厌但不反感1劣(Bad)极讨厌(令人反感)372.6 电子乐器数字接口电子乐器数字接口(MIDI)系统系统2.6.1 MIDI简介简介 MIDI(Musical Instrument Digital Interface)电子乐器数字接口，是在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。

20、MIDI是乐器和计算机使用的标准语言，是一套指令(即命令的约定)，它指示乐器即MIDI设备要做什么，怎么做，如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号，在MIDI电缆上传送的不是声音，而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。38 MIDI标准的优点标准的优点生成的文件比较小，因为MIDI文件存储的是命令，而不是声音波形容易编辑，因为编辑命令比编辑声音波形要容易得多可以作背景音乐，因为MIDI音乐可以和其它的媒体，如数字电视、图形、动画、话音等一起播放，这样可以加强演示效果。392.6.2 产生产生MIDI乐音的方法乐音的方法两种方法1 FM(freque

21、ncy modulation)合成法2 乐音样本合成法，也称为波形表(Wavetable)合成法40FM合成声音合成声音早期，音乐合成器的先驱Robert Moog采用模拟电子器件生成复杂乐音。20世纪80年代初，美国斯坦福大学(Stanford University)一名叫John Chowning的研究生发明了一种产生乐音的新方法，称为数字式频率调制合成法(digital frequency modulation synthesis)，简称为FM合成器。他把几几种种乐乐音音的波形用数字来表达，并且用数字计算机而不是用模拟电子器件把它们组合起来，通过

22、数模转换器(digital to analog convertor，DAC)来生成乐音。41 工作原理工作原理通过组合各种波形参数生成乐音斯坦福大学得到了发明专利，并且把专利权授给Yamaha公司，该公司把这种技术做在集成电路芯片里，成了世界市场上的热门产品。FM合成法的发明使合成音乐工业发生了一次革命。42乐音样本合成声音乐音样本合成声音l乐乐音音样样本本合合成成法法：使用FM合成法来产生各种逼真的乐音是相当困难的，有些乐音几乎不能产生。l这种方法就是把真实乐器发出的声音以数字的形式记录下来，播放时改变播放速度，从而改变音调周期，生成各种音阶的音符。43乐音样本的采集乐音样本的采集乐乐音音

23、样样本本的的采采集集：音乐家在真实乐器上演奏不同的音符，选择44.1 kHz的采样频率、16位的乐音样本，这相当于CD-DA的质量，把不同音符的真实声音记录下来。乐音样本通常放在ROM芯片上，ROM是超大规模集成电路(very large scale integrated，VLSI)芯片。乐音样本合成器所需要的输入控制参数比较少，可控的数字音效也不多，产生的声音质量比FM合成方法产生的声音质量要高。44MIDI系统PC机使用内置的MIDI接口卡，用来把MIDI数据发送到外部的多音色MIDI合成器模块。45语音合成语音合成(Speech synthesis)语音合成：利用适当的方法和手段，从文本

24、、概念或意向通过合成产生语音的过程。语音合成的3个层次：从文本到语音的合成（Text-to-Speech，简称TTS）；从概念到语音的合成（Concept-to-Speech）；从意向到语音的合成（Intention-to-Speech）这三个层次反映了人类大脑中形成说话内容的不同过程，涉及人类大脑的高级神经活动46文语转换的要求文语转换的要求对合成语音的要求：可理解自然低延迟语速可变声音可变语言可变应用：声讯服务，自动应答,有声电子邮件,残疾人服务,自动配音等.47语音基础知识语音基础知识音素(phoneme)是语音的最小单位。音素分为：元音(vowel)（浊音），不受声道阻碍的音。辅音(c

25、onsonant)（浊音或清音），受声道阻碍的音。48英语语音英语语音每字(词)一个或几个音节(syllable)（多音节字）音节由一个或几个音素组成英语的音素：元音20个辅音28个49汉语语音汉语语音每字一个音节(syllable)（单音节字）音节由一个或几个音素组成汉语的音素声母(21个，b,p,m,f,d,t,n,l,)韵母(39个，a,e,i,o,u,ao,ou,an,en,eng,ong,)音调(4个:阴平、阳平、上声、去声)汉语语音的数目：无声调的音节数目：412个带声调的音节数目：1282个50汉语语音的特点汉语语音的特点（）音系简单（音节少、音素少）（）汉语没有词的自然界限分词

26、问题咬死了猎人的狗下雨天留客天留我不留今年真好晦气全无财帛进门（）一字多音：我们都是同行，我们一路同行，去参加人参培植研讨会。（4）数字的读音：复旦大学计算机系2002年招收了202名本科生，130多名硕士生，分成2个专业。51文语转换过程文语转换过程文本分析与理解文本韵律控制语音生成合成语音一串语音基元语音基元库文本到发音的转换发音标注发音规则库韵律分析韵律控制参数韵律规则库n查找拼写错误，对不规范或无法发音的字符进行过滤。n分析文本中词或短语的边界，n分析文本中的数字、姓氏、特殊字符、专有词语等有关词语读音的性质。n根据文本的结构、组成和标点符号，确定发音时语气的变换以及不同音的轻重方式。n分析并决定各个音节的声调、语气和停顿方式，发音的轻重、长短等52几个几个TTS系统系统中国科大讯飞中国科大讯飞TTS系统系统 http:/ https:/ http:/www.bell-

展开阅读全文