《第5章 音频技术.ppt》由会员分享,可在线阅读,更多相关《第5章 音频技术.ppt(155页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第5章音频技术 有声信息在实际应用中起着相当关键的作用,所以音频也是多媒体应用的重要组成部分。现实世界的声音来源是相当复杂的,声音不仅与时间和空间有关,还与强度、方向等很多因素有关。在计算机中创建音频时,所能模拟的声音还必须要符合人类的听觉特征和听力范围。目前的数字音频主要分为声波、语音和音乐三类。本章首先讨论音频特征,分析了语音、声音和人的听觉心理特性,然后介绍声音的数字化原理、声音的采样、数字化声音与噪声比、声音的过滤、3维模拟声音的基本理论以及合成音乐MIDI的基本知识,然后介绍了常用的音频文件格式,并推荐了几款音频创作软件,以便读者通过实践应用能进一步了解数字音频。5.1声音要模拟出符
2、合现实世界的数字声音,我们首先得了解声音的基本特性,包括声音的物理特性和人们在听觉方面的心理特性,以便创建出一定格式的数字声音编码,满足人们对模拟声音在采集、处理、质量等各方面的需求。本节就以上问题进行讨论。5.1.1 声音的物理特征 声音是纵波,基本形式是正弦波形,如图5-1所示。决定声波的物理特性有振幅、频率和相位。振幅是声压的大小,即声音的强度,指正弦波形的高度,声压值的单位为帕(Pa)。在图中表示为两个波谷(峰)之间的距离称为一个周期,频率是单位时间内声音的变化周期,单位是赫兹Hz。相位是声音变化的方向。图5-1 声波的基本形式图5-1 声波的基本形式 声音的强度 在1kHz频率的正弦
3、波中,能被人耳察觉的最弱声压大约是2.8310-4dyn(达因)/cm2,这个最弱音已经作为国际标准的参照声。物理上,描述声音强度的量值是采用分贝来表示的。所谓分贝是指两个相同的物理量(例A1和A0)之比,取以10为底的对数并乘以10(或20)。N=10lg(A1/A0)分贝符号为“dB”,它是无量纲的。式中A0是基准量(或参考量),A1是被量度量。数值N就称为被量度量的“级”。它代表被量度量比基准量高出多少“级”,这也被称为声压级。如果2.8310-4dyn/cm2被看作0dB,那么在特别安静的环境中,单独检测的动物的呼吸声大约20 dB,人们正常的谈话声约60dB,大声喊叫约85 dB,汽
4、车的喇叭声约100dB,飞机起飞的声音约120 dB。120dB以上的强度可使人产生痛苦的感觉。声波的频率 频率是指物体每秒钟振动的次数。我们实际听到的声音都是物体振动后会产生声波,不同的振动频率将会产生不同的声波。一般人的听力范围是 20Hz20kHz。这个频率区域称为可闻声段,可闻声段大致可分为低频、中频和高频,低频的频率约在250500 Hz(如锣鼓声),中频的频率约在10002000 Hz,高频的频率约在30004000 Hz(如哨子声)。而低于20Hz和高于20kHz的频率段分别称为次声和超声。相位 相位是波形的变化方向,如果是多个波形组合,起始相位可以相同或不同。如图5-2的左图所
5、示,在某一个瞬时T,不同波形的相位都可以是不同的。而如图5-2右图所示的,就是一段多波形混合而成的声音实际播放时所显示的波形。图5-2 波形的相位和波形瞬时T复杂的声波就是有多个不同振幅、不同频率和不同相位的正弦波形组成的。例如,双声道、多声道、立体声等都是复杂的声波。5.1.2 声音的听觉心理特性 对于复杂的人耳听觉系统特性的研究,目前仅限于在心理声学和语言声学内。听觉心理的主观感受主要有响度、音高、音色、音量、密度、谐和、噪声、掩蔽效应、高频定位等特性。其中响度、音度、音色可以在主观上用来描述具有振幅、频率和相位三个物理的任何复杂的声音,而对于多种音源场合的人的耳掩蔽效应等特性尤为重要。等
6、响曲线 响度表示人们所感觉到的声音能量的强弱,主要取决于声波振幅的大小,但是物理上声压级的值一般不等于响度级的值。声音的感知响度可以用“sone”作为基本单位,1sone相当于40分贝的音调在1kHz下的响度。响度与人耳的可闻程度有关,当超出人耳的可听频率范围时,声音的响度再大,人耳也无法察觉。但在人耳的可听频域范围内,当声音弱或强到一定程度,人耳都无法听到。实验表明,声音的可闻阈和痛感阈是随着频率而变化的。如图5-3所示,闻阈和痛阈随频率变化的等响度曲线(即弗莱彻门逊曲线)之间的区域就是人耳的听觉范围。图5-3中显示了多条等响度曲线,其中最低的一条等响度曲线是可闻阈级,最高一条等响度曲线是痛
7、阈级。就是说,小于0dB闻阈和大于140dB痛阈时为不可听声。这些等响度曲线表明了听觉在有些频率下较为灵敏。所谓“等响”,就是对于1kHz以外的可听声,在同一级等响度曲线上有无数个等效的声压频率值,例如,200Hz的30dB的声音和1kHz的10dB的声音在人耳听起来具有相同的响度。图5-3 等响曲线(实验值)声压级 可闻阈的分贝值频率Hz可以看出,在较低的声压级上,等响上曲线各频率声音的声压级相差很大,较高的声压级上,等响曲线较为平坦,说明各频率的声压级基本相同。同时还可以看出,高频段的响度变化与声压级增量基本一致,而低频段声压级的微小变化会导致响度的较大变化。这说明了,在响度级较小时,高、
8、低频声音灵敏度降低较明显,而低频段比高频段灵敏度降低更加剧烈,一般应特别重视加强低频音量。要指出的是,上面的讨论并没有考虑人耳对不同频率的声音闻阈和痛阈的差别以及灵敏度方面的差别。屏蔽 听觉的掩蔽效应是一个较为复杂的心理和生理现象,包括人耳的频域掩蔽效应和时域掩蔽效应。而且人耳对声音源方向的辨别能力,也与频率的高低有关。由于对于2KHZ以上的高频声音信号,人耳很难判断其方向性,因而在数字处理时,就可以不必重复存贮立体声广播的高频部分。屏蔽是指一个弱声音被另一个强声音所遮盖。当强、弱声音同时存在时,就将发生声音屏蔽现象。例如,说话声会被一列路过的火车声所遮盖。当两个声音在时间和频率上很接近的时候
9、,屏蔽效应就会较很强。当强声音的频率与弱声音相同或更高时,屏蔽效应最有效。如果同时存在的是两个纯音,实验表明存在两种有效的屏蔽,一种是中等强度的纯音最有效的屏蔽出现在其频率附近,另一种是低频的纯音可以有效地掩蔽高频的纯音。如果同时存在的是噪音和纯音,则情况较复杂。因为屏蔽纯音的噪音实际上是由多种纯音组成的,具有无限宽的频谱。表5-1离散的临界频带临界频带频率(Hz)临界频带频率(Hz)低 高 宽度低 高 宽度0 0 100 100 13 2000 2320 3201 100 200 100 14 2320 2700 3802 200 300 100 15 2700 3150 4503 300
10、400 100 16 3150 3700 5504 400 510 110 17 3700 4400 7005510 630 120 18 4400 5300 9006 630 770 140 19 5300 6400 11007 770 920 150 20 6400 7700 13008 920 1080 160 21 7700 9500 18009 1080 1270 190 22 9500 12000 250010 1270 1480 210 23 12000 15500 350011 1480 1720 240 2415500 22050 655012 1720 2000 280 临
11、界频带 当某个纯音被以它为中心频率且具有一定带宽的连续噪声所屏蔽时,如果该纯音刚好能被听到时的功率等于这一频带内噪声的功率,那么这个带宽就称为临界频带宽度。临界频带的单位是Bark。当频率小于500Hz时,1Bark约等于freq100(其中freq表示频率),当频率大于500Hz时,1Bark约等于9+41og(freq1000)。但在有声音屏蔽的情况下,一个临界频带之内的声音感知程度与表中跨越多个临界频带的声音感知程度是不相同的。临界频带可以说明人类的听觉对声音的感知特性。表5-1列出的是在20Hz16kHz范围内,通常可分出的24个子临界频带。人耳对同一个临界频段内频率的听觉和感知是较接
12、近的。5.1.3 声音的数字原理 模拟声音的信号是个连续量,可能由许多具有不同振幅和频率的正弦波组成。必须将模拟声音数字化后才能在计算机中进行处理。实际声音信号的计算机获取过程就是声音的数字化的处理过程。经过数字化之后的声音文件就能够像文字和图形信息一样进行存储、检索、编辑或其它处理。声音的数/模转换和模/数转换 声音的模/数转换(ADC),就是将模拟的声音信号转化成计算机能识别的数字信号。首先需对声波采样,用数字方式记录声音。图5-4表示声波数字化的示意图,其中横轴表示时间,纵轴表示振幅,按时间对声波分割从而提取波形的样本。实现这个过程的装置就被称为模/数转换器。声音的数/模转换(DAC),
13、即由数字声音变成模拟的波形。音频系统是将声波波形转换成的连续的二进制数据来还原声音的,实现这个过程的装置被称为数/模转换器。如果提高采样频率,单位时间内将会得到更多的样本值(振幅值),这对于原声音的模拟将会更精确。以采样的数字样本值去还原模拟声音的技术称为脉冲编码调制技术(PCM),即将采样所得的样本值以同样的采样频率转换为电压值去驱动扬声器时,就可以重放原来的声音。在计算机中,最常用的声音转换装置就是声卡,常常通过声卡的话筒接口输入模拟音频信号,经声卡的ADC转变为数字信号存储在计算机内,播放时再通过声卡对数字声音的DAC转变从音箱中输出。量化 采样 编辑模拟声音数字声音图5-4 声波的数字
14、化声音的数字化过程 图5-4右图表示了模拟声音数字化的三个步骤:采样、量化和编码。采样(Sampling)采样就是每隔一个时间间隔在模拟声音的波形上取一个幅度值,将时间上的连续信号变成时间上的离散信号。采样时间间隔就是采样周期,单位时间内采样次数就是采样频率。图 5-5声音的采样声音在数字化后的波形图量化(Quantigation)量化就是将模拟信号的采样值用数字方法读出。读出方法一般采用二进制方法,以适应数字电路的需要。量化过程就是将采样后的信号按整个声波的幅值划分为若干个区段,把落入某区段的样值归为一类,并赋予相同的量化值。如图5-5将波形的幅值高度用8bit记录,就可以将高度分成256个
15、区间,采样后的波形将会丢失采样之间的一些细节波形。例如,一个采样点处于215区间,该采样点的编码就是11010111。只要记录采样点的区间分得越多,细节波形丢失得越少。表5-2采样值的量化值采样时间 幅度值 量化后二进制数1 160 101000002 215 110101113 232 111010004 208 110100005 152 100110006 64 010000007 20 000101008 96 011000009 116 0111010010 60 00111100编码 编码是按一定的格式将离散的数字信号记录下来,并在数据的前、后加上同步、纠错等控制信号。音频编码有许
16、多标准,分别用于不同的应用环境。最常用的压缩标准有脉冲编码调制(PCM)和自适应脉冲编码调制(ADPCM)。又如,国际电信联盟远程通信标准化组ITU-T制定的国际压缩标准H.261,用于ISDN环境下的电视会议、可视电话等;H.263,适用于极低的传输码率;H.263+和新的H.26L,不仅提高了压缩效率,还提高了容错能力,数据率可低到28128kbps,主要用于无线通讯、互联网视频会议、远程监控等。5.1.4 数字声音质量的主要因素 影响数字化声音质量的因素主要有三个,即采样频率,采样精度和通道个数。声音的采样精度 采样精度,即采样位数或采样分辨率,指表示声波采样点幅度值的二进制数的位数。换
17、句话说,采样位数可表示采样点的等级数,若用8bit二进制描述采样点的幅值,则可以将幅值等量分割为256个区,若用16bit二进制分割,则分为65536个区。可见,采样位数越多,可分出的幅度级别越多,则分辨率越高,失真度越小,录制和回放的声音就越真实。但是位数越多,声音质量越高,所占的空间就越大。常用的采样精度分别是8位、16位和32位。国际标准的语音采用8位二进制位编码。根据抽样理论可知,一个数字信源的信噪比大约等于采样精度乘以6分贝。因此,8位的数字系统其信噪比只有48分贝,而16位的数字系统的信噪比可达96分贝,信噪比低会出现背景噪声以及失真。因此采样位数越多,保真度越好。声音的采样速率
18、采样速率,即采样频率,指每秒钟采样的次数,单位为Hz(赫兹)。奈奎斯特采样定理指出:采样频率高于信号最高频率的两倍,就可以从采样中完全恢复原始信号的波形。对于以11kHz的频率的采样系统,只能恢复的最高音频是5.5kHz。如果要把20Hz20KHz范围的模拟音频信号变换为不连续的二进制数字信号,那么脉冲采样频率至少应为40KHz,其周期为Tp=1/fp=1/40KHz=25s。目前,流行的采样频率主要为22.05KHz、44.1KHz、48KHz,采样速率越高,采样周期越短,单位时间内得到的数据越多,对声音的表示越精确,音质越真实。所以采样频率决定音质清晰、悦耳、噪音的程度,但是高采样率的数据
19、将占有很大的空间。声音的通道个数 声音的采样数据还与声道数有关。单声道只有一个数据流,立体声的数据流至少在两个以上。由于立体声声音具有多声道、多方向的特征,因此,声音的播放在时间和空间性能方面都能显示更好的效果,但相应数据量将成倍增加。5.1.5 采样数据量 从上面的分析中可知,要从模拟声音中获得高质量的数字音频,必须提高采样的分辨率和频率,以采集更多的信号样本。而能够进一步进行处理的首要问题,那就是大量采样数据文件的存储。采样数据的存储容量计算公式如下:存储容量(字节)=采样频率采样精度/8声道数时间 表5-3列出了1分钟的双声道声音,采用不同采样频率和精度所需的存储容量。例如,采用44.1
20、kHz采样频率和16位采样精度时,数字化后需要的存贮容量为:44.116/8260=10.584B 表5-2几种数字化声音的信息采样频率kHz采样精度bit存储容量MB数据速率kb/s常用编码方式质量44.1 16 10.336 88.2 PCM激光唱片级质量22.05 16 5.168 44.1 ADPCM调频广播级质量常用于伴音8 2.584 22.05 ADPCM11.025 16 2.584 22.05 ADPCM调频广播级质量常用于伴音或解说8 1.292 11.025 ADPCM为了减少数据量,采样且量化后的数据常要进行压缩。数字音频的编码必须具有压缩声音信息的能力,最常用的压缩方
21、法为自适应脉冲编码调制(ADPCM)法。ADPCM压缩编码方案的特点是信噪比高,数据压缩倍率可达25倍而不会明显失真。例如,Yamaha公司的ADPCM算法可以达到31压缩比。有关ADPCM压缩技术请参见第七章的内容。5.2语音语音是声音的一种,但是这种声音与人类的语言学有关,又与发声器官的发声范围有关,因此,对于语音的本质分析相当重要。在语言数字处理中,是以语音的基本特性为基础,主要针对的语音的成分进行相应的处理,包括语音采样、识别、模拟、合成等技术。5.2.1 语音的基本特性 什么是语音?语音就是人们说话的声音。而在数字处理中,语音是音素、音位到句子音段、轻重音到语调等语音手段的统称。语音
22、以语言系统有声单位的形式出现,具有语言学区别功能。我们知道,人的声带就是一个发出声音的声源,声源振动将引起空气振动而产生声波。由于声波是具有振幅、方向、频率等多种物理属性的,因此,语音声包含了声源和传播过程的自然信息。虽然声波的振幅、波长和频率是因人而异的,但是也存在一定的自然规律。一般男性的发音周期在10ms左右,发音频率就在100Hz左右。女性的发音周期较男性短,一般为6ms左右,发音频率在166Hz左右。成年人的发音频率大约在60400Hz范围内。人类很难发出频率极高或极低的语音,所以,从语音中我们可以分辨说话人、声带变化以及环境干扰声的各项性质。语音不仅仅是有声,它还包含了语音系统按一
23、定方式确认的声音类别,也包含了语音系统赋予的一定功能。也就是说,语音的内容是按一定方式组织的,例如有词、句、调、语气等,其含义又是建立在一定的文化基础上的。因此,是否能理解语音的实际内涵,这与接收者对语音的认知能力有关。5.2.2 语音处理的任务和目标 计算机对语音进行处理的任务主要包括对语音的采样、识别、模拟和合成。数字语音也是通过对模拟语音采样、A/D转换、并按一定的方式进行编码而形成的,其记录方式同一般声音一样,可以用波形文件保存。数字语音是多媒体技术中不可缺少的一个组成部分,语音处理的最终目标应该满足计算机发展的需要。而未来的智能化计算机应具有能看,能听,能说,具有分析、判断、推理和思
24、考的能力,那么语音就是人与机器之间进行交流最自然的方式。所以,语音技术已成为智能计算机领域的研究热点,其中的语音识别和语音合成技术是实现人机语音通信的两项关键技术。但目前技术的成熟度与应用的广泛性与需求性还存在较大的差距。5.2.3 语音识别 语音自动识别的最终目标是要将连贯的语音变换成文字符号系列。而在自然的音语中,每个音素的声学特性与作为语句元素时完全不同,再加上由于自然发音时,各语音单位是连贯的,具有协同调音效应,同时还具有语调、重音和抑扬顿挫等韵律方面的影响,这使得实现语音到文字符号的识别非常困难。目前,语音的自动识别基本上采用孤立词的模式匹配识别和有限词汇的连续识别。孤立词的模式是一
25、种认人的识别方式,就是因人而异进行语音识别。实验结果表示,一般识别率都在95%以上。孤立词的模式识别系统的原理如图5-6所示,在语音识别前,需要说话人将待识别的词汇逐个读入,计算机经过逐个词汇分析,提取出如频谱包络、共振峰、LPC系数等特征,组成词汇组标准样板。语音识别时,针对说话人说出的每一个词,计算机还需进行分析和提取特征,并逐一与样板库中的样板做比较,选择一些近似样本,最后以一组最佳匹配作为所说的词而输出。选择匹配样板与样板库的样板比较语音样板库语音特征提取语音词读入识别前建立库识别结果输出图5-6孤立词的模式识别原理示意实际上,人们更需要计算机能不因人而变,且能识别由大量词汇组成的连续
26、语句。这就要求计算机语音识别系统以音素为识别单元,具有标准的语句切分规则、音调规则、拼音规则、单词库、语法及语义等规则。即连续识别系统应具有如图5-7结构功能,当连续语音流输入后,首先要根据语音流中能量的峰谷、清浊、共振峰变化模式等多项特征进行词、音节和音素等识别单位的切分。图5-7连续语音识别原理切分规则拼音规则单词库语法及语义规则音素库音变规则音段切分音素识别音节识别单词识别语句识别连续语音流 输入识别结果 输出接着要进行模式匹配式的音素识别,从音素库中选出几个候选音素。考虑到语音流中还包含有音变特性,为了提高音素的正确识别率,必须事先分析和归纳出各种音变规律。然后进入音节识别阶段,计算机
27、将利用拼音规则库对音素识别的结果来组合音节。单词识别的任务,就是通过查询单词库将识别的音节组成词,并判定该词的正确性。目前,计算机的单词库中的单词很少,只能将单词识别限定在某一领域常用的词汇上。语句识别阶段是要根据事先定好的语法规则、语义信息,上下文关系等语言学知识,分析语句并选择最佳者。言语的理解系统不仅与语音学、语言学有极大的关系,还与每一个人的话音特点有关。这就是说,言语的理解系统必须按照语音学、语言学所研究的方式去建立,才能正确地完成识别任务。值得注意的是,对于同一个语句,如果由不同的人所发出,在话音方面肯定存在着一定的区别,例如,音的高低、音调的硬柔等方面的差别。5.2.4 语音合成
28、 语音合成可以通过再生预存的语音信号和模拟发声两种实现途径。再生预存的语音信号方式,就是采用了数字存储技术,预先存入的语音信号,然后将预先存入的单音或词组拼接成语音。如果预先存入语音单元足够多,合成时就可以挑选出比较合适的语音单元,然后拼接合成产生比较符合自然的语句。模拟发声方式采用数字信号处理的方法。用周期脉冲序列作为声源,代表声带振动或噪声序列,去激励一个表征声道谐振特性的时变数字滤波器。通过调整滤波器的参数控制不同的发音,通过调整激励源脉冲序列的周期或强度去改变合成语音的音调、重音等。所以模拟发声方式也称为参数合成法。只要正确控制激励源和滤波器参数。就能够合成出各种语句来。合成语音的目标
29、应该是可懂、清晰、自然、具有表现力。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解。5.3 MIDI音乐 MIDI音乐通常被称为电子音乐或合成音乐,它也是声音的一种,但是这种声音与流行的乐器有关,例如,钢琴、提琴、长号、鼓等乐器。虽然MIDI音乐可以通过连接计算机的话筒采集而输入计算机,但是这种MIDI音乐的获取只能作为声波来处理,不能对其中的音符进行特殊的处理。5.3.1 MIDI音乐原理 MIDI(Music Instrument Digital Interface)即音乐设备的数字化界面。实质上,它是人们可以利用多媒体计
30、算机和电子乐器去创作、欣赏和研究音乐的标准协议。数字音乐的编码 数字音乐究竟是怎么形成的呢?事实上,我们可以把很多乐器排列、基本发声规律、和音乐的各种色彩等全部列出,并用相应的数字来编号,从而形成一系列可以参照使用的代码。例如,我们定义Acoustic Piano编号为01、C3音编号为10、8分音符编号为80,那么一个原声钢琴8分音符的C3音,就可以表示为“01 10 80”一串数字。由此可见,可以用不同的音色编码、音调编码和音符编码分别表示不同的乐器声、高低音和音符数。可以说,数字音乐是一种音乐语言,这种语言是由事先定义好的音色、音调、音符等编号组成的。MIDI音乐就是这样一种数字音乐,其
31、乐谱信息称之为MIDI消息,包括电子乐器键盘的弹奏的键名、力度、时值长短等。计算机上处理MIDI音乐的基本过程 计算机中的MIDI文件通常来自于音乐创作软件或合成音乐设备。许多播放器都能播放MIDI音乐,播放时如图5-8所示,需要从相应的MIDI文件或设备中读出MIDI指令,接着由MIDI文件系统解释指令,然后通过MIDI播放器输出和转换信号,再经过声音合成器生成对应的声音波形,最后经放大后由扬声器输出。图5-8计算机中MIDI音乐的处理图5-8 计算机中MIDI 音乐的处理 多媒体计算机中的MIDI与音效 多媒体PC机要求音频卡上包含MIDI合成器、MIDI输入/输出端口和音效芯片。MIDI
32、合成器能演奏的多种乐器及复合音,MIDI输入/输出端口可用来连接合成音乐设备,而音效是指在硬件上实现了回声、混响、和声等效果。5.3.2 MIDI的组成 MIDI由三个部分组成,它们分别是通信协议Communication Protocol,连接器Connector及其传播格式(称为标准MIDI文件)。通信协议 Communication Protocol MIDI通信协议是二进制形式的音乐描述语言。每个描述乐器演播动作的字都赋予一个特定的二进制代码。当要奏响一个MIDI音符时,首先要发出“音符开”消息,然后赋予该音符一个“速度”,用以决定该音符的响度。通信协议中还包括乐器演奏选择、混合和平移
33、声音和电子乐器控制等MIDI消息。连接器 Connector MIDI 1.0规范中,使用的MIDI接头是一个5针DIN接头。实际上,也可以通过其他连接器和电缆来传送MIDI消息。如果MPC没有设计5针DIN接头,那么可通过串行口或游戏杆端口来连接MIDI乐器。如果MIDI乐器配备了一个8针的“小型DIN”串行口,则可以与计算机的串口直接相连。标准MIDI文件 标准MIDI文件可以仅仅是一个事件的列表,描述了一个音频卡或其他播放设备要产生某种声音的特定步骤。而且这些事件是可以编辑的,任何音乐片段都可以被重新排列、被多次复用、被任意拆分、组合或重叠。MIDI文件也可以携带非标准的乐器样本、音效或
34、人的对话,有些MIDI文件中还可记录歌词、表情和音调等特殊文字标记。5.3.3 MIDI音乐接口标准 最早的MIDI标准就是Roland的GS(General Standard)标准。为了有利于音乐家广泛地使用不同的合成器设备和促进MIDI文件的交流,国际MIDI制造商协会(MMA)在1991年制定了通用MIDI标准。该标准以日本Roland公司的通用合成器GS标准为基础而制订的。而后又出现了YAMAHA公司推出的MIDI标准XG。GS标准 GS(General Standard)是Roland公司创立的一种MIDI标准,此标准定义了我们最常用的128种乐器,音效和控制器的排列。该标准具有以下
35、五种主要特点。1.16个声部。2.最大复音数为24或更多。3.GS格式的乐器音色排列。(包含有各种不同风格的音乐所使用的乐器音色和打击乐音色)4.鼓音色可以通过音色改变信息进行选择。5.包含两种可以调节的效果,有混响和合唱。GM标准(通用MIDI系统标准 Level 1)GM(General MIDI Mode)标准是国际MIDI生产者协会(MMA)制定的,该标准以日本Roland公司的通用合成器GS标准为基础。GM标准为MIDI乐器之间的互相兼容定义了一些最基本的规则。GM 设备特性 键盘、声卡、IC(集成电路)或软件程序等所有能产生GM声音的设备或软件,要能够和GM相兼容,必须符合通用MI
36、DI系统标准1的要求。GM对设备规定了在声音、通道、乐器、通道指令(消息)和其它控制指令方面最基本的功能,具体说明如下:声音Voices:GM规定设备至少应该有24个可同时使用的全动态分配声音,这些声音对不同的速度要求都应该能够作出反应。其中有16个用于旋律演奏的动态分配的声音,8个用于打击乐器。通道Channels:GM要求所有16个MIDI通道都要获得支持,每一个通道可以同时有多个演奏声音道,而且数量可变。每一个通道都可以用不同的乐器演奏。MIDI第10通道上是安排基于键的打击乐器的。乐器Instruments:GM规定最少应有16个同时存在的、并且能以不同音色演奏的不同的乐器。最少应有1
37、28种符合GM Instrument Patch Map的预设的乐器,应有符合GM Percussion Key Map 47种打击乐器。通道消息Channel Messages:GM定义的通道消息应该能支持连续控制器1,7,10,11,64,121和123。支持打印口RPN#s 0,1,2。支持通道压力Channel Pressure和音调扭曲Pitch Bend。其他消息Other Messages:如通用MIDI系统消息那样,能对微调、调音路径、音调扭曲范围、数据入口控制器和RPN作出响应。GM声音集 GM声音集也就是预定义的乐器表。GM标准定义了最常用的128种乐器,用不同的MIDI程
38、序号为声音进行了命名,把产生这些声音的方法留给产品开发商去解决。XG标准 XG-MIDI(Extended General MIDI)是扩展的通用MIDI。由YAMAHA公司在1994年推出的新的音源控制规格。XG继承了GM定义的各项基本功能,同时又增加了音色库(音色数量)。在控制方面作了大量的改进,用多种控制器来控制和调节音色、速度等特性。YAMAHA公司积极开放产品的系统码,扩展控制器的控制范围。XG标准的定义表称为“MIDI Mapper”(MIDI映射表),所有的MIDI设备都会有相应的MIDI映射表,在计算机中也要有相应的MIDI映射表。其中有一张表里排列着MIDI设备的音色,在这张
39、音色表中,重要的是这些乐器音色所对应的排列编号,MIDI设备与计算机只认音色的排列编号,而不分析音色的排列次序。目前的MIDI设备一般都有多个音色库,但音色库最多不会超过128个。每个音色库有128个乐器音色。目前,MIDI设备和计算机基本上都建立在GM基础上。GM已经作为工业标准,其基本标号格式已被固定了。所以,完全可以将MIDI映射表固定在Windows的驱动程序中,由驱动程序去解决那么多音色的调用问题,不需要人为进行参数的设置。映射表是MIDI设备内部解码的依据。要使MIDI指令转变可欣赏的音乐,首先必须通过设备内部对MIDI指令的解码,再经过D/A转换器、振荡器、滤波器、信号放大器等元
40、件的处理,最后由扬声器输出。5.3.4 MIDI音乐的基本设备 包括音源、音序器、输入设备。音源 音源是一个音色资源库,其内部包含了很多不同音色的样本波形,例如钢琴的音色样本、吉它的音色样本等等。音源是用来发声音的,但是音源只是一个资源库,本身并不知道在什么时候该用什么音色发怎样的声音。如何调用资源的任务由MIDI音序器去完成。音源分为软音源和硬音源。软音源实质上是一个软件,软音源必须依靠电脑芯片和内存的工作来发声,常见的有Yamaha S-YXG100,Roland VSC88等,它们必须在电脑上安装后才能使用。硬音源是一个实际存在的设备,如图5-9所示是Roland 推出的综合音源Rola
41、nd FANTOM XR。将硬音源和音序器连接以后就可以使用了。图5-9 Roland FANTOM XR音源 音源可以做得很小,例如普通声卡上一块芯片就是一个小小的音源,通过这个音源,我们就能直接用声卡听MIDI音乐。在目前的专业MIDI领域中,比较有名的硬件音源有Roland JV1080、Yamaha MU90、MU100、TG500等。音序器 音序器是制作音乐的处理器。用它来编辑各种音乐数据,实现同步播放等等。它把组成音乐所需的音色,节奏,音符等按照一定的序列组织起来,好让音源发声。实际上,音序器以数字的形式记录了音乐的一般要素,拍子,音高,节奏,音符时值等,MIDI文件的本质内容就是
42、音序内容。音序器也有软/硬音序器之分。软件音序器也是一个电脑程序,很多MIDI制作软件实际上就是音序器软件,如Cakewalk、Encore、Cubase VST等。软件音序器所使用的电脑显示器较大,界面漂亮,实用,操作方便。因而,目前软件音序器早已成为了市场的主流。硬件音序器和硬件音源一样,一般体积都很小,与音源连接以后就可以控制音源发声了。比较有名的硬件音序器有Yamaha QY10、QY700等。硬件音序器只能靠两只手在面板上按键,显示屏也较小,修改音符参数十分复杂。输入设备 输入设备就是MIDI乐器,通过它告诉音序器需要排列哪些内容。为了符合人们原有的音乐习惯,人们制造了各种基于传统乐
43、器形式上的MIDI乐器,如MIDI键盘,MIDI吹管,MIDI吉它,MIDI小提琴等等。虽然也可以建立虚拟的键盘,钢琴,电子琴等,但是在计算机键盘上弹奏音符总有许多不便之处。要制作MIDI音乐,可以直接使用MIDI乐器。但使用MIDI乐器必须要具备乐器演奏能力。演奏所产生的信号通过MIDI接口被音序器接收并存储为音序内容。通常制作一段MIDI音乐的过程,首先要在音源上选择一个音色,在输入设备上演奏一段音乐,同时让音序器录制这段音乐,演奏就被转化为音序内容存储在音序器里了,然后播放这段音乐,音源就会根据音序内容用选定的音色播放这段音乐。5.3.5 MIDI音乐合成器 MIDI合成器可以将MIDI
44、指令转化为实际的声音。利用合成器可以逼真地再现出专业乐队的实时演奏效果,其中可包含同时有多种管、弦类的乐器在演奏。音乐合成器的类型 MIDI合成器可以以硬件或软件的形式存在。它能利用一种乐器的数字采样频率来产生声调。多媒体计算机是通过内部合成器或通过外接到计算机MIDI端口的外部合成器来播放MIDI文件的。MIDI合成器按照波形合成方法可以分为两种类型,一种是通过频率调制FM合成,另一种是通过波形表合成。FM方式是通过硬件产生正弦信号,再经过处理产生音乐。而波形表的合成方式首先要将各种实际乐器的声音采样存储在ROM芯片中,当需要合成某种乐器的乐音时,通过查表方式来调用这种实际乐器的声音采样。比
45、较这两种波形的合成效果,利用波形表方式合成音乐的效果更加逼真一些。MIDI硬件合成器 现代的合成器是集音源,音序器,MIDI键盘于一身的设备。它不仅拥有大量真实的采样音色可供演奏使用,还拥有自己的音序器可以录制编辑音乐,拥有MIDI接口可以与其他设备交换信息。MIDI硬件合成器是可移动的音乐编辑工具,包括内置式扬声器和外部的立体声耳机。可以用于在外部MIDI设备上合成并回放音乐。许多产品还嵌入了MIDI软件应用,MIDI软件使得编辑功能得到了扩展。用户不仅可以用图表音乐和屏幕乐器来合成乐曲,同时还可以用多种MIDI混合工具来合成音乐。如图5-10所示的是Evolution生产的49 键标准力度
46、键盘,适合于Windows 98/NT/ME/2000/XP操作系统,该键盘带有弯音轮,可分配的推杆和调制轮,提供 USB 接口和标准的MIDI接口。图5-10MIDI硬件合成器在与计算机配套的合成器中,常常只提供键盘和音色,而不提供音序器。随着独立的硬件音源和和采样技术的普及,有些合成器既不带音序器也不带音色,音色由音源提供,音序器由软件提供,但MIDI键盘具有较强的控制功能。这类合成器的特点是,只要添加音源或采样器就可以得到更多的音色,更换音序软件就可以使用更强的功能。MIDI软件合成器 软件合成器是把各种虚拟乐器的演奏声音组合到一起,建立一个全景的多种乐器组合模式。它包括软音源、软音序器
47、、和虚拟的MIDI设备。如,Timidity就是一款SF2软件合成器,它巧妙地利用了DirectX,可以在CPU资源占用很低的情况下可以非常流畅地播放一般的MIDI乐曲。它不仅小巧、使用方便,而且自带多种效果器,音质也非常好。再如,Scala是强大的软件工具,它支持旋律的创作、编辑、对照、分析、存储、电子乐器的旋律、MIDI文件的产生和旋律的交流。为了帮助读者进一步了解软件合成音乐的创作和基本编辑方法。本章将在5.5.2节中以为cakewalk为背景,介绍软件合成器的使用。5.4 音频文件的格式 在计算机中存在很多音频格式,不同格式所提供的音质相差较大,有些格式还具有丰富的附加功能。可以满足不
48、同用户对音频质量的要求。要能够正确地选择出适合自己的音频格式文件,首先要了解不同音频格式文件的特点。下面介绍一些主流的音频文件的格式。5.4.1 波形格式 WAV是Microsoft Windows本身提供的音频格式。波形文件中包含了模拟声音的采样数据,以二进制码的形式编排而成。这种格式的文件一般占有较大的存储空间,具体数据量与采样的精度和频率有关。wav文件存储内部格式示意如下:“RIFF”指明文件大小“WAVE”“fmt”数据结构大小 数据结构描述“data”数据大小 采样数据 其中“RIFF”、“WAVE”、“fmt”、“data”分别是wav文件中标识数据块的标记,在各标记后的“”表示
49、与各数据块部分有关的格式内容,如在“RIFF”后的“”应指明文件的大小,在“data”后的“”应该指明数据的大小。其中“RIFF”、“WAVE”、“fmt”、“data”分别是wav文件中标识数据块的标记,在各标记后的“”表示与各数据块部分有关的格式内容,如在“RIFF”后的“”应指明文件的大小,在“data”后的“”应该指明数据的大小。WAV格式通常都是用来保存一些未经过压缩的音频数据,文件内容可以通过一些软件来进行编辑处理。例如Windows提供的录音机程序,可通过话筒录制创建WAV格式的声音文件,该软件同时可提供了播放、编辑、效果处理和文件的管理等功能。目前几乎所有的音频播放和编辑软件都
50、支持这种格式,功能较强的有Creative Wave Studio、Sound Forge、Cool Edit Pro、Wave Lab、Media Studio 等,它们可以通过可视化的编辑方式,完成对某一段声音的复制,剪切,粘贴等操作,并且都不同程度的支持如混音、淡入、淡出、静音、声道更换或录音等功能。在特定软件的支持下,可以在WAV格式文件中存放图像,也可以以压缩方式存储。例如,通过ACM(Audio Compression Manager)结构及相应的驱动程序,就可以在WAV文件中存放压缩格式。就是说,这种情况下,在WAV文件中存放的采样数据是经过压缩技术编码之后的数据。5.4.2 M