《多媒体技术音频处理技术教案.ppt》由会员分享,可在线阅读,更多相关《多媒体技术音频处理技术教案.ppt(61页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多媒体技术音频处理技术 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望 第第2 2章章 音频信息处理音频信息处理 学习目标学习目标:了解声音信号的特点、存储格式及质量的度量方法了解声音信号的特点、存储格式及质量的度量方法理解音频信号压缩方法及音频编码标准理解音频信号压缩方法及音频编码标准掌握常用的音频处理软件对声音信号进行处理掌握常用的音频处理软件对声音信号进行处理了解语音识别技术及其应用了解语音识别技术及其应用2.12.1数字音频的基本概念数字音频的基本概念2.
2、1.12.1.1声音与音频的概念声音与音频的概念1 1、声音的定义:、声音的定义:震动物体产生的声波,传入耳朵形成声音。震动物体产生的声波,传入耳朵形成声音。2 2、声音的分类、声音的分类按频率分按频率分v亚音频:亚音频:020Hz 020Hzv音频(音频(AudioAudio):):20Hz20KHz20Hz20KHzv超音频:超音频:20KHz1GHz 20KHz1GHzv过音频:过音频:1GHz1THz 1GHz1THz按原始声源划分按原始声源划分v语音:人类为表达思想和感情发出的声音语音:人类为表达思想和感情发出的声音v乐音:演奏乐器时乐器发出的声音乐音:演奏乐器时乐器发出的声音v声响
3、:除语音和乐音以外的所有声音。如声响:除语音和乐音以外的所有声音。如自然界的声音自然界的声音按存储形式划分按存储形式划分v模拟声音:模拟方式存储,如磁带模拟声音:模拟方式存储,如磁带v数字声音:用数字声音:用0 0、1 1表示的声音数据表示的声音数据3 3、音频、音频 20HZ20KHz 20HZ20KHz范围内的声波,也是人的耳朵范围内的声波,也是人的耳朵可以听到的声音。可以听到的声音。4 4、声音质量的评价标准(信噪比、频带宽度)、声音质量的评价标准(信噪比、频带宽度)按照声音频率的变化幅度可以分为:按照声音频率的变化幅度可以分为:电话话音质量:电话话音质量:2003400Hz200340
4、0Hz调幅广播音质:调幅广播音质:507000Hz 507000Hz,简称,简称AMAM音质音质调频广播音质:调频广播音质:2015000HZ2015000HZ,简称,简称FMFM音质音质激光唱盘音质:激光唱盘音质:1020000HZ1020000HZ,简称,简称CDCD音质音质2.1.2 2.1.2 模拟音频的数字化过程模拟音频的数字化过程 对模拟音频数字化过程涉及到音频的对模拟音频数字化过程涉及到音频的采样采样、量化量化和和编码编码。采样和量化的过程可由采样和量化的过程可由A/DA/D转换器实现。转换器实现。A/DA/D转换器以固定转换器以固定的频率去采样,即每个周期测量和量化信号一次。经
5、采样的频率去采样,即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号,可以将和量化后声音信号经编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中。其以文件形式保存在计算机的存储介质中。信息论的奠基者香农(信息论的奠基者香农(ShannonShannon)指出:在一定条件下,)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。基本内容。为实现为实现A/DA/D转换,需要转换,需要把模拟音频信号波形进行分割,把模拟音频信号波形进行分割,这种方法称为采样这种方法称为采样(
6、Sampling)(Sampling)。采样的过程是每隔一个时间采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期,其倒号变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。数为采样频率。采样频率是指计算机每秒钟采集多少个声音采样频率是指计算机每秒钟采集多少个声音样本。样本。1.1.采样采样 对声波波形幅度的数字化表示称之为对声波波形幅度的数字化表示称之为“量化量化”。量化的。量化的过程是先将采样后的信号按整个声波的幅度划分成有限个过程是先将采样后的信号按整个
7、声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋于区段的集合,把落入某个区段内的样值归为一类,并赋于相同的量化值。相同的量化值。以位以位(bit)(bit)或或1616位位(bit)(bit)的方式来划分纵轴。也就是说的方式来划分纵轴。也就是说在一个以在一个以8 8位为记录模式的音效中,其纵轴将会被划分为位为记录模式的音效中,其纵轴将会被划分为?个量化等级,用以记录其幅度大小。个量化等级,用以记录其幅度大小。2.2.量化量化采样和量化采样和量化 D/A D/A转换器从上图得到的数值中重构原来信号时,得到转换器从上图得到的数值中重构原来信号时,得到下图蓝色线段所示的波形。可
8、以看出,蓝色线与原波形下图蓝色线段所示的波形。可以看出,蓝色线与原波形(红色线红色线)相比,其波形的细节部分丢失了很多。这意味着相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。重构后的信号波形有较大的失真。失真是不可避免的,如何减少失真呢?在下图中,采样失真是不可避免的,如何减少失真呢?在下图中,采样率和量化等级再提高了一倍。从图中可以看出,当用率和量化等级再提高了一倍。从图中可以看出,当用D/AD/A转转换器重构原来信号时(图中的轮廓线),信号的失真明显减换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。少,信号质量得到了提高。3.3.编码编
9、码 模拟信号量经过采样和量化以后,形成一系列的离散模拟信号量经过采样和量化以后,形成一系列的离散信号信号脉冲数字信号。这种脉冲数字信号可以一定的方脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。式进行编码,形成计算机内部运行的数据。所谓编码,就是按照一定的格式把经过采样和量化得所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。纠错、同步和控制的数据。2.1.3 2.1.3 数字音频的文件格式数字音频的文件格式 在多媒体技术中,存储音频信息的文件
10、格式主要有:在多媒体技术中,存储音频信息的文件格式主要有:WAVWAV文件、文件、VOCVOC文件和文件和MP3MP3文件等。文件等。1 1.WAVWAV文件文件 WAVWAV文件又称波形文件,来源于对声音模拟波形的采样,文件又称波形文件,来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值轮换成二进制数,并以不同的量化位数把这些采样点的值轮换成二进制数,然后存入磁盘,这就产生了波形文件。然后存入磁盘,这就产生了波形文件。WAVWAV文件用于保存文件用于保存WindowsWindows平台的音频信息资源,被平台的音频信息资源,被WindowsWindows平台及其应用平台及其应用程序
11、所广泛支持。程序所广泛支持。请计算对于请计算对于5 5分钟双声道、分钟双声道、1616位采样位位采样位数、数、44.1kHz44.1kHz采样频率声音的不压缩数据量采样频率声音的不压缩数据量是多少?是多少?思考题思考题解:解:根据公式:根据公式:数据量数据量=(采样频率(采样频率采样位数采样位数声道数声道数时间)时间)/8/8 得,数据量得,数据量=44.11000162=44.11000162(560560)/(810241024810241024)=50.47MB =50.47MB 因此,声音的不因此,声音的不压缩数据量约为压缩数据量约为50.47MB50.47MB。计算时要注意几个单位的
12、换算细节:计算时要注意几个单位的换算细节:时间单位换算:时间单位换算:1 1分分=60=60秒秒 采样频率单位换算:采样频率单位换算:1kHz=1000Hz 1kHz=1000Hz 数据量单位换算:数据量单位换算:1MB=10241024=1048576B1MB=10241024=1048576B未压缩的声音文件的存储量可用下式计算:未压缩的声音文件的存储量可用下式计算:存储量(存储量(KBKB)=(采样频率(采样频率KHZKHZ采样位数采样位数bitbit声道数声道数时间秒)时间秒)/8/8 2.VOC2.VOC文件文件 VOCVOC文件是文件是CreativeCreative公司所使用的标
13、准音频文件公司所使用的标准音频文件格式,多用于保存格式,多用于保存 Creative Sound Blaster(Creative Sound Blaster(创新创新声霸声霸)系列声卡所采集的声音数据,被系列声卡所采集的声音数据,被WindowsWindows平台平台和和DOSDOS平台所支持。平台所支持。3.MPEG3.MPEG音频文件音频文件.MP1/.MP2/.MP3.MP1/.MP2/.MP3 MPEGMPEGMPEGMPEG音频文件的压缩是一种有损压缩,根据压缩质量音频文件的压缩是一种有损压缩,根据压缩质量音频文件的压缩是一种有损压缩,根据压缩质量音频文件的压缩是一种有损压缩,根据
14、压缩质量和编码复杂程度的不同可分为三层和编码复杂程度的不同可分为三层和编码复杂程度的不同可分为三层和编码复杂程度的不同可分为三层(MPEG Audio Layer(MPEG Audio Layer(MPEG Audio Layer(MPEG Audio Layer 1/2/3)1/2/3)1/2/3)1/2/3),分别对应,分别对应,分别对应,分别对应MP1MP1MP1MP1、MP2MP2MP2MP2和和和和MP3MP3MP3MP3这三种声音文件;这三种声音文件;这三种声音文件;这三种声音文件;MPEGMPEGMPEGMPEG音音音音频频频频编编编编码码码码具具具具有有有有很很很很高高高高的的
15、的的压压压压缩缩缩缩率率率率,MP1MP1MP1MP1和和和和MP2MP2MP2MP2的的的的压压压压缩缩缩缩率率率率分分分分别别别别为为为为4 4 4 41 1 1 1和和和和6 6 6 61 1 1 18 8 8 81 1 1 1,而而而而MP3MP3MP3MP3的的的的压压压压缩缩缩缩率率率率则则则则高高高高达达达达101010101 1 1 1121212121 1 1 1,也也也也就就就就是是是是说说说说一一一一分分分分钟钟钟钟CDCDCDCD音音音音质质质质的的的的音音音音乐乐乐乐,未未未未经经经经压压压压缩缩缩缩需需需需要要要要10MB10MB10MB10MB存存存存储储储储空空
16、空空间间间间,而而而而经经经经过过过过MP3MP3MP3MP3压压压压缩缩缩缩编编编编码码码码后后后后只只只只有有有有1MB1MB1MB1MB左左左左右右右右,同同同同时时时时其音质基本保持不失真。其音质基本保持不失真。其音质基本保持不失真。其音质基本保持不失真。4.4.RealAudioRealAudio文件文件.RA/.RM/.RAM.RA/.RM/.RAM RealAudio RealAudio RealAudio RealAudio文件是文件是文件是文件是RealNetworksRealNetworksRealNetworksRealNetworks公司开发的一种公司开发的一种公司开发
17、的一种公司开发的一种新型流式音频新型流式音频新型流式音频新型流式音频(Streaming Audio)(Streaming Audio)(Streaming Audio)(Streaming Audio)文件格式;它包含文件格式;它包含文件格式;它包含文件格式;它包含在在在在RealNetworksRealNetworksRealNetworksRealNetworks所制定的音频、视频压缩规范所制定的音频、视频压缩规范所制定的音频、视频压缩规范所制定的音频、视频压缩规范RealMediaRealMediaRealMediaRealMedia中,主要用于在低速率的广域网上实时传中,主要用于在低
18、速率的广域网上实时传中,主要用于在低速率的广域网上实时传中,主要用于在低速率的广域网上实时传输音频信息;网络连接速率不同,客户端所获得的输音频信息;网络连接速率不同,客户端所获得的输音频信息;网络连接速率不同,客户端所获得的输音频信息;网络连接速率不同,客户端所获得的声音质量也不尽相同:对于声音质量也不尽相同:对于声音质量也不尽相同:对于声音质量也不尽相同:对于28.8kb/s28.8kb/s28.8kb/s28.8kb/s的连接,可以的连接,可以的连接,可以的连接,可以达到广播级的声音质量;如果拥有达到广播级的声音质量;如果拥有达到广播级的声音质量;如果拥有达到广播级的声音质量;如果拥有IS
19、DNISDNISDNISDN或更快的线或更快的线或更快的线或更快的线路连接,则可获得路连接,则可获得路连接,则可获得路连接,则可获得CDCDCDCD音质的声音。音质的声音。音质的声音。音质的声音。5.AIFF5.AIFF文件文件.AIF/.AIFF.AIF/.AIFF AIFFAIFFAIFFAIFF是音频交换文件格式是音频交换文件格式是音频交换文件格式是音频交换文件格式(Audio Interchange(Audio Interchange(Audio Interchange(Audio Interchange File Format)File Format)File Format)File
20、 Format)的英文缩写,是苹果计算机公司开发的英文缩写,是苹果计算机公司开发的英文缩写,是苹果计算机公司开发的英文缩写,是苹果计算机公司开发的一种声音文件格式;被的一种声音文件格式;被的一种声音文件格式;被的一种声音文件格式;被MacintoshMacintoshMacintoshMacintosh平台及其应用程平台及其应用程平台及其应用程平台及其应用程序所支持,其他专业音频软件包也同样支持这种格序所支持,其他专业音频软件包也同样支持这种格序所支持,其他专业音频软件包也同样支持这种格序所支持,其他专业音频软件包也同样支持这种格式。式。式。式。MP3 MP3的全名是的全名是MPEG Audi
21、o Layer-3MPEG Audio Layer-3,简单简单地地说说就是一就是一种声音文件的种声音文件的压缩压缩格式。格式。ISO/MPEG ISO/MPEG音音频压缩标频压缩标准里包括了三个准里包括了三个编码编码方案方案 ,按,按照照压缩质压缩质量量(每每BitBit的声音效果的声音效果)和和编码编码方案的复方案的复杂杂程度分程度分别别是是Layer1Layer1、Layer2Layer2、Layer3Layer3。所有。所有这这三三层层的的编码编码采用的基采用的基本本结结构是相同的。通构是相同的。通过过研究人耳和大研究人耳和大脑脑听听觉觉神神经对经对音音频频失失真的敏感度,在真的敏感度
22、,在编码时编码时先分析声音文件的波形,然后先分析声音文件的波形,然后滤滤去去人耳不敏感的信号,最后人耳不敏感的信号,最后编码编码形成形成MPEGMPEG的文件。而音的文件。而音质质听听起来与起来与CDCD相差不大。相差不大。MP3MP3压缩技术压缩技术MPEGMPEG的层次与压缩比率的层次与压缩比率 Layer1(Layer1(相当于相当于384kbps384kbps立体声信号立体声信号)4:14:1Layer2(Layer2(相当于相当于192256kbps192256kbps立体声信号立体声信号)6:18:16:18:1Layer3(Layer3(相当于相当于112154kbps11215
23、4kbps立体声信号立体声信号)10:112:110:112:1 MP4MP4并并不不是是MPEG-4MPEG-4或或者者MPEG-1Layer4MPEG-1Layer4,它它的的出出现现是是针针对对MP3MP3的的大大众众化化、无无版版权权的的一一种种保保护护格格式式,由由美美国国网网络络技技术术公公司司开开发发,美美国国唱唱片片行行业业联联合合会会倡倡导导公公布布的的一一种新的网种新的网络络下下载载和音和音乐乐播放格式。播放格式。MP4MP4压缩技术压缩技术2.2 波形音频文件的采集与制作波形音频文件的采集与制作 WindowsWindows录录音音机机的的主主要要功功能能是是录录音音和和
24、放放音音,使使用用“录录音音机机”可可以以录录制制、混混合合、播播放放和和编编辑辑声声音音。其其主主要要功功能能操操作作如下所述:如下所述:(1 1)波波形形文文件件的的录录制制:录录音音机机常常用用的的输输入入设设备备是是麦麦克克风风和和CD-ROMCD-ROM播放机。播放机。(2 2)波波形形文文件件的的存存储储:存存储储的的文文件件格格式式为为波波形形(.wav.wav)文件。文件。(3 3)声音的编辑:复制、粘贴、插入、删除等操作。)声音的编辑:复制、粘贴、插入、删除等操作。(4 4)音频变换与特殊效果:更改声音的大小、速度、回)音频变换与特殊效果:更改声音的大小、速度、回音等。音等。
25、录制一段音频录制一段音频2.3 常用音频处理软件简介常用音频处理软件简介 Gold WaveGold Wave:左声道左声道右声道右声道 GoldWaveGoldWave是一款相当不错的数码录音及编辑软件,是一款相当不错的数码录音及编辑软件,除了附有许多的效果处理功能外,它还能将编辑好除了附有许多的效果处理功能外,它还能将编辑好的文件存为的文件存为WAVWAV、AUAU、SNDSND、RAWRAW和和AFCAFC等格式。等格式。作为作为WaveWave文件编辑处理工具,支持从文件编辑处理工具,支持从MP3MP3、MPGMPG、AVIAVI、ASFASF、MOVMOV等文件中提取音频进行编辑,所
26、以除等文件中提取音频进行编辑,所以除了它强大的编辑功能外,用作把以上格式的音频转了它强大的编辑功能外,用作把以上格式的音频转换成换成WAVWAV文件也是很方便的。文件也是很方便的。1 1、声音类型转换、声音类型转换2 2、声音合并、声音合并3 3、回声效果、回声效果4 4、多普勒效果、多普勒效果5 5、制作铃声、制作铃声1 1、打开原音乐文件、打开原音乐文件2 2、试听找到音乐高潮部分、试听找到音乐高潮部分3 3、将选中的音乐部分剪裁下来、将选中的音乐部分剪裁下来4 4、选中开始的几秒钟,加淡入效果、选中开始的几秒钟,加淡入效果5 5、选中结束的几秒钟,加淡出效果、选中结束的几秒钟,加淡出效果
27、制作好的铃声图制作好的铃声图第第2章讨论题章讨论题1.1.声音按其特性分为哪几类?举例说明。声音按其特性分为哪几类?举例说明。分为规则和不规则两类。不规则指不含任何信息的噪分为规则和不规则两类。不规则指不含任何信息的噪音;规则声音分为语音、音乐和音效。语音是指具有音;规则声音分为语音、音乐和音效。语音是指具有语言内涵和人类约定俗成的特殊媒体,音乐是规范的、语言内涵和人类约定俗成的特殊媒体,音乐是规范的、符号化的声音,音效是指人类熟悉的其他声音,如雨符号化的声音,音效是指人类熟悉的其他声音,如雨声、雷声、机器轰鸣声。声、雷声、机器轰鸣声。2.2.声音具有哪声音具有哪3 3个要素?个要素?音强、音
28、调、音色。音强、音调、音色。3.3.声音数字化分声音数字化分为为哪两个步哪两个步骤骤?采样:就是每隔一段时间就读一次声音信号的幅度,采样:就是每隔一段时间就读一次声音信号的幅度,记录下来的原始模拟声波在某一时刻的状态,称之为记录下来的原始模拟声波在某一时刻的状态,称之为样本;样本;量化:把采样得到的声波幅度转化为数字值,也就是量化:把采样得到的声波幅度转化为数字值,也就是把某一幅度范围内的电压用用一个数字表示。把某一幅度范围内的电压用用一个数字表示。实验题实验题1 1、清制作一段自己的录音文件,并配背景音乐,写出、清制作一段自己的录音文件,并配背景音乐,写出制作步骤。制作步骤。2 2、请叙述用、请叙述用Cool Edit ProCool Edit Pro取出某段录音文件中的环取出某段录音文件中的环境噪音的步骤。境噪音的步骤。3 3、请把某段正常速度录制的语音文件,在保持语调不、请把某段正常速度录制的语音文件,在保持语调不变的情况下把语速降低到正常语速的变的情况下把语速降低到正常语速的70%70%。