第2章音频信息处理精选文档.ppt-淘文阁

资源描述

《第2章音频信息处理精选文档.ppt》由会员分享，可在线阅读，更多相关《第2章音频信息处理精选文档.ppt（33页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第第2章音频信息处理章音频信息处理本讲稿第一页，共三十三页2.1 2.1 音频处理基础音频处理基础 1.1.声波声波（1 1）声波：）声波：由各种机械振动或气流扰动引起周围的弹性媒质发生波动。由各种机械振动或气流扰动引起周围的弹性媒质发生波动。（2 2）声源：）声源：产生声波的物体，如人的声带和乐器等。产生声波的物体，如人的声带和乐器等。（3 3）声音：）声音：人的听觉系统所能感知到的声波。人的听觉系统所能感知到的声波。音频的频率范围：音频的频率范围：20 Hz 20 Hz 20000 Hz20000 Hz 语音的频率范围：语音的频率范围：300 Hz 300 Hz 3000 Hz3000

2、Hz 次声波的频率范围：次声波的频率范围：20 Hz 20 kHz 20 kHz（4 4）声强：）声强：对于一定频率的声音，要能引起听觉，其声强也有一定的范围。对于一定频率的声音，要能引起听觉，其声强也有一定的范围。下限：是恰能引起人听觉的最小声强，叫做该频率的下限：是恰能引起人听觉的最小声强，叫做该频率的可闻阈可闻阈；上限：是指人耳能听闻的最大声强，高于上限的声强，人耳感觉疼痛，上限：是指人耳能听闻的最大声强，高于上限的声强，人耳感觉疼痛，所以叫做该频率的所以叫做该频率的疼痛阈疼痛阈。本讲稿第二页，共三十三页常见声音的分贝量级分贝数分贝数低于低于20202020404040406060606

3、07070707090909090听觉效果听觉效果能分辨能分辨轻声轻声正常交谈声正常交谈声吵闹吵闹很吵很吵听力受损听力受损2声音的基本特征声音的基本特征（1）声波信号的物理特征）声波信号的物理特征周期（周期（T T）：）：声波的两个波峰或波谷之间的相对时间。声波的两个波峰或波谷之间的相对时间。频率（频率（f f）：）：周期的倒数周期的倒数（f=1/Tf=1/T），即每秒波峰或波谷出现的次数。，即每秒波峰或波谷出现的次数。幅度幅度：从声波信号的基线到波峰的距离，幅度越大声波的强度也越大。通常也用声：从声波信号的基线到波峰的距离，幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示声音的强

4、弱。压、声强或声功率来表示声音的强弱。本讲稿第三页，共三十三页人们感知到的声音特征称为心理学特征人们感知到的声音特征称为心理学特征n音音调调：在在音音乐乐中中又又叫叫音音高高，是是由由发发声声物物体体的的振振动动频频率率决决定定，振振动动越越快快（即即频频率率越越大大），音音调调越越高高，振振动动越越慢慢，音音调调越越低低。音音调调的的高高低低与与声声音音基基频频的的对对数数（20*log20*log）成成线线性性关关系系。基基频频越越低低，给给人人的的感感觉觉是是声声音音越越低低沉沉，基基频频频频率率增增加加一一倍倍，在在音音乐乐上就叫升高了一个八度。上就叫升高了一个八度。n音音色色：这这

5、是是一一个个主主观观评评价价声声音音的的量量，声声音音的的音音色色取取决决于于声声音音的的频频谱谱结结构构，一一般般高高次次谐谐波越丰富，音色越明亮并具有穿透力。波越丰富，音色越明亮并具有穿透力。n响度：响度：人耳对声音强弱的感觉程度，主要取决于振幅和声压。通常振幅越大声人耳对声音强弱的感觉程度，主要取决于振幅和声压。通常振幅越大声音越响，其次人耳距离声源越远，声音越小。音越响，其次人耳距离声源越远，声音越小。（2 2）声音信号的心理学特征）声音信号的心理学特征本讲稿第四页，共三十三页（3 3）声音质量的评价）声音质量的评价声音质量与带宽有关，频率范围越宽，声音质量越高。声音质量与带宽有关，频

6、率范围越宽，声音质量越高。1 1）声音质量分级：）声音质量分级：按照声音信号的频率范围将声音质量分为按照声音信号的频率范围将声音质量分为5 5级。级。质量质量频率范围频率范围采样频率采样频率（kHzkHz）采样精度采样精度（bitsbits）声道数声道数数据率（非压缩）数据率（非压缩）（kB/skB/s）电话电话2002003400 Hz3400 Hz8 88 8单道声单道声8 8AMAM1001005500Hz5500Hz11.02511.0258 8单道声单道声11.011.0FMFM202011000Hz11000Hz22.05022.0501616立体声立体声88.288.2CD-DA

7、CD-DA5 520000Hz20000Hz44.144.11616立体声立体声176.4176.4DVDDVD0 096000Hz96000Hz19219224246 6声道声道120012002 2）信噪比（）信噪比（SNRSNR）：即有用信号与噪音信号的强度之比，单位是分贝。：即有用信号与噪音信号的强度之比，单位是分贝。3)3)声音主观质量的度量：声音主观质量的度量：主观度量就是大多数人对声音质量的感觉。主观度量就是大多数人对声音质量的感觉。本讲稿第五页，共三十三页3音频信号的表示音频信号的表示（1 1）音频信号：）音频信号：通过麦克风等设备转换成的电信号。通过麦克风等设备转换成的电信号

8、。n规则音频信号：规则音频信号：带有语音、音乐和音效的有规律的音频信号，承载了一定的信息。带有语音、音乐和音效的有规律的音频信号，承载了一定的信息。语音：语音：语言的载体，有丰富的语言内涵，是人类交流的信息载体。语言的载体，有丰富的语言内涵，是人类交流的信息载体。音乐：音乐：是一种规范的符号化的声音。是一种规范的符号化的声音。音效：音效：自然界中各种声音效果，如掌声、雷鸣声，爆破声等。自然界中各种声音效果，如掌声、雷鸣声，爆破声等。n不规则音频信号：不规则音频信号：不包含任何信息的声音，比如噪声。不包含任何信息的声音，比如噪声。（2 2）音频信号的表示）音频信号的表示音频信号的数学表示音频信

9、号的数学表示0：声音的基音，决定了音调的高低声音的基音，决定了音调的高低n0：声音的泛音，决定了声音的音色声音的泛音，决定了声音的音色An:声波的振幅，表示声音的强弱声波的振幅，表示声音的强弱本讲稿第六页，共三十三页2 2）音频信号的波形表示）音频信号的波形表示3 3）音频信号的频谱表示）音频信号的频谱表示声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠加而成的，这声音信号的频率分布曲线。复杂的声音是由振幅和频率不同的正弦声波叠加而成的，这些正弦波的幅值按频率排列的图形就叫做频谱。些正弦波的幅值按频率排列的图形就叫做频谱。男声的基频较低，低频分量更加丰富，因此听起来会更加低沉

10、、浑厚。男声的基频较低，低频分量更加丰富，因此听起来会更加低沉、浑厚。本讲稿第七页，共三十三页1.1.音频信号数字化音频信号数字化声音信号在时间上是连续的，在幅度上也是连续的，属于模拟信号。声音信号在时间上是连续的，在幅度上也是连续的，属于模拟信号。（1 1）采样）采样声音信号在时间上的离散化，即每隔一段时间抽取一个信号样本。声音信号在时间上的离散化，即每隔一段时间抽取一个信号样本。n采样频率：采样频率：每秒采样的次数。每秒采样的次数。n奈奎斯特理论（奈奎斯特理论（Nyquist theoryNyquist theory）：采样频率不低于声音信号最高频率的两倍，：采样频率不低于声音信号最高

11、频率的两倍，这样就能把数字声音还原成原来的声音，称为无损数字化。这样就能把数字声音还原成原来的声音，称为无损数字化。f s =2 f maxf s =2 f max 电话话音信号的最高频率约为电话话音信号的最高频率约为3.4kHz3.4kHz，所以采样频率取为，所以采样频率取为8kHz8kHz。2.1.2 2.1.2 音频信号的数字化音频信号的数字化本讲稿第八页，共三十三页声音信号在幅度上的离散化声音信号在幅度上的离散化也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的，称为线性量化，否则为非线

12、性量化。是等间隔的，称为线性量化，否则为非线性量化。n采样精度：采样精度：即量化的位数，位数越多量化等级数也越多，所能表示的声波幅度即量化的位数，位数越多量化等级数也越多，所能表示的声波幅度的动态范围也越大，当然需要的存储空间也越大。的动态范围也越大，当然需要的存储空间也越大。（2 2）量化量化本讲稿第九页，共三十三页（3 3）编码编码就是用一组二进制码组来表示每一个有固定电平的量化值，或者说将量化值转就是用一组二进制码组来表示每一个有固定电平的量化值，或者说将量化值转换成二进制码组。换成二进制码组。典型的音频编码方法：脉冲编码调制法（典型的音频编码方法：脉冲编码调制法（PCMPCM）。）。

13、（4 4）数字音频的数据量）数字音频的数据量数据量数据量 =采样频率采样频率*采样精度采样精度*采样时间采样时间*声道数声道数 /8 /8 （字节数）（字节数）单声道：单声道：一次只产生一组声波数据，立体声：立体声：一次产生两组声波数据。例例2.12.1 计算一分钟未压缩的高保真立体声数字声音数据的大小。60*（44100*16*2）/8=10.09 MB 一首未经压缩的4分钟的歌曲文件的大小约为40MB，那么一个容量为512MB的MP3播放器也只能播放12首这样的歌曲。本讲稿第十页，共三十三页2.数字音频压缩标准数字音频压缩标准（1 1）电话质量的语音压缩标准）电话质量的语音压缩标准（2

14、2）调幅广播语音压缩标准）调幅广播语音压缩标准 G.722G.722（3）高保真立体声的宽带音频压缩标准）高保真立体声的宽带音频压缩标准标准标准编码方法编码方法采样频率采样频率采样精度采样精度数据传输率数据传输率G.711G.711PCMPCM8kHz8kHz8 8位位64kb/s64kb/sG.721G.721ADPCMADPCM8kHz8kHz8 8位位32kb/s32kb/sG.723G.723ADPCMADPCM8kHz8kHz8 8位位24kb/s24kb/sG.728G.728LD-CELPLD-CELP8kHz8kHz8 8位位16kb/s16kb/s电话质量的语音压缩标准电话质

15、量的语音压缩标准 MPEG音频：第一个高保真立体声音频压缩的国际标准 MPEG音频压缩标准提供三个独立的压缩层次：1）Layer 1：编码器简单，输出数据率为384 kb/s，主要用于小型数字盒式磁带。2）Layer 2：编码器较复杂，输出数据率为256 kb/s192kb/s，主要应用于数字广播声音、数字音乐、CD-I和VCD等。3）Layer 3：编码器复杂，输出数据率为64kb/s，主要用于ISDN上的声音传输。本讲稿第十一页，共三十三页1 1WAVWAV文件：文件：波形文件，微软开发，需要的存储量大，多用于存储简短的声音片段和旁白。波形文件，微软开发，需要的存储量大，多用于存储简短的声

16、音片段和旁白。2 2MIDIMIDI文件：文件：记录的是生成音乐的指令，记录的是生成音乐的指令，MIDIMIDI文件短小。由于文件短小。由于MIDIMIDI记录的并不是真正的声音，所以不同的声记录的并不是真正的声音，所以不同的声卡，不同软波表，不同硬件音源的音色是不相同的，相同的卡，不同软波表，不同硬件音源的音色是不相同的，相同的MIDIMIDI文件在不同的设备上播放也会有不同的效果。文件在不同的设备上播放也会有不同的效果。MIDIMIDI文件适合作为背景音乐来播放。文件适合作为背景音乐来播放。3 3MP3MP3文件：文件：是是MPEGMPEG音频第音频第3 3层的简称，有损压缩，压缩比达层的

17、简称，有损压缩，压缩比达12:112:1。MP3MP3利用人耳的掩蔽特性，削减音频中人利用人耳的掩蔽特性，削减音频中人耳听不到的成分，同时尽可能地维持原来的声音质量。耳听不到的成分，同时尽可能地维持原来的声音质量。4 4RARA文件：文件：属于属于Real MediaReal Media的音频部分，采用流式传输方式，可以在非常低的带宽下提供足够好的音质让用户能的音频部分，采用流式传输方式，可以在非常低的带宽下提供足够好的音质让用户能在线聆听。在线聆听。5 5WMA WMA 文件文件：Windows MediaWindows Media的音频部分。无损压缩，支持多声道编码。的音频部分。无损压缩，

18、支持多声道编码。6 6AC3AC3文件：文件：又叫杜比数码环绕立体声，压缩比又叫杜比数码环绕立体声，压缩比10:110:1，提供的环绕声系统由，提供的环绕声系统由5 5个全频域声道和个全频域声道和1 1个超低音声个超低音声道组成，称为道组成，称为5.15.1声道，一般作为声道，一般作为DVDDVD的伴音。的伴音。3.数字音频文件的格式数字音频文件的格式本讲稿第十二页，共三十三页1.1.数字音频技术数字音频技术结合数字技术和计算机技术而实现传统音频处理的技术（1 1）特点特点1 1）处理长样本文件的能力，录音时间只受硬盘本身大小的限制。）处理长样本文件的能力，录音时间只受硬盘本身大小的限制。

19、2 2）随机存取编辑）随机存取编辑3 3）无损编辑）无损编辑（2 2）应用）应用1 1）声音剪辑和）声音剪辑和CDCD刻录。刻录。2 2）日常音乐录制。）日常音乐录制。3 3）大规模音乐录音和混音。）大规模音乐录音和混音。4 4）影视音乐的制作与合成。）影视音乐的制作与合成。5 5）多媒体音乐制作与合成。）多媒体音乐制作与合成。数字音频工作站 2.1.3 数字音频处理技术数字音频处理技术本讲稿第十三页，共三十三页2 2）语音识别系统分类）语音识别系统分类n对说话人说话方式的要求对说话人说话方式的要求n孤立字（词）语音识别系统孤立字（词）语音识别系统n连接字语音识别系统连接字语音识别系统n连续

20、语音识别系统。连续语音识别系统。n对说话人的依赖程度对说话人的依赖程度n特定人语音识别系统特定人语音识别系统n非特定人语音识别系统非特定人语音识别系统n词汇量大小词汇量大小n小词汇量语音识别系统小词汇量语音识别系统n中等词汇量语音识别系统中等词汇量语音识别系统n大词汇量语音识别系统大词汇量语音识别系统n无限词汇量语音识别系统。无限词汇量语音识别系统。（1）语音识别技术）语音识别技术1 1）语音识别的发展）语音识别的发展n5050年代年代:AT&T Bell:AT&T Bell实验室实现了第一个可识别十实验室实现了第一个可识别十个英文数字的语音识别系统个英文数字的语音识别系统AudryAudry

21、系统。系统。n6060年代：提出动态规划（年代：提出动态规划（DPDP）和线性预测分析技术）和线性预测分析技术（LPLP）。）。n7070年代：提出了动态时间归正技术（年代：提出了动态时间归正技术（DTWDTW），矢量），矢量量化（量化（VQVQ）和隐马尔可夫模型（）和隐马尔可夫模型（HMMHMM）理论，实）理论，实现了特定人孤立语音识别系统。现了特定人孤立语音识别系统。n9090年代：开始进入实用阶段年代：开始进入实用阶段。2.智能语音处理技术智能语音处理技术本讲稿第十四页，共三十三页利用计算机合成语音的技术，使计算机具有类似人的说话能力。利用计算机合成语音的技术，使计算机具有类似人的说话

22、能力。n语音合成的三个层次语音合成的三个层次n从文字到语音从文字到语音n从概念到语音从概念到语音n从意向到语音从意向到语音n语音合成技术的特点语音合成技术的特点n清晰度清晰度n自然度自然度n表现力表现力n复杂度复杂度n语音合成的应用语音合成的应用n文语转换文语转换n语音查询语音查询（2）语音合成技术语音合成技术本讲稿第十五页，共三十三页2.2 2.2 音频处理软件音频处理软件 Adobe AuditionAdobe Audition 单轨编辑界面单轨编辑界面2.2.3 Audition2.2.3 Audition界面及基本操作界面及基本操作本讲稿第十六页，共三十三页多轨编辑界面本讲稿第十七页

23、，共三十三页本讲稿第十八页，共三十三页2.2.4 2.2.4 音频信号获取音频信号获取直接读取计算机磁盘上的音频文件；提取视频信息中的音频信号；直接录音。Audition允许同时进行多音轨录音，当然需要有相应的硬件支持，比如多个音频输入接口、多个录音源等。1 1录音前声卡设置录音前声卡设置 “选项|Windows 录音控制台”2 2建立录音文件建立录音文件3 3导入伴奏音乐导入伴奏音乐4 4控制录音电平控制录音电平5 5录制声音录制声音本讲稿第十九页，共三十三页2.2.5 2.2.5 音频编辑音频编辑n单轨编辑状态：单轨编辑状态：可以进行波形的各种编辑处理和效果的设置，还可以分别对左右声道单

24、独进行编辑处理。n多轨编辑状态多轨编辑状态：适合对多个音频轨道进行编辑、录制和合成处理。最多可以同时处理的轨道数为128个。按钮“R”R”表示录音、表示录音、“S”S”表示独奏、表示独奏、“M”M”表示静音表示静音。1 1常用编辑常用编辑（1 1）裁剪音频波形）裁剪音频波形n 波形的选择波形的选择n 波形的删除波形的删除n 波形的移动与复制波形的移动与复制n 混合工具混合工具：拖曳左键选中波形，拖曳右键移动波形。n 时间选择工具时间选择工具：拖曳左键选中波形。n 移动移动/复制剪辑工具复制剪辑工具：拖曳左键移动波形，拖曳右键移动或复制。n 刷选工具刷选工具：拖曳左键可以播放选中波形。本讲稿第二

25、十页，共三十三页（2 2）切分和合并音频）切分和合并音频在多轨编辑状态下，可以对活动音轨上的波形进行分割，使其变成多个波形片段，定位播放线，执行“剪辑|分割”或右击鼠标点选“分割”。使两段波形首尾相接，按住Ctrl键将两段波形都选中，执行“剪辑|合并”或右击鼠标点选“合并”即可完成。（3 3）锁定音频波形）锁定音频波形锁定使音频的绝对时间位置不变。（4 4）编组音频波形）编组音频波形编组则可以使多个音频片段的相对位置固定，移动时可整体移动。本讲稿第二十一页，共三十三页2 2包络编辑包络编辑（1 1）音量包络编辑）音量包络编辑音量包络是指音频波形随时间变化而产生的音量变化，也即是音量变化

26、的走势曲线。通过控制音量包络曲线来改变某音轨上音频信号的音量大小，是一个非常直观和简单有效的方法。（2 2）声相包络编辑）声相包络编辑声相就是声音在左右声道中所处的位置。声相包络线处于中间时（0点），声音在左右声道中达到平衡的效果，声相包络线位于上半部，声音偏向左声道，声相包络线位于下半部，声音偏向右声道。本讲稿第二十二页，共三十三页（3 3）音量淡化包络编辑）音量淡化包络编辑 Audition提供了简单快速的音量淡化包络。在音乐制作领域，淡化（fade）指音量的逐渐变化，音量由小到大变化称为淡入（fade in），音量由大到小变化称为淡出（fade out）。3 3时间伸缩时间伸缩用于改变

27、声音播放的速度，且不影响音高。“查看|启用剪辑时间伸展”时间伸缩本讲稿第二十三页，共三十三页2.2.6 2.2.6 加载效果器加载效果器加载效果器按照使用方法可分为：n 插入效果器插入效果器：作用的声音范围是一整条音轨；n 波形效果器：波形效果器：作用于音轨中的某一段音频片段；n 总线效果器：总线效果器：加载在总线通道上的效果器，它使所有的音轨加入相同的效果器；1 1插入效果器插入效果器多轨编辑下多轨编辑下本讲稿第二十四页，共三十三页2 2波形效果器波形效果器单轨编辑下，允许多个音频片段分别进行效果设置。本讲稿第二十五页，共三十三页2.2.7 2.2.7 效果器效果器Audition的效果

28、器按照功能分为：n 振幅类效果器振幅类效果器n 滤波类效果器滤波类效果器n 延迟类效果器延迟类效果器n 降噪类效果器降噪类效果器n 波形发生类效果器波形发生类效果器n 声码器声码器本讲稿第二十六页，共三十三页1 1动态处理效果器动态处理效果器属于幅度类效果器，用于将某个范围内的声音电平按比例增大或缩小。本讲稿第二十七页，共三十三页2 2嘶声抑制降噪器嘶声抑制降噪器降噪类效果器可以精确分析音频信号中的嗡嗡类噪音进行消除，也可以根据实际录音环境进行噪声消除。嘶声抑制降噪器可以消除音频信号中的高频嘶嘶声。本讲稿第二十八页，共三十三页3 3合奏效果器合奏效果器属于延迟类效果器。对人声进行润色可以

29、使发薄的声音变得厚实丰满。合奏效果器本讲稿第二十九页，共三十三页2.3 2.3 音频处理综合应用举例音频处理综合应用举例 2.3.1 2.3.1 消除人声消除人声1 1、采用、采用VSTVST插件直接消除插件直接消除菜单“效果|幅度|通道混音器”，在预设效果中选择“Vocal Cut”2 2、将双声道转换为单声道、将双声道转换为单声道菜单“编辑|转换采样类型”选中“单声道”左混音：100%右混音：-100%本讲稿第三十页，共三十三页2.3.2 2.3.2 穿插录音技术穿插录音技术穿插录音：用于对已经录制好的声音片段进行重新录制。1、首先选定不满意的声音片段2、右击选择“穿插入”，选定部分变

30、为空白，轨道左边的“R”处于按下状态3、点按“录音”按钮，那么声音将自动录制在选定的片段。选择要重新录音的片段，右击选择“穿插入”进入录音状态本讲稿第三十一页，共三十三页2.3.3 2.3.3 声音信号降噪处理声音信号降噪处理噪声样本“效果|恢复|降噪处理”本讲稿第三十二页，共三十三页2.3.4 2.3.4 配乐诗朗诵制作配乐诗朗诵制作1 1、导入背景音乐导入背景音乐2 2、录制诗朗诵录制诗朗诵 3 3、声音的降噪处理声音的降噪处理4 4、声音幅度调整声音幅度调整：使用效果器：使用效果器“幅度幅度|包络包络”，可以把音量，可以把音量“高的压下来，低的提上去高的压下来，低的提上去”，对声音的力度起到平衡的作用。，对声音的力度起到平衡的作用。5 5、人声润色人声润色：使用：使用“延迟效果器延迟效果器|混响混响”使录制的人声变得更使录制的人声变得更为厚实和丰满。为厚实和丰满。6 6、混音混音：打开：打开“混音器混音器”，调整音量大小，调整音量大小 7 7、混缩输出混缩输出：“文件文件|导出导出|混缩音频混缩音频”本讲稿第三十三页，共三十三页

展开阅读全文