第2章音频处理技术与应用精选文档.ppt-淘文阁

资源描述

《第2章音频处理技术与应用精选文档.ppt》由会员分享，可在线阅读，更多相关《第2章音频处理技术与应用精选文档.ppt（33页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第第2章章音频处理技术与应用音频处理技术与应用本讲稿第一页，共三十三页2.1 2.1 音频处理基础音频处理基础 2.1.1 2.1.1 音频信号概述音频信号概述 1.1.声波声波（1 1）声波：）声波：由各种机械振动或气流的扰动引起周围的弹性媒质发生波动。（2 2）声源：）声源：产生声波的物体，如人的声带和乐器等。（3 3）声音：）声音：人的听觉系统所能感知到的声波。音频的频率范围：20 Hz 20 Hz 20000 Hz 20000 Hz 语音的频率范围：300 Hz 300 Hz 3000 Hz 3000 Hz 次声波的频率范围：20 Hz 20 kHz 20 kHz（4 4）声强：）

2、声强：对于一定频率的声音，要能引起听觉，其声强也有一定的范围。下限：是恰能引起人听觉的最小声强，叫做该频率的可闻阈可闻阈；上限：是指人耳能听闻的最大声强，高于上限的声强，人耳感觉疼痛，所以叫做该频率的疼痛阈疼痛阈。本讲稿第二页，共三十三页 2 2声音的基本特征声音的基本特征（1 1）声波信号的物理特征）声波信号的物理特征周期（周期（T T）：）：声波的两个波峰或波谷之间的相对时间。频率（频率（f f）：）：周期的倒数（f=1/T），即每秒波峰或波谷出现的次数。声波的幅度幅度：从声波信号的基线到波峰的距离，幅度越大声波的强度也越大。通常也用声压、声强或声功率来表示声音的强弱。常见声音的分贝量级

3、分贝数分贝数低于低于2020202040404040606060607070707090909090听觉效果听觉效果能分辨能分辨轻声轻声正常交谈声正常交谈声吵闹吵闹很吵很吵听力受损听力受损本讲稿第三页，共三十三页（2 2）声音信号的心理学特征）声音信号的心理学特征人们感知到的声音特征称为心理学特征。n音音调调：在音乐中又叫音音高高，是由发声物体的振动频率决定，振动越快（即频率越大），音调越高，振动越慢，音调越低。音调的高低与声音基频的对数（20*log）成线性关系。基频越低，给人的感觉是声音越低沉，基频频率增加一倍，在音乐上就叫升高了一个八度。n音音色色：这是一个主观评价声音的量，声音的音色

4、取决于声音的频谱结构，一般高次谐波越丰富，音色越明亮并具有穿透力。n响度：响度：人耳对声音强弱的感觉程度，主要取决于振幅和声压。通常振幅越大声音越响，其次人耳距离声源越远，声音越小。本讲稿第四页，共三十三页（3 3）声音质量的评价）声音质量的评价声音质量与带宽有关，频率范围越宽，声音质量越高。声音质量与带宽有关，频率范围越宽，声音质量越高。1 1）声音质量分级：）声音质量分级：按照声音信号的频率范围将声音质量分为5级。质量频率范围采样频率（kHz）采样精度（bits）声道数数据率（非压缩）（kB/s）电话2003400 Hz88单道声8AM1005500Hz11.0258单道声11.0FM20

5、11000Hz22.05016立体声88.2CD-DA520000Hz44.116立体声176.4DVD096000Hz192246声道12002）信噪比（）信噪比（SNR）：即有用信号与噪音信号的强度之比，对于声卡或音箱则是其产生的最大不失真声音信号强度与同时发出的噪音强度之比，单位是分贝。3)声音主观质量的度量：声音主观质量的度量：主观度量就是大多数人对声音质量的感觉。本讲稿第五页，共三十三页 3 3音频信号的表示音频信号的表示声音信号通过麦克风等设备转换成电信号以后称之为音频信号。（1 1）规则音频信号）规则音频信号规则音频（规则音频（AudioAudio）是带有语音、音乐和音效的有

6、规律的音频信号，承载了一定的信息。语音：是语言的载体，有丰富的语言内涵，是人类交流的信息载体。音乐：是一种规范的符号化的声音。音效：是指自然界中的其他各种声音效果，如掌声、雷鸣声，爆破声等。不规则声音：不规则声音：不包含任何信息的声音，比如噪声。（2 2）音频信号的表示）音频信号的表示 1 1）音频信号的数学表示）音频信号的数学表示其中：0表示声音的基音，决定了音调的高低，n0是0的n次谐波分量，代表了声音的泛音，决定了声音的音色，An 是声波的振幅，表示声音的强弱。本讲稿第六页，共三十三页2 2）音频信号的波形表示）音频信号的波形表示3 3）音频信号的频谱表示）音频信号的频谱表示信号频谱即

7、信号频率的分布曲线。复杂的声音可以认为是振幅不同和频率不同的正弦声波叠加而成的，这些正弦声波的幅值按频率排列的图形就叫做频谱。男声的基频较低，低频分量更加丰富，因此听起来会更加低沉、浑厚。本讲稿第七页，共三十三页声音信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的，属于模拟信号。（1）采样声音信号在时间轴上的离散化，即每隔相等的一段时间抽取一个信号样本。n采样频率：采样频率：每秒采样的次数。n奈奎斯特理论（奈奎斯特理论（Nyquist theoryNyquist theory）：采样频率不应低于声音信号最高频率的两倍，这样就能把以数字声音还原成原来的声音，称为无损数字化。

8、f s =2 f max 电话话音信号的最高频率约为3.4kHz，所以采样频率取为8kHz。2.1.2 2.1.2 音频信号的数字化音频信号的数字化1.1.音频信号数字化音频信号数字化本讲稿第八页，共三十三页（2 2）量化量化将连续的声音信号的幅度离散化。也就是采样过程中对每一个采样点的幅度值用数字量来表示。如果幅度的划分是等间隔的，称为线性量化，否则为非线性量化。n采样精度：采样精度：即量化的位数，位数越多量化等级数也越多，所能表示的声波幅度的动态范围也越大，当然需要的存储空间也越大。本讲稿第九页，共三十三页（3 3）编码编码就是用一组二进制码组来表示每一个有固定电平的量化值，或者说将

9、量化值转换成二进制码组。典型的音频编码方法：脉冲编码调制法（PCM）。（4 4）数字音频的数据量）数字音频的数据量数据量数据量=采样频率采样频率*采样精度采样精度*采样时间采样时间*声道数声道数/8 /8 （字节数）（字节数）单声道：单声道：一次只产生一组声波数据，立体声：立体声：一次产生两组声波数据，分别送往左声道和右声道，根据声音到达人耳的时间差产生空间立体效果，因此立体声声波数据所需存储空间是单声道的一倍。例例2.12.1 计算一分钟未压缩的高保真立体声数字声音数据的大小。60*（44100*16*2）/8=10.09 MB 一首未经压缩的4分钟的歌曲文件的大小约为40MB，那么一个容

10、量为512MB的MP3播放器也只能播放12首这样的歌曲。本讲稿第十页，共三十三页（1 1）电话质量的语音压缩标准）电话质量的语音压缩标准（2 2）调幅广播语音压缩标准：）调幅广播语音压缩标准：G.722G.722（3）高保真立体声的宽带音频压缩标准）高保真立体声的宽带音频压缩标准2.2.数字音频压缩标准数字音频压缩标准标准标准编码方法编码方法采样频率采样频率采样精度采样精度数据传输率数据传输率G.711G.711PCMPCM8kHz8kHz8 8位位64kb/s64kb/sG.721G.721ADPCMADPCM8kHz8kHz8 8位位32kb/s32kb/sG.723G.723ADPCMA

11、DPCM8kHz8kHz8 8位位24kb/s24kb/sG.728G.728LD-CELPLD-CELP8kHz8kHz8 8位位16kb/s16kb/s电话质量的语音压缩标准电话质量的语音压缩标准 MPEGMPEG音频音频：是第一个高保真立体声音频压缩的国际标准，MPEG音频压缩标准提供三个独立的压缩层次：1 1）Layer 1Layer 1：编码器简单，输出数据率为384 kb/s，主要用于小型数字盒式磁带。2 2）Layer 2Layer 2：编码器较复杂，输出数据率为256 kb/s192kb/s，主要应用于数字广播声音、数字音乐、CD-I和VCD等。3 3）Layer 3Layer

12、 3：编码器复杂，输出数据率为64kb/s，主要用于ISDN上的声音传输。本讲稿第十一页，共三十三页1 1WAVWAV文件：文件：波形文件，微软开发，需要的存储量大，多用于存储简短的声音片段和旁白。2 2MIDIMIDI文件：文件：记录的是生成音乐的指令，MIDI文件短小。由于MIDI记录的并不是真正的声音，所以不同的声卡，不同软波表，不同硬件音源的音色是不相同的，相同的MIDI文件在不同的设备上播放也会有不同的效果。MIDI文件适合作为背景音乐来播放。3 3MP3MP3文件：文件：是MPEG音频第3层的简称，有损压缩，压缩比达12:1。MP3利用人耳的掩蔽特性，削减音频中人耳听不到的成分，同

13、时尽可能地维持原来的声音质量。4 4RARA文件：文件：属于Real Media的音频部分，采用流式传输方式，可以在非常低的带宽下提供足够好的音质让用户能在线聆听。5 5WMA WMA 文件文件：Windows Media的音频部分。无损压缩，支持多声道编码。6 6AC3AC3文件：文件：又叫杜比数码环绕立体声，压缩比10:1，提供的环绕声系统由5个全频域声道和1个超低音声道组成，称为5.1声道，一般作为DVD的伴音。3.3.数字音频文件的格式数字音频文件的格式本讲稿第十二页，共三十三页2.1.3 2.1.3 数字音频处理技术数字音频处理技术 1.1.数字音频技术数字音频技术是一门结合数字技

14、术和计算机技术而实现传统音频处理的技术。（1 1）特点特点1）处理长样本文件的能力，录音时间只受硬盘本身大小的限制。2）随机存取编辑3）无损编辑（2 2）应用）应用1）声音剪辑和CD刻录。2）日常音乐录制。3）大规模音乐录音和混音。4）影视音乐的制作与合成。5）多媒体音乐制作与合成。数字音频工作站本讲稿第十三页，共三十三页2 2）语音识别系统分类）语音识别系统分类n对说话人说话方式的要求n孤立字（词）语音识别系统n连接字语音识别系统n连续语音识别系统。n对说话人的依赖程度n特定人语音识别系统n非特定人语音识别系统n词汇量大小n小词汇量语音识别系统n中等词汇量语音识别系统n大词汇量语音识别系

15、统n无限词汇量语音识别系统。2.2.智能语音处理技术智能语音处理技术（1 1）语音识别技术）语音识别技术1 1）语音识别的发展）语音识别的发展n50年代:AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统Audry系统。n60年代：提出动态规划（DP）和线性预测分析技术（LP）。n70年代：提出了动态时间归正技术（DTW），矢量量化（VQ）和隐马尔可夫模型（HMM）理论，实现了特定人孤立语音识别系统。n90年代：开始进入实用阶段。本讲稿第十四页，共三十三页语音合成技术：语音合成技术：指利用计算机合成语音信号的技术，使计算机能够产生高清晰度和高自然度的连续语音，能够具有类似普通

16、人的说话能力。n语音合成的三个层次n从文字到语音n从概念到语音n从意向到语音n语音合成技术的特点n清晰度n自然度n表现力n复杂度n语音合成的应用n文语转换n语音查询（2 2）语音合成技术语音合成技术本讲稿第十五页，共三十三页2.2 2.2 音频处理软件音频处理软件 Adobe Audition Adobe Audition 单轨编辑界面2.2.3 Audition2.2.3 Audition界面及基本操作界面及基本操作本讲稿第十六页，共三十三页多轨编辑界面本讲稿第十七页，共三十三页本讲稿第十八页，共三十三页2.2.4 2.2.4 音频信号获取音频信号获取直接读取计算机磁盘上的音频文件；提取

17、视频信息中的音频信号；直接录音。Audition允许同时进行多音轨录音，当然需要有相应的硬件支持，比如多个音频输入接口、多个录音源等。1 1录音前声卡设置录音前声卡设置 “选项|Windows 录音控制台”2 2建立录音文件建立录音文件3 3导入伴奏音乐导入伴奏音乐4 4控制录音电平控制录音电平5 5录制声音录制声音本讲稿第十九页，共三十三页2.2.5 2.2.5 音频编辑音频编辑n单轨编辑状态：单轨编辑状态：可以进行波形的各种编辑处理和效果的设置，还可以分别对左右声道单独进行编辑处理。n多轨编辑状态多轨编辑状态：适合对多个音频轨道进行编辑、录制和合成处理。最多可以同时处理的轨道数为128个。

18、按钮“R”R”表示录音、表示录音、“S”“S”表示独奏、表示独奏、“M”“M”表示静音表示静音。1 1常用编辑常用编辑（1 1）裁剪音频波形）裁剪音频波形n 波形的选择波形的选择n 波形的删除波形的删除n 波形的移动与复制波形的移动与复制n 混合工具混合工具：拖曳左键选中波形，拖曳右键移动波形。n 时间选择工具时间选择工具：拖曳左键选中波形。n 移动移动/复制剪辑工具复制剪辑工具：拖曳左键移动波形，拖曳右键移动或复制。n 刷选工具刷选工具：拖曳左键可以播放选中波形。本讲稿第二十页，共三十三页（2 2）切分和合并音频）切分和合并音频在多轨编辑状态下，可以对活动音轨上的波形进行分割，使其变成多个

19、波形片段，定位播放线，执行“剪辑|分割”或右击鼠标点选“分割”。使两段波形首尾相接，按住Ctrl键将两段波形都选中，执行“剪辑|合并”或右击鼠标点选“合并”即可完成。（3 3）锁定音频波形）锁定音频波形锁定使音频的绝对时间位置不变。（4 4）编组音频波形）编组音频波形编组则可以使多个音频片段的相对位置固定，移动时可整体移动。本讲稿第二十一页，共三十三页2 2包络编辑包络编辑（1 1）音量包络编辑）音量包络编辑音量包络是指音频波形随时间变化而产生的音量变化，也即是音量变化的走势曲线。通过控制音量包络曲线来改变某音轨上音频信号的音量大小，是一个非常直观和简单有效的方法。（2 2）声相包络编辑

20、）声相包络编辑声相就是声音在左右声道中所处的位置。声相包络线处于中间时（0点），声音在左右声道中达到平衡的效果，声相包络线位于上半部，声音偏向左声道，声相包络线位于下半部，声音偏向右声道。本讲稿第二十二页，共三十三页（3 3）音量淡化包络编辑）音量淡化包络编辑 Audition提供了简单快速的音量淡化包络。在音乐制作领域，淡化（fade）指音量的逐渐变化，音量由小到大变化称为淡入（fade in），音量由大到小变化称为淡出（fade out）。3 3时间伸缩时间伸缩用于改变声音播放的速度，且不影响音高。“查看|启用剪辑时间伸展”时间伸缩本讲稿第二十三页，共三十三页2.2.6 2.2.6 加载

21、效果器加载效果器加载效果器按照使用方法可分为：n 插入效果器插入效果器：作用的声音范围是一整条音轨；n 波形效果器：波形效果器：作用于音轨中的某一段音频片段；n 总线效果器：总线效果器：加载在总线通道上的效果器，它使所有的音轨加入相同的效果器；1 1插入效果器插入效果器多轨编辑下多轨编辑下本讲稿第二十四页，共三十三页2 2波形效果器波形效果器单轨编辑下，允许多个音频片段分别进行效果设置。本讲稿第二十五页，共三十三页2.2.7 2.2.7 效果器效果器Audition的效果器按照功能分为：n 振幅类效果器振幅类效果器n 滤波类效果器滤波类效果器n 延迟类效果器延迟类效果器n 降噪类效果器降噪

22、类效果器n 波形发生类效果器波形发生类效果器n 声码器声码器本讲稿第二十六页，共三十三页1 1动态处理效果器动态处理效果器属于幅度类效果器，用于将某个范围内的声音电平按比例增大或缩小。本讲稿第二十七页，共三十三页2 2嘶声抑制降噪器嘶声抑制降噪器降噪类效果器可以精确分析音频信号中的嗡嗡类噪音进行消除，也可以根据实际录音环境进行噪声消除。嘶声抑制降噪器可以消除音频信号中的高频嘶嘶声。本讲稿第二十八页，共三十三页3 3合奏效果器合奏效果器属于延迟类效果器。对人声进行润色可以使发薄的声音变得厚实丰满。合奏效果器本讲稿第二十九页，共三十三页2.3 2.3 音频处理综合应用举例音频处理综合应用举例

23、 2.3.1 2.3.1 消除人声消除人声1 1、采用、采用VSTVST插件直接消除插件直接消除菜单“效果|幅度|通道混音器”，在预设效果中选择“Vocal Cut”2 2、将双声道转换为单声道、将双声道转换为单声道菜单“编辑|转换采样类型”选中“单声道”左混音：100%右混音：-100%本讲稿第三十页，共三十三页2.3.2 2.3.2 穿插录音技术穿插录音技术穿插录音：用于对已经录制好的声音片段进行重新录制。1、首先选定不满意的声音片段2、右击选择“穿插入”，选定部分变为空白，轨道左边的“R”处于按下状态3、点按“录音”按钮，那么声音将自动录制在选定的片段。选择要重新录音的片段，右击选择“穿插入”进入录音状态本讲稿第三十一页，共三十三页2.3.3 2.3.3 声音信号降噪处理声音信号降噪处理噪声样本“效果|恢复|降噪处理”本讲稿第三十二页，共三十三页2.3.4 2.3.4 配乐诗朗诵制作配乐诗朗诵制作1、导入背景音乐2、录制诗朗诵 3、声音的降噪处理4、声音幅度调整：使用效果器“幅度|包络”，可以把音量“高的压下来，低的提上去”，对声音的力度起到平衡的作用。5、人声润色：使用“延迟效果器|混响”使录制的人声变得更为厚实和丰满。6、混音：打开“混音器”，调整音量大小 7、混缩输出：“文件|导出|混缩音频”本讲稿第三十三页，共三十三页

展开阅读全文