《音频信息处理1.pptx》由会员分享,可在线阅读,更多相关《音频信息处理1.pptx(84页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1多媒体中音频信息的应用多媒体中音频信息的应用 在多媒体系统中,语音和在多媒体系统中,语音和音乐是不可少的。没有音频的音乐是不可少的。没有音频的视频是不可接受的。视频是不可接受的。第2页/共84页第1页/共84页2多媒体中音频信息的应用多媒体中音频信息的应用 音频和视频同步,使视频图音频和视频同步,使视频图像更具真实性像更具真实性 娓娓动听的音乐和解说,使娓娓动听的音乐和解说,使静态图像变得更加丰富多彩静态图像变得更加丰富多彩 可视电话、电视会议中的声可视电话、电视会议中的声音更为重要音更为重要第3页/共84页第2页/共84页3音频是多媒体的重要媒体之一音频是多媒体的重要媒体之一音频是多媒体的
2、重要媒体之一音频是多媒体的重要媒体之一Audio 音频音频Speech 语音语音 言语言语Sound 非语音非语音 声音声音浊音浊音清音清音爆破音爆破音乐音乐音杂音杂音第4页/共84页第3页/共84页4 语音是语言的物质外壳(载体)。语音是语言的物质外壳(载体)。语言是人类社会特有的一种信息系统,语言是人类社会特有的一种信息系统,社会交际工具的符号。社会交际工具的符号。非语音信号的特点是不具有复杂非语音信号的特点是不具有复杂的语意和语法信息,信息量低、识别的语意和语法信息,信息量低、识别简单。简单。第5页/共84页第4页/共84页5 语言是人类通信最直接最语言是人类通信最直接最自然的方式。从第
3、一台计算机诞自然的方式。从第一台计算机诞生以来,专家们就为之付出了巨生以来,专家们就为之付出了巨大的努力。大的努力。人们期望以最自然人们期望以最自然 的方式与计算机交互的方式与计算机交互第6页/共84页第5页/共84页6 设计师为计算机安上了设计师为计算机安上了设计师为计算机安上了设计师为计算机安上了“嘴巴嘴巴嘴巴嘴巴”(扬声器),让计算机奏乐、讲话;(扬声器),让计算机奏乐、讲话;(扬声器),让计算机奏乐、讲话;(扬声器),让计算机奏乐、讲话;为计算机装上了为计算机装上了为计算机装上了为计算机装上了“耳朵耳朵耳朵耳朵”(麦克风),让计算机听懂、理解人的讲话。(麦克风),让计算机听懂、理解人的
4、讲话。(麦克风),让计算机听懂、理解人的讲话。(麦克风),让计算机听懂、理解人的讲话。网络专家还期望分布在不同地点的计算机成为网络专家还期望分布在不同地点的计算机成为网络专家还期望分布在不同地点的计算机成为网络专家还期望分布在不同地点的计算机成为“顺风耳顺风耳顺风耳顺风耳”,实现音频实,实现音频实,实现音频实,实现音频实时传播。时传播。时传播。时传播。人们期望以最自然人们期望以最自然 的方式与计算机交互的方式与计算机交互第7页/共84页第6页/共84页7 音频被用来传递消息、意向、音频被用来传递消息、意向、情感,是人类最熟悉的传递消息情感,是人类最熟悉的传递消息的方式。音频携带的信息量大、的方
5、式。音频携带的信息量大、精细、准确。精细、准确。第8页/共84页第7页/共84页8 随着多媒体信息处理技术的随着多媒体信息处理技术的发展,计算机数据处理能力的增发展,计算机数据处理能力的增强,音频处理技术受到重视,并强,音频处理技术受到重视,并得到了广泛的应用。如:得到了广泛的应用。如:第9页/共84页第8页/共84页9视频图像的配音、配乐视频图像的配音、配乐可视电话、电视会议中的话音;可视电话、电视会议中的话音;游戏中的音响效果游戏中的音响效果Internet 电话、声音欺骗系统、电话、声音欺骗系统、现代现代“芝麻开门芝麻开门”系统系统虚拟现实中的声音模拟虚拟现实中的声音模拟电子读物的有声输
6、出等电子读物的有声输出等第10页/共84页第9页/共84页10多媒体中音频信息的应用多媒体中音频信息的应用 模拟音频和数字音频模拟音频和数字音频音频的数字化音频的数字化音频信号处理的特点音频信号处理的特点2.1 数字音频基础数字音频基础第11页/共84页第10页/共84页11模拟音频和数字音频模拟音频和数字音频模拟音频和数字音频模拟音频和数字音频什么是模拟音频?什么是模拟音频?声音是机械振动。振动越强,声声音是机械振动。振动越强,声音越大,话筒把机械振动转换成电信音越大,话筒把机械振动转换成电信号,模拟音频技术中以模拟电压的幅号,模拟音频技术中以模拟电压的幅度表示声音强弱。度表示声音强弱。模拟
7、声音在时间上是连续的。模拟声音在时间上是连续的。第12页/共84页第11页/共84页12什么是数字音频?什么是数字音频?在计算机内,所有的信息均以数字表示。在计算机内,所有的信息均以数字表示。各种命令是不同的数字,各种幅度的物理量各种命令是不同的数字,各种幅度的物理量也是不同的数字。当然,语音信号也是由一也是不同的数字。当然,语音信号也是由一系列数字来表示,称之为数字音频。系列数字来表示,称之为数字音频。数字音频的特点是保真度好,动态范围数字音频的特点是保真度好,动态范围大。大。数字声音在时间上是断续的。数字声音在时间上是断续的。第13页/共84页第12页/共84页13 在数字音频技术中,把表
8、示声音在数字音频技术中,把表示声音强弱的模拟电压用数字表示,如强弱的模拟电压用数字表示,如0.5V电压用数字电压用数字20表示,表示,2V电压用电压用80表表示。模拟电压的幅度,即使在某电平示。模拟电压的幅度,即使在某电平范围内,仍然可以有无穷多个如范围内,仍然可以有无穷多个如1.21V,1.215V。第14页/共84页第13页/共84页14 而用数字来表示音频幅度时,而用数字来表示音频幅度时,只能把无穷多个电压幅度用有限只能把无穷多个电压幅度用有限个数字表示。即把某一幅度范围个数字表示。即把某一幅度范围内的电压用一个数字表示,这称内的电压用一个数字表示,这称之为量化。之为量化。第15页/共8
9、4页第14页/共84页15 计算机内的基本数制是二进计算机内的基本数制是二进制,为此我们也要把声音数据写制,为此我们也要把声音数据写成计算机的数据格式,这称之为成计算机的数据格式,这称之为编码,模拟电压幅度、量化、编编码,模拟电压幅度、量化、编码的关系举例如下表。码的关系举例如下表。第16页/共84页第15页/共84页16第17页/共84页第16页/共84页17多媒体中音频信息的应用多媒体中音频信息的应用 模拟音频和数字音频模拟音频和数字音频音频的数字化音频的数字化音频信号处理的特点音频信号处理的特点2.1 数字音频基础数字音频基础第18页/共84页第17页/共84页18音频的数字化音频的数字
10、化 计算机内的音频必须是数字形计算机内的音频必须是数字形式的,因此必须把模拟音频信号转式的,因此必须把模拟音频信号转换成有限个数字表示的离散序列,换成有限个数字表示的离散序列,即实现音频数字化。在这一处理技即实现音频数字化。在这一处理技术中,涉及到音频的采样、量化和术中,涉及到音频的采样、量化和编码。编码。第19页/共84页第18页/共84页19采样采样:音频实际上是连续信号,:音频实际上是连续信号,或称连续时间函数或称连续时间函数x(t)。用计算机。用计算机处理这些信号时,必须先对连续信处理这些信号时,必须先对连续信号采样,即按一定的时间间隔号采样,即按一定的时间间隔(T)取值取值,得到得到
11、x(nT)(n为整数为整数)。T称采称采样周期,样周期,1/T称为采样频率。称称为采样频率。称x(nT)为离散信号。为离散信号。第20页/共84页第19页/共84页20 离散信号离散信号x(nT)是从连续信号是从连续信号x(t)上取出的一部分值,那么能用上取出的一部分值,那么能用x(nT)唯一地确一地恢复出唯一地确一地恢复出x(t)吗?吗?一般是不行的。但在一定条件下可一般是不行的。但在一定条件下可以的,即采样要满足采样定理。以的,即采样要满足采样定理。第21页/共84页第20页/共84页21 采采样样定定理理:设设连连续续信信号号x(t)的的频频谱谱为为x(f),以以采采样样间间隔隔T采采样
12、样得得到到离离散散信信号号x(nT),如如果满足:果满足:第22页/共84页第21页/共84页22 可以由可以由x(nT)完全确定连续信号完全确定连续信号x(f)当当采采样样频频率率等等于于1/2T时时,即即fN N=1/2T,称称fN N为奈魁斯特频率。为奈魁斯特频率。第23页/共84页第22页/共84页23常用的音频采样率有:常用的音频采样率有:8kHz8kHz、11.025kHz11.025kHz、22.05kHz22.05kHz、16kHz16kHz、37.8kHz37.8kHz、44.1kHz44.1kHz、48kHz48kHz。第24页/共84页第23页/共84页24量化:为了把采
13、样序列量化:为了把采样序列x(nT)存存入计算机,必须将样值量化成一个入计算机,必须将样值量化成一个有限个幅度值的集合有限个幅度值的集合x(nT)。通常,。通常,用二进制数字表示量化后的样值是用二进制数字表示量化后的样值是方便的。方便的。第25页/共84页第24页/共84页25 量化采样的过程如下:先将整量化采样的过程如下:先将整个幅度划分成为有限个小幅度个幅度划分成为有限个小幅度(量化量化阶距阶距)的集合,把落入某个阶距内的的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化样值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,我值。如果量化值是均匀分布的,我们称之为均匀量化。们称之
14、为均匀量化。第26页/共84页第25页/共84页26多媒体中音频信息的应用多媒体中音频信息的应用 模拟音频和数字音频模拟音频和数字音频音频的数字化音频的数字化音频信号处理的特点音频信号处理的特点2.1 数字音频基础数字音频基础第27页/共84页第26页/共84页27音频信号处理的特点音频信号处理的特点 音频信息处理音频信息处理 信号处理的角度:将声音看成是一种信号,信号处理的角度:将声音看成是一种信号,通过对信号的认识,来获取信息。通过对信号的认识,来获取信息。信息论的角度:用它的消息内容和信息来表信息论的角度:用它的消息内容和信息来表示。示。第28页/共84页第27页/共84页28音频信号处
15、理的特点音频信号处理的特点(1)音频信号是时间依赖的连续媒体音频信号是时间依赖的连续媒体 音频信号是时间依赖的连续媒体。因此音频音频信号是时间依赖的连续媒体。因此音频处理的时序性要求很高。如果在时间上有处理的时序性要求很高。如果在时间上有25ms 的的延迟,人就会感到断续。延迟,人就会感到断续。第29页/共84页第28页/共84页29音频信号处理的特点音频信号处理的特点 (2)(2)理想的合成声音应是立体声理想的合成声音应是立体声理想的合成声音应是立体声理想的合成声音应是立体声 由于人接收声音有两个通道(左耳、右由于人接收声音有两个通道(左耳、右由于人接收声音有两个通道(左耳、右由于人接收声音
16、有两个通道(左耳、右耳),因此为使计算机模拟自然声音,也应有耳),因此为使计算机模拟自然声音,也应有耳),因此为使计算机模拟自然声音,也应有耳),因此为使计算机模拟自然声音,也应有两个声道,即理想的合成声音应是立体声。同两个声道,即理想的合成声音应是立体声。同两个声道,即理想的合成声音应是立体声。同两个声道,即理想的合成声音应是立体声。同时,也应该包括位置信息(不同会场和不同角时,也应该包括位置信息(不同会场和不同角时,也应该包括位置信息(不同会场和不同角时,也应该包括位置信息(不同会场和不同角落的发的声音落的发的声音落的发的声音落的发的声音 )。真实感声音的模拟:多通。真实感声音的模拟:多通
17、。真实感声音的模拟:多通。真实感声音的模拟:多通道、幅度、位置道、幅度、位置道、幅度、位置道、幅度、位置第30页/共84页第29页/共84页30音频信号处理的特点音频信号处理的特点音频信号处理的特点音频信号处理的特点 (3)(3)对语音信号的处理,要抽取语意等其它信息对语音信号的处理,要抽取语意等其它信息对语音信号的处理,要抽取语意等其它信息对语音信号的处理,要抽取语意等其它信息 由于语音信号不仅仅是声音的载体,同时还携带了情感的意向,故对语音信号的处理,不仅是信号处由于语音信号不仅仅是声音的载体,同时还携带了情感的意向,故对语音信号的处理,不仅是信号处由于语音信号不仅仅是声音的载体,同时还携
18、带了情感的意向,故对语音信号的处理,不仅是信号处由于语音信号不仅仅是声音的载体,同时还携带了情感的意向,故对语音信号的处理,不仅是信号处理问题,还要抽取语意等其它信息。因此可能会涉及到语言学、社会学、声学理问题,还要抽取语意等其它信息。因此可能会涉及到语言学、社会学、声学理问题,还要抽取语意等其它信息。因此可能会涉及到语言学、社会学、声学理问题,还要抽取语意等其它信息。因此可能会涉及到语言学、社会学、声学等。等。等。等。第31页/共84页第30页/共84页31 从人与计算机交互的角度来看从人与计算机交互的角度来看音频信号相应的处理如下:音频信号相应的处理如下:(1 1)人与计算机通信(计算机)
19、人与计算机通信(计算机接收音频信号):接收音频信号):音频获取;语音识别与理解;音频获取;语音识别与理解;人与计算机交互人与计算机交互第32页/共84页第31页/共84页32 (2 2)计算机与人通信(计算机输出)计算机与人通信(计算机输出音频)音频)音音频频合合成成:包包括括音音乐乐合合成成和和语语音音合成;合成;声音定位:包括立体声模拟;声音定位:包括立体声模拟;音频音频/视频同步;目的是让计算机视频同步;目的是让计算机产生真实感声音。产生真实感声音。第33页/共84页第32页/共84页33(3 3)人)人计算机计算机人通信:人通信:人人通通过过网网络络,与与处处于于异异地地的的人人进进行
20、语音通信,需要的音频处理包括:行语音通信,需要的音频处理包括:语音采集、音频编码语音采集、音频编码/解码、音频解码、音频传输等。这里音频编传输等。这里音频编/解码技术是信道解码技术是信道利用率的关键。利用率的关键。第34页/共84页第33页/共84页34第二章第二章第二章第二章 音频信息处理音频信息处理音频信息处理音频信息处理2.1 数字音频基础数字音频基础2.2 音频卡的工作原理音频卡的工作原理2.3 音频编码基础和标准音频编码基础和标准2.4 音乐合成和音乐合成和MIDI2.5 语音识别语音识别第35页/共84页第34页/共84页35音频卡的功能和分类音频卡的功能和分类 根据多媒体计算机根
21、据多媒体计算机(MPC)MPC)的技术标准,声卡是多媒体的技术标准,声卡是多媒体技术中最基本的组成部分,技术中最基本的组成部分,是实现声波是实现声波/数字信号相互转数字信号相互转换的硬件电路。换的硬件电路。第36页/共84页第35页/共84页36音频卡的功能和分类音频卡的功能和分类 声卡把来自话筒、磁带、声卡把来自话筒、磁带、光盘的原始声音信号加以转换,光盘的原始声音信号加以转换,输出到耳机、扬声器、扩音机、输出到耳机、扬声器、扩音机、录音机等声响设备,或通过音录音机等声响设备,或通过音乐设备数字接口乐设备数字接口(MIDI)MIDI)使乐器使乐器发出美妙的声音。发出美妙的声音。第37页/共8
22、4页第36页/共84页37一、音频卡的功能一、音频卡的功能1 1、录制、录制(采集采集)数字声音文件数字声音文件 通过声卡及相应驱动程通过声卡及相应驱动程序的控制,采集来自话筒序的控制,采集来自话筒(麦麦克风克风)、收录机等音源的信号,、收录机等音源的信号,压缩后存放于微机系统的内压缩后存放于微机系统的内存或硬盘中。存或硬盘中。第38页/共84页第37页/共84页382 2、播放数字声音文件、播放数字声音文件 将硬盘或激光盘片压将硬盘或激光盘片压缩的数字化声音文件还原,缩的数字化声音文件还原,重建高质量的声音信号,重建高质量的声音信号,放大后通过扬声器输出。放大后通过扬声器输出。第39页/共8
23、4页第38页/共84页393 3、编辑与合成声音文件、编辑与合成声音文件 对数字化的声音文件对数字化的声音文件进行编辑加工,以达到某进行编辑加工,以达到某一特殊的效果。一特殊的效果。第40页/共84页第39页/共84页404 4、控制音源的音量、控制音源的音量 控制音源的音量,对控制音源的音量,对各种音源进行混合,即声各种音源进行混合,即声卡具有混响器的功能。卡具有混响器的功能。第41页/共84页第40页/共84页415 5、压缩和解压缩、压缩和解压缩 编码和解码。采集数据时,编码和解码。采集数据时,对数字化声音信号进行压缩,对数字化声音信号进行压缩,以便存储。播放时,对压缩的以便存储。播放时
24、,对压缩的数字化声音文件进行解压。数字化声音文件进行解压。第42页/共84页第41页/共84页426 6、文语转换(语音合成)、文语转换(语音合成)通过文语转换软件,利通过文语转换软件,利用语音合成技术,通过声卡用语音合成技术,通过声卡朗读文本信息,如读英语单朗读文本信息,如读英语单词和句子、说英语、奏音乐。词和句子、说英语、奏音乐。第43页/共84页第42页/共84页437 7、语音识别、语音识别 通过语音识别软件,通过语音识别软件,具有初步的语音识别功能,具有初步的语音识别功能,让用户用口令指挥计算机让用户用口令指挥计算机工作。工作。第44页/共84页第43页/共84页448 8、提供、提
25、供MIDIMIDI功能功能 提供提供MIDI(MIDI(乐器数字接口乐器数字接口)功功能,使计算机可以控制多台具有能,使计算机可以控制多台具有MIDIMIDI接口的电子乐器。同时,在驱接口的电子乐器。同时,在驱动程序的控制下,声卡将以动程序的控制下,声卡将以MIDIMIDI格格式存放的文件输出到相应的电子乐式存放的文件输出到相应的电子乐器中,发出相应的声音。器中,发出相应的声音。第45页/共84页第44页/共84页45二、二、音频卡的分类音频卡的分类声卡的分类声卡的分类 1 1按应用环境分类按应用环境分类 2.2.从技术角度分类从技术角度分类 3.3.根据采样和量化根据采样和量化 的位数分类的
26、位数分类第46页/共84页第45页/共84页46 3.3.根据采样和量化的位数分类根据采样和量化的位数分类 根据采样量化的位数,常用根据采样量化的位数,常用有有8 8位、位、1616位和位和3232位声卡。位声卡。位数越高,量化精度越高,质位数越高,量化精度越高,质量越好。量越好。第47页/共84页第46页/共84页47音频卡的工作原理音频卡的工作原理 采集声音信号:声卡从话采集声音信号:声卡从话筒中获取模拟声音信号,通过筒中获取模拟声音信号,通过模数转换器模数转换器(ADC)ADC),将声波振将声波振幅信号采样转换成一串数字后幅信号采样转换成一串数字后存储到计算机中。存储到计算机中。第48页
27、/共84页第47页/共84页48音频卡的工作原理音频卡的工作原理 重放声音信号:将存储到计重放声音信号:将存储到计算机中的数字信号送到数模转换算机中的数字信号送到数模转换器器(DAC)DAC),以同样的采样速率还原以同样的采样速率还原为模拟波形,待放大后送到扬声为模拟波形,待放大后送到扬声器发声,这一技术也称为脉冲编器发声,这一技术也称为脉冲编码调制技术码调制技术(PCM)PCM)。第49页/共84页第48页/共84页49第50页/共84页第49页/共84页503 3 3 3电源稳压电源稳压电源稳压电源稳压 4 4 4 4运放运放运放运放 5 5 5 5晶振晶振晶振晶振一块SB LIVE声卡D
28、ACDACDSPDSP(Digital Digital Signal Signal Processing Processing)数字信号处理数字信号处理数字信号处理数字信号处理声音混合声音混合第51页/共84页第50页/共84页51第二章第二章 音频信息处理音频信息处理2.1 数字音频基础数字音频基础2.2 音频卡的工作原理音频卡的工作原理2.3 音频编码基础和标准音频编码基础和标准2.4 音乐合成和音乐合成和MIDI2.5 语音识别语音识别第52页/共84页第51页/共84页52音频编码音频编码基础基础 音频编码的目的在于压缩数据。音频编码的目的在于压缩数据。在多媒体音频数据的存储和传输中,
29、在多媒体音频数据的存储和传输中,数据压缩是必须的。通常数据压缩造成数据压缩是必须的。通常数据压缩造成音频质量的下降、计算量的增加。因此,音频质量的下降、计算量的增加。因此,人们在实施数据压缩时,要在音频质量、人们在实施数据压缩时,要在音频质量、数据量、计算复杂度三方面进行综合考数据量、计算复杂度三方面进行综合考虑。虑。第53页/共84页第52页/共84页53 根据统计分析结果,语音根据统计分析结果,语音信号中存在多种冗余,其最主要信号中存在多种冗余,其最主要部分可以分别从时域和频域来考部分可以分别从时域和频域来考虑。另外,由于语音主要是给人虑。另外,由于语音主要是给人听的,所以也要考虑人的听觉
30、机听的,所以也要考虑人的听觉机理理 从信息保持的角度讲,只有当信源本身有从信息保持的角度讲,只有当信源本身有从信息保持的角度讲,只有当信源本身有从信息保持的角度讲,只有当信源本身有冗余时,才能对其进行压缩冗余时,才能对其进行压缩冗余时,才能对其进行压缩冗余时,才能对其进行压缩。第54页/共84页第53页/共84页54 时域信息的冗余度时域信息的冗余度 频域信息的冗余度频域信息的冗余度 人的听觉感知机理人的听觉感知机理第55页/共84页第54页/共84页55音频编码音频编码基础基础音频编码的分类音频编码的分类 基于音频数据的统计特性进行编码基于音频数据的统计特性进行编码 基于音频的声学参数进行参
31、数编码基于音频的声学参数进行参数编码 混合编码混合编码 基于人的听觉特性进行编码基于人的听觉特性进行编码 第56页/共84页第55页/共84页56 基于音频数据的统计特性基于音频数据的统计特性进行编进行编码,其典型技术是波形编码。其目标码,其典型技术是波形编码。其目标是使重建语音波形保持原波形的形状。是使重建语音波形保持原波形的形状。PCMPCM(脉冲编码调制)是最简单最基(脉冲编码调制)是最简单最基本的编码方法。本的编码方法。第57页/共84页第56页/共84页57 基于音频的声学参数基于音频的声学参数进行参数编进行参数编码,可进一步降低数据率。其目标是码,可进一步降低数据率。其目标是使重建
32、音频保持原音频的特性。常用使重建音频保持原音频的特性。常用的音频参数有共振峰、线性预测系数、的音频参数有共振峰、线性预测系数、滤波器组等。这种编码技术的优点是滤波器组等。这种编码技术的优点是数据率低,但还原信号的质量较差,数据率低,但还原信号的质量较差,自然度低自然度低。第58页/共84页第57页/共84页58 将上述两种编码算法很好地将上述两种编码算法很好地结合起来,采用结合起来,采用混合编码混合编码的方法。的方法。这样就能在较低的码率上得到较高这样就能在较低的码率上得到较高的音质。如码本激励线性预测编码的音质。如码本激励线性预测编码(CELPCELP)、多脉冲激励线性预测编)、多脉冲激励线
33、性预测编码(码(MPLPCMPLPC)等。)等。第59页/共84页第58页/共84页59 基于人的听觉特性基于人的听觉特性进行编码:进行编码:从人的听觉系统出发,利用掩蔽从人的听觉系统出发,利用掩蔽效应,设计心理声学模型,从而效应,设计心理声学模型,从而实现更高效率的数字音频的压缩。实现更高效率的数字音频的压缩。其中以其中以MPEGMPEG标准中的高频编码和标准中的高频编码和Dolby AC-3Dolby AC-3最有影响。最有影响。第60页/共84页第59页/共84页60音频编码标准音频编码标准 国际电报电话咨询委员国际电报电话咨询委员会(会(CCITTCCITT)和国际标准化组和国际标准化
34、组织(织(ISOISO)先后提出一系列有先后提出一系列有关音频编码的建议,列出了关音频编码的建议,列出了一些音频编码算法和国际标一些音频编码算法和国际标准。准。第61页/共84页第60页/共84页61第62页/共84页第61页/共84页62自适应脉冲编码调制自适应脉冲编码调制自适应脉冲编码调制自适应脉冲编码调制(ADPCM)(ADPCM)这个建议用于这个建议用于64kbps的的A律律和和律律PCM与与32kbps 的的ADPCM之间的转换。之间的转换。第63页/共84页第62页/共84页63ADPCMADPCM编编码器和解码器和解码器的框码器的框图图 第64页/共84页第63页/共84页64第
35、二章第二章 音频信息处理音频信息处理2.1 数字音频基础数字音频基础2.2 音频卡的工作原理音频卡的工作原理2.3 音频编码基础和标准音频编码基础和标准2.4 音乐合成和音乐合成和MIDI2.5 语音识别语音识别第65页/共84页第64页/共84页65音乐合成概述音乐合成概述 随着计算机的诞生,就实现了计算机奏乐,随着计算机的诞生,就实现了计算机奏乐,不过那仅仅是一个个单音,听起来单调。如何让不过那仅仅是一个个单音,听起来单调。如何让计算机输出优美的音乐呢?最简单的方法是采取计算机输出优美的音乐呢?最简单的方法是采取录音录音/重放方式。重放方式。第66页/共84页第65页/共84页66 音乐的
36、频带宽,需要提高其采样率和量化位音乐的频带宽,需要提高其采样率和量化位数,因而数据率急剧增大。如用数,因而数据率急剧增大。如用44.1K频率抽样,频率抽样,16位表示某立体声音乐,那么每秒钟的数据为位表示某立体声音乐,那么每秒钟的数据为176.4K字节。由此可见,若以此种方式存储音乐,字节。由此可见,若以此种方式存储音乐,即使计算机数据传输率允许,也只能存很短时间即使计算机数据传输率允许,也只能存很短时间的乐曲。的乐曲。第67页/共84页第66页/共84页67 是否可以采取合成方式产生音是否可以采取合成方式产生音乐呢?答案是肯定的,电子乐器的蓬乐呢?答案是肯定的,电子乐器的蓬勃发展也已经证实勃
37、发展也已经证实.自自1976年应用调频年应用调频(FM)音乐合成音乐合成技术以来,其乐音已经很逼真。技术以来,其乐音已经很逼真。1984年又开发出另一种更真实的音年又开发出另一种更真实的音乐合成技术波形表乐合成技术波形表(Wavetable)合成。目前这两种音乐合成技术都应合成。目前这两种音乐合成技术都应用于多媒体计算机的音频卡中。用于多媒体计算机的音频卡中。第68页/共84页第67页/共84页68调频音乐合成调频音乐合成 FM FM是使高频振荡波的频率按调制信号规律变化的一种调制方式。采用不同调制波频率和调制指数,是使高频振荡波的频率按调制信号规律变化的一种调制方式。采用不同调制波频率和调制
38、指数,是使高频振荡波的频率按调制信号规律变化的一种调制方式。采用不同调制波频率和调制指数,是使高频振荡波的频率按调制信号规律变化的一种调制方式。采用不同调制波频率和调制指数,就可以方便的合成具有不同频谱分布的波形,再现某些乐器的音色。我们可以采用这种方法得到具有独特就可以方便的合成具有不同频谱分布的波形,再现某些乐器的音色。我们可以采用这种方法得到具有独特就可以方便的合成具有不同频谱分布的波形,再现某些乐器的音色。我们可以采用这种方法得到具有独特就可以方便的合成具有不同频谱分布的波形,再现某些乐器的音色。我们可以采用这种方法得到具有独特效果的效果的效果的效果的“电子模拟声电子模拟声电子模拟声电
39、子模拟声”,创造出丰富多彩的声音,是真实乐器所不具备的音色,这也是,创造出丰富多彩的声音,是真实乐器所不具备的音色,这也是,创造出丰富多彩的声音,是真实乐器所不具备的音色,这也是,创造出丰富多彩的声音,是真实乐器所不具备的音色,这也是FMFM音乐合成方法特音乐合成方法特音乐合成方法特音乐合成方法特有的魅力之一。有的魅力之一。有的魅力之一。有的魅力之一。第69页/共84页第68页/共84页69调频音乐合成调频音乐合成 我们以音频卡中常用的我们以音频卡中常用的我们以音频卡中常用的我们以音频卡中常用的FMFM合成芯片合成芯片合成芯片合成芯片YM3812YM3812为例,简述怎样实为例,简述怎样实为例
40、,简述怎样实为例,简述怎样实现现现现FMFM音乐合成?如何模拟各种乐器的音色?音乐合成?如何模拟各种乐器的音色?音乐合成?如何模拟各种乐器的音色?音乐合成?如何模拟各种乐器的音色?YM3812YM3812是一种广泛使用的新型音乐合成芯片。它采用是一种广泛使用的新型音乐合成芯片。它采用是一种广泛使用的新型音乐合成芯片。它采用是一种广泛使用的新型音乐合成芯片。它采用FMFM合成方式,合成方式,合成方式,合成方式,能够在软件的控制下产生变化极为丰富的各种音色能够在软件的控制下产生变化极为丰富的各种音色能够在软件的控制下产生变化极为丰富的各种音色能够在软件的控制下产生变化极为丰富的各种音色第70页/共
41、84页第69页/共84页70vv FM FM方式产生真实音响方式产生真实音响vv 两种工作模式:两种工作模式:9 9声道同时发音声道同时发音 6 6种旋律加种旋律加5 5种节奏乐种节奏乐 vv 内置颤音振荡器内置颤音振荡器/调幅调幅(AM)(AM)振荡器振荡器 vv 可采用正弦波组合方式合成语音可采用正弦波组合方式合成语音vv 输入输入/输出为输出为TTLTTL电平电平 它的主要特点是:它的主要特点是:YM3812YM3812简介简介第71页/共84页第70页/共84页71 使用使用YM3812构成的音乐系构成的音乐系统如下图所示。统如下图所示。第72页/共84页第71页/共84页72音乐系统
42、框图音乐系统框图 由于由于由于由于YM3812YM3812输出的是数字信号输出的是数字信号输出的是数字信号输出的是数字信号,因此系统因此系统因此系统因此系统需要一数需要一数需要一数需要一数/模转换,如模转换,如模转换,如模转换,如YM3014YM3014。微机通过总线。微机通过总线。微机通过总线。微机通过总线传输必要的数据,由传输必要的数据,由传输必要的数据,由传输必要的数据,由YM3812YM3812将它们变成相应的将它们变成相应的将它们变成相应的将它们变成相应的音高、音色、响度的数字频信号,经数音高、音色、响度的数字频信号,经数音高、音色、响度的数字频信号,经数音高、音色、响度的数字频信号
43、,经数/模转换模转换模转换模转换变成模拟量,再经功率放大得到音响输出。变成模拟量,再经功率放大得到音响输出。变成模拟量,再经功率放大得到音响输出。变成模拟量,再经功率放大得到音响输出。第73页/共84页第72页/共84页73MIDI MIDI是音乐与计算机结合的产物。是音乐与计算机结合的产物。MIDI(Musical Instrument Digital Interface)是乐器数字接口的缩写,是乐器数字接口的缩写,泛指数字音乐的国际标准,初始建于泛指数字音乐的国际标准,初始建于1982年。利用年。利用MIDI文件演奏音乐,文件演奏音乐,所需的存储量最少。如演奏所需的存储量最少。如演奏2分钟
44、乐分钟乐曲的曲的MIDI文件只需不到文件只需不到8K的存储的存储空间。空间。空间。空间。第74页/共84页第73页/共84页74 MIDI MIDI标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。它还指定标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。它还指定标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。它还指定标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。它还指定从一个装置传送数据到另一个装置的通信协议。这样,任何电子乐器,只要有处从一个装置传送数据到另一个装置的通信协议。这样,任何电子乐器,只要有处从一个装置传送数据到另一个装置的通信协议。这样,任何电子乐器,只
45、要有处从一个装置传送数据到另一个装置的通信协议。这样,任何电子乐器,只要有处理理理理MIDIMIDI信息的处理器和适当的硬件接口都能变成信息的处理器和适当的硬件接口都能变成信息的处理器和适当的硬件接口都能变成信息的处理器和适当的硬件接口都能变成MIDIMIDI装置。装置。装置。装置。MIDIMIDI间靠这个接间靠这个接间靠这个接间靠这个接口传递消息口传递消息口传递消息口传递消息(massage)(massage)而进行彼此通信。实际上消息是乐谱而进行彼此通信。实际上消息是乐谱而进行彼此通信。实际上消息是乐谱而进行彼此通信。实际上消息是乐谱(score)(score)的数字描述。的数字描述。的数
46、字描述。的数字描述。第75页/共84页第74页/共84页75 乐谱由音符序列、定时和称作合成音色乐谱由音符序列、定时和称作合成音色(patches)的乐器定义所组成。当一组的乐器定义所组成。当一组MIDI消消息通过音乐合成芯片演奏时,合成器解释这息通过音乐合成芯片演奏时,合成器解释这些符号,并产生音乐。些符号,并产生音乐。第76页/共84页第75页/共84页76第二章第二章 音频信息处理音频信息处理2.1 数字音频基础数字音频基础2.2 音频卡的工作原理音频卡的工作原理2.3 音频编码基础和标准音频编码基础和标准2.4 音乐合成和音乐合成和MIDI2.5 语音识别语音识别第77页/共84页第7
47、6页/共84页77 语语音音识识别别的的研研究究领领域域比比较较广广,归归纳起来,一般有以下四个方面:纳起来,一般有以下四个方面:按可识别的词汇量多少按可识别的词汇量多少 按照语音的输入方式按照语音的输入方式按发音人的种类(可分为特定人、按发音人的种类(可分为特定人、限定人和非特定人语音识别三种)限定人和非特定人语音识别三种)对说话人的声文进行识别对说话人的声文进行识别语音识别系统的分类语音识别系统的分类第78页/共84页第77页/共84页78按可识别的词汇量多少按可识别的词汇量多少 语语音音识识别别系系统统可可分分为为小小、中中、大大词词汇汇量量三三种种。一一般般来来说说,能能识识别别词词汇
48、汇小小于于100的的,称称为为小小词词表表语语言言识识别别;大大于于100的的称称为为中中词词表表语语音音识识别别;大大于于1000的的称称为为大大词词表表语语音音识识别。词表越大,困难越多。别。词表越大,困难越多。语音识别系统的分类语音识别系统的分类第79页/共84页第78页/共84页79 按照语音的输入方式按照语音的输入方式 语音识别的研究集中于对语音识别的研究集中于对 孤立词孤立词 连接词连接词 连续语音连续语音的识别。的识别。第80页/共84页第79页/共84页80 按发音人可分为特定人、限定人和非特定人语音识按发音人可分为特定人、限定人和非特定人语音识按发音人可分为特定人、限定人和非
49、特定人语音识按发音人可分为特定人、限定人和非特定人语音识别三种别三种别三种别三种 对于特定人进行语音识别的系统,使对于特定人进行语音识别的系统,使对于特定人进行语音识别的系统,使对于特定人进行语音识别的系统,使用前需由特定人对系统进行训练。用前需由特定人对系统进行训练。用前需由特定人对系统进行训练。用前需由特定人对系统进行训练。如果需要限定的几个人使用同一系统,如果需要限定的几个人使用同一系统,如果需要限定的几个人使用同一系统,如果需要限定的几个人使用同一系统,则可以研制成限定人识别系统。则可以研制成限定人识别系统。则可以研制成限定人识别系统。则可以研制成限定人识别系统。如果一个系统不必经使用
50、者训练就可如果一个系统不必经使用者训练就可如果一个系统不必经使用者训练就可如果一个系统不必经使用者训练就可以识别各种发音者的语音,则称为非特定人以识别各种发音者的语音,则称为非特定人以识别各种发音者的语音,则称为非特定人以识别各种发音者的语音,则称为非特定人语言识别。语言识别。语言识别。语言识别。第81页/共84页第80页/共84页81 对说话人的声文进行识别对说话人的声文进行识别 这这是是研研究究如如何何根根据据语语音音来来辨辨别别说说话话人人的的身身份份、确确定定说说话话人人的的姓姓名名。第82页/共84页第81页/共84页82语音识别研究的难点语音识别研究的难点 语音识别的目的是抽取语音