第3章 数字音频处理技术PPT讲稿.ppt

上传人:石*** 文档编号:43543105 上传时间:2022-09-17 格式:PPT 页数:42 大小:3.93MB
返回 下载 相关 举报
第3章 数字音频处理技术PPT讲稿.ppt_第1页
第1页 / 共42页
第3章 数字音频处理技术PPT讲稿.ppt_第2页
第2页 / 共42页
点击查看更多>>
资源描述

《第3章 数字音频处理技术PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第3章 数字音频处理技术PPT讲稿.ppt(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第第3章章 数字音数字音频处理技理技术第1页,共42页,编辑于2022年,星期一v音频携带的信息量大、精细、准确。音频携带的信息量大、精细、准确。v以一个汉字的表示为例:以一个汉字的表示为例:表示方式表示方式数据量数据量信息信息汉字内码汉字内码2 2 字节字节汉字名称汉字名称点阵点阵32 32 几百字节几百字节带有字型、字体特征的汉字带有字型、字体特征的汉字声音声音几千字节几千字节汉字名称、声学特性、意向或情感汉字名称、声学特性、意向或情感第2页,共42页,编辑于2022年,星期一3.1 音频基础v声音是由物体振动产生的。声音是通过一定介质声音是由物体振动产生的。声音是通过一定介质传播的连续的

2、波,叫声波。传播的连续的波,叫声波。v声音的强弱(声音的强弱(音强音强)体现在声波压力的大小上)体现在声波压力的大小上(振幅振幅)。)。v音调音调的高低体现在声音的的高低体现在声音的频率频率上。上。v音色音色指声音的感觉特性,与声音波形相关。指声音的感觉特性,与声音波形相关。第3页,共42页,编辑于2022年,星期一2.1.1 声音的基本概念v声音的声音的3 3个重要指标:振幅(个重要指标:振幅(amplitudeamplitude)、周期、频率()、周期、频率(raterate)。)。v纯音:振幅和周期均为常数的声音。纯音:振幅和周期均为常数的声音。v复音:具有不同频率和不同振幅的混合声音。

3、复音:具有不同频率和不同振幅的混合声音。自然界中大部分的声音是复合信号。自然界中大部分的声音是复合信号。复合信号中某单一频率的信号称为分量信号。复合信号中某单一频率的信号称为分量信号。复音中最低频率的信号是基音,其他频率的声音称为谐音(泛音)。复音中最低频率的信号是基音,其他频率的声音称为谐音(泛音)。振幅:音量的大小振幅:音量的大小周期:重复出现的时间间隔周期:重复出现的时间间隔频率:指信号每秒钟变化的次数频率:指信号每秒钟变化的次数第4页,共42页,编辑于2022年,星期一v研究结果表明人类听力的大致范围在研究结果表明人类听力的大致范围在20Hz20K Hz20Hz20K Hz。v声音按频

4、率可分为:声音按频率可分为:人们把频率小于人们把频率小于20Hz20Hz的信号称为的信号称为亚音信号亚音信号,或称为次音信号,或称为次音信号(subsonicsubsonic););频率范围为频率范围为20 Hz20K Hz20 Hz20K Hz的信号称为的信号称为音频音频(audioaudio)信号;)信号;高于高于20 KHz20 KHz的信号称为的信号称为超音频信号超音频信号,或称超声波(,或称超声波(ultrasonicultrasonic)信号。信号。人的发音器官发出的声音的频率大约是人的发音器官发出的声音的频率大约是803400Hz803400Hz,但人说话的信号,但人说话的信号频

5、率通常为频率通常为3003000 Hz3003000 Hz,人们把这种频率范围的信号称为,人们把这种频率范围的信号称为话音或话音或语音语音(speechspeech)信号。)信号。第5页,共42页,编辑于2022年,星期一v带宽:带宽:声音信号的一个重要参数就是带宽,它用来描述组成复合信号声音信号的一个重要参数就是带宽,它用来描述组成复合信号的频率范围。如高保真声音(的频率范围。如高保真声音(high-fidelity audiohigh-fidelity audio)的频率范)的频率范围为围为10 Hz20K Hz10 Hz20K Hz,它的带宽约为,它的带宽约为20K Hz20K Hz。一

6、般而言,声源的频带越宽,表现力越好,层次越丰富。一般而言,声源的频带越宽,表现力越好,层次越丰富。声音质量的频率范围:声音质量的频率范围:10 20 50 200 3.4k 7k 15k 20kCD-DAFM广播广播AM广播广播电话电话f(Hz)频带频带第6页,共42页,编辑于2022年,星期一3.2 声音的数字化1 1模拟信号与数字信号模拟信号与数字信号 v话音信号是典型的连续信号,不仅在话音信号是典型的连续信号,不仅在时间时间上是连上是连续的,而且在续的,而且在幅度幅度上也是连续的。我们把在时间上也是连续的。我们把在时间和幅度上都是连续的信号称为模拟信号。和幅度上都是连续的信号称为模拟信号

7、。v我们把时间和幅度都用离散的数字表示的信号就我们把时间和幅度都用离散的数字表示的信号就称为是数字信号。称为是数字信号。v把模拟声音信号转变为数字声音信号的过程称为把模拟声音信号转变为数字声音信号的过程称为声音的数字化,它是通过对声音信号进行采样、声音的数字化,它是通过对声音信号进行采样、量化和编码实现的。量化和编码实现的。第7页,共42页,编辑于2022年,星期一 2.2.声音数字化过程声音数字化过程采样采样量化量化编码编码模拟信号模拟信号数字信号数字信号模拟信号模拟信号数字信号数字信号A/DD/A第8页,共42页,编辑于2022年,星期一 连续的模拟声音信号连续的模拟声音信号声音信号的采样

8、声音信号的采样离散的音频信号离散的音频信号第9页,共42页,编辑于2022年,星期一v每隔一个时间间隔在摸拟声音波形上取一每隔一个时间间隔在摸拟声音波形上取一个幅度值,这称之为个幅度值,这称之为采样采样(samplingsampling)。)。该时间间隔称为采样周期该时间间隔称为采样周期(其倒数称为采样频率其倒数称为采样频率)。v把某一幅度范围内的电压用一个数字表示,把某一幅度范围内的电压用一个数字表示,这称之为这称之为量化量化。v把量化后的值写成有利于计算机传输和存把量化后的值写成有利于计算机传输和存储的数据格式,这称之为储的数据格式,这称之为编码编码。第10页,共42页,编辑于2022年,

9、星期一例如,模拟电压幅度、量化和编码的关系电压电压范范围围(V)量化量化编码编码0.50.730110.30.520100.10.31001-0.10.10000-0.3-0.1-1111-0.5-0.3-2110-0.7-0.5-3101-0.9-0.7-4100第11页,共42页,编辑于2022年,星期一3.影响声音数字化质量的主要因素v 采样频率:也就是每秒钟需要采集多少个采样频率:也就是每秒钟需要采集多少个声音样本声音样本v量化位数:每个声音样本的位数应该是多量化位数:每个声音样本的位数应该是多少,也叫量化精度少,也叫量化精度v声道数:指所使用的声音通道的个数声道数:指所使用的声音通道

10、的个数 第12页,共42页,编辑于2022年,星期一(1)采样频率v采样频率决定了声音的保真度采样频率决定了声音的保真度 。频率以。频率以kHzkHz(千赫兹)去衡量。(千赫兹)去衡量。可以想象,采样频率越高声音的保真度就越好。可以想象,采样频率越高声音的保真度就越好。但是问题在于如果我们采样频率过高,则需要存但是问题在于如果我们采样频率过高,则需要存储的数据量就过大了。储的数据量就过大了。如何能既保证数据的无损恢复,而数据量又不要如何能既保证数据的无损恢复,而数据量又不要太大呢?太大呢?v抽样要满足抽样要满足采样定理采样定理(奈魁斯特定理)(奈魁斯特定理)采样定理用通俗话来说,就是采样定理用

11、通俗话来说,就是采样的频率要大于采样的频率要大于或等于被采样对象最高频率的两倍或等于被采样对象最高频率的两倍 。第13页,共42页,编辑于2022年,星期一v常用的音频采样频率有:常用的音频采样频率有:8kHz8kHz,11.025kHz11.025kHz,22.05kHz22.05kHz,16kHz16kHz,37.8 kHz37.8 kHz,44.1 kHz44.1 kHz,48 kHz48 kHz。其中其中8kHz 8kHz,11.025 kHz11.025 kHz,22.05 kHz22.05 kHz,44.1 kHz44.1 kHz是音频工业标准采样频率,多数声卡都支持。市是音频工业

12、标准采样频率,多数声卡都支持。市场上的非专业声卡的最高采样率为场上的非专业声卡的最高采样率为48kHz48kHz,专业,专业声卡可高达声卡可高达96kHz96kHz或以上。或以上。v为什么将为什么将CDCD音质的采样频率定为音质的采样频率定为44.1kHz44.1kHz?第14页,共42页,编辑于2022年,星期一(2)量化位数v量化的过程如下:先将整个幅度划分成为量化的过程如下:先将整个幅度划分成为有限个小幅度有限个小幅度(量化阶距量化阶距)的集合,把落入某个阶距内的样值归为一类,的集合,把落入某个阶距内的样值归为一类,并赋予相同的量化值。并赋予相同的量化值。v样本大小是用每个声音样本的样本

13、大小是用每个声音样本的位数位数表示的表示的.它反映度量声它反映度量声音波形幅度的精度音波形幅度的精度.v用用B B位二进制码字可以表示位二进制码字可以表示2 2B B个不同的量化电平(级别)个不同的量化电平(级别)。例如:例如:8 8位的声音从最低到最高有位的声音从最低到最高有2 28 8,即,即256256个级别,个级别,1616位声音位声音有有2 21616,即,即6553665536个级别。位数越多,音质越细腻,但数据量也越个级别。位数越多,音质越细腻,但数据量也越大。大。v量化位数主要有量化位数主要有8 8位和位和1616位两种。专业级别使用位两种。专业级别使用2424位甚位甚至至32

14、32位。位。第15页,共42页,编辑于2022年,星期一v量化的方法可以归纳为两类:一类称为量化的方法可以归纳为两类:一类称为均均匀量化匀量化,另一类称为,另一类称为非均匀量化非均匀量化。第16页,共42页,编辑于2022年,星期一均匀量化v采用相等的量化间隔对采用相等的量化间隔对采样得到的信号做量化采样得到的信号做量化就是均匀量化。就是均匀量化。分析:分析:l如果出现大的幅度信号如果出现大的幅度信号,同时又同时又要满足精度要求要满足精度要求,就需要增加样本就需要增加样本的位数的位数.l但是对话音信号来说但是对话音信号来说,大信号大信号出现的机会并不多出现的机会并不多,增加样本位增加样本位数就

15、没有充分得利用数就没有充分得利用,x1 x2 x3 x4 x5 x6 x7第17页,共42页,编辑于2022年,星期一非均匀量化v非线性量化的基本想法是非线性量化的基本想法是对输入信号进行量化时,大的输入信号采用大对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,的量化间隔,小的输入信号采用小的量化间隔,这样就可以在满足精度要求的情况下用较少的这样就可以在满足精度要求的情况下用较少的位数来表示。位数来表示。声音数据还原时,采用相同的规则。声音数据还原时,采用相同的规则。第18页,共42页,编辑于2022年,星期一根据语音信号非根据语音信号非均匀分布的特点,均匀分

16、布的特点,设法让量化阶距设法让量化阶距随信号概率密度随信号概率密度的减小而增大,的减小而增大,或者说把大的量或者说把大的量化误差留给出现化误差留给出现概率小的样值,概率小的样值,而得到较大的信而得到较大的信噪比。噪比。第19页,共42页,编辑于2022年,星期一(3)声道数v声道数是指所使用的声音通道的个数。它声道数是指所使用的声音通道的个数。它表明声音记录只产生一个波形(单声道)表明声音记录只产生一个波形(单声道)还是多个波形(立体声)。还是多个波形(立体声)。v双声道立体声听起来要比单音丰满优美,双声道立体声听起来要比单音丰满优美,但需要两倍于单音的存储空间。但需要两倍于单音的存储空间。第

17、20页,共42页,编辑于2022年,星期一v存储数字音频信号的存储数字音频信号的数据率数据率=采样频率(采样频率(HzHz)*量化位数量化位数(b)(b)8*8*声道数声道数 (B/sB/s)v音频信息文件所需存储空间为:音频信息文件所需存储空间为:存储容量存储容量=采样频率采样频率*量化位数量化位数8*8*声道数声道数*时间时间 (B B)第21页,共42页,编辑于2022年,星期一关于声道的补充知识 v双声道立体声双声道立体声v杜比杜比AC-3AC-3音频和音频和5.15.1声道声道第22页,共42页,编辑于2022年,星期一5个全频带声道:左、中、右、左环绕、右环绕个全频带声道:左、中、

18、右、左环绕、右环绕0.1声道:低于声道:低于120Hz的超重低音声道。的超重低音声道。第23页,共42页,编辑于2022年,星期一3.3 声音文件的存储格式PCMPCM格式:格式:PCMPCM数据序列。数据序列。是指模拟的音频信号,经模数转换直接形成的二进制序列。该文件是指模拟的音频信号,经模数转换直接形成的二进制序列。该文件没有附加的文件头或文件结束标志。没有附加的文件头或文件结束标志。WAVWAV:由由MicrosoftMicrosoft公司推出的波形音频文件格式,波形音频公司推出的波形音频文件格式,波形音频(Waveform(Waveform Audio)Audio)。是通过对一段模拟声

19、波进行。是通过对一段模拟声波进行采样、量化采样、量化得到一系列量化的数字得到一系列量化的数字值,再对这些离散的波形数据加以值,再对这些离散的波形数据加以编码编码存储,从而形成数字化的音频存储,从而形成数字化的音频信号数据。信号数据。WAVWAV文件是一种通用的音频数据文件。这种文件的特点是易于生成和编文件是一种通用的音频数据文件。这种文件的特点是易于生成和编辑,但是在保证一定音质的前提下压缩比不够,其文件所占存储空间都辑,但是在保证一定音质的前提下压缩比不够,其文件所占存储空间都很大。很大。支持存储各种采样频率和样本精度的声音数据,并支持存储各种采样频率和样本精度的声音数据,并支持声音数据的压

20、支持声音数据的压缩缩。波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块。波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块是是Format Chunk(Format Chunk(格式块格式块)和和Sound Data Chunk(Sound Data Chunk(声音数据块声音数据块)。格式块包含有描述。格式块包含有描述波形的重要参数,例如采样频率和样本精度等,声音数据块则包含有实际的波形波形的重要参数,例如采样频率和样本精度等,声音数据块则包含有实际的波形声音数据。声音数据。第24页,共42页,编辑于2022年,星期一第25页,共42页,编辑于2022年,星

21、期一音频文件格式 VOCVOC:CreativeCreative公司的声霸卡公司的声霸卡(Sound Blaster)(Sound Blaster)使用的波形音频使用的波形音频文件格式。文件格式。MIDMID:WindowsWindows的的MIDIMIDI文件(文件(MIDI AudioMIDI Audio)存储格式。)存储格式。MP3MP3:MP3 MP3压缩格式文件。压缩格式文件。MP3MP3的全称实际上是的全称实际上是MPEG1 Audio Layer-3 MPEG1 Audio Layer-3 MP4MP4:基于:基于MPEG-2 AACMPEG-2 AAC技术的文件压缩格式。技术的

22、文件压缩格式。CDCD格式:格式:cdacda文件,大小为文件,大小为4444字节,只是一个索引信息,并不包字节,只是一个索引信息,并不包含真正的声音信息。含真正的声音信息。AifAif、sndsnd:AppleApple计算机上的声音文件存储格式。计算机上的声音文件存储格式。RARA、RMRM:RealReal公司开发的主要适用于网络上实时数字音频流技术公司开发的主要适用于网络上实时数字音频流技术的文件格式。的文件格式。ASFASF、ASXASX、WMAWMA、WAXWAX :微软公司针对:微软公司针对RealReal公司开发的新一代网上公司开发的新一代网上流式数字音频压缩技术。流式数字音频

23、压缩技术。第26页,共42页,编辑于2022年,星期一3.4 声卡与音箱 v声卡是处理各种类型数字化声音信息的硬声卡是处理各种类型数字化声音信息的硬件。件。声卡的主要功能包括:声卡的主要功能包括:录制、编辑和回放数字音频文件录制、编辑和回放数字音频文件控制和混合各声源的音量控制和混合各声源的音量记录和回放时进行压缩和解压缩记录和回放时进行压缩和解压缩实时、动态地处理数字化声音信号实时、动态地处理数字化声音信号通过语音合成技术使计算机朗读文本,通过采用语通过语音合成技术使计算机朗读文本,通过采用语音识别功能,让用户通过说话指挥计算机等。音识别功能,让用户通过说话指挥计算机等。具有具有MIDIMI

24、DI接口、光盘驱动器接口和游戏杆端口接口、光盘驱动器接口和游戏杆端口 第27页,共42页,编辑于2022年,星期一声卡的接口声卡的接口第28页,共42页,编辑于2022年,星期一3.5 MIDI与音乐合成MIDIMIDI简介简介vMIDI是Musical Instrument Digital Interface的首写字母组合词,可译成“电子乐器数字接口”。用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始,MIDI已经逐步被音乐家和作曲家广泛接受和使用。vMIDI是乐器和计算

25、机使用的标准语言,是一套指令是一套指令(即命令的约即命令的约定定),它指示乐器即,它指示乐器即MIDIMIDI设备要做什么,怎么做,如演奏音设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。符、加大音量、生成音响效果等。MIDIMIDI不是声音信号,在不是声音信号,在MIDIMIDI电缆上传送的不是声音,而是发给电缆上传送的不是声音,而是发给MIDIMIDI设备或其它装置设备或其它装置让它产生声音或执行某个动作的让它产生声音或执行某个动作的指令指令。第29页,共42页,编辑于2022年,星期一vMIDIMIDI主要包括以下两个部分:主要包括以下两个部分:MIDIMIDI硬件规范硬件规

26、范:硬件接口标准和信号传输机:硬件接口标准和信号传输机制制(I/O(I/O通道、连接电缆和插座形式通道、连接电缆和插座形式)。MIDIMIDI软件规范软件规范:音乐信息数字化编码方式:音乐信息数字化编码方式(音音符、音符长短、音调和音量等符、音符长短、音调和音量等)。第30页,共42页,编辑于2022年,星期一特点vMIDIMIDI标准之所以受到欢迎,主要是它有下列几个优点:标准之所以受到欢迎,主要是它有下列几个优点:生成的文件比较小,因为生成的文件比较小,因为MIDIMIDI文件存储的是命令,而不是声音文件存储的是命令,而不是声音波形;波形;容易编辑,因为编辑命令比编辑声音波形要容易得多;容

27、易编辑,因为编辑命令比编辑声音波形要容易得多;可以作背景音乐,因为可以作背景音乐,因为MIDIMIDI音乐可以和其它的媒体,如数字电音乐可以和其它的媒体,如数字电视、图形、动画、话音等一起播放,这样可以加强演示效果视、图形、动画、话音等一起播放,这样可以加强演示效果 v 注意:由于注意:由于MIDIMIDI文件记录的是电子乐器的文件记录的是电子乐器的“乐谱乐谱”指令,故它只能重现打击乐或一些电子乐器的声音。指令,故它只能重现打击乐或一些电子乐器的声音。第31页,共42页,编辑于2022年,星期一MIDI音乐合成器v产生产生MIDIMIDI乐音的方法主要有两种,一种是频率调制乐音的方法主要有两种

28、,一种是频率调制(FM)(FM)合成法,另一种是乐音样本合成法,也称为波形合成法,另一种是乐音样本合成法,也称为波形表表(WaveTable)(WaveTable)合成法。合成法。FMFM合成法是通过硬件产生波形信号,再经过处理产生音乐。合成法是通过硬件产生波形信号,再经过处理产生音乐。乐音样本合成法是在乐音样本合成法是在ROMROM中预先存储着各种实际乐器的声音采样,中预先存储着各种实际乐器的声音采样,合成时以查表方式调用这种实际乐器的声音采样,合成该乐器的合成时以查表方式调用这种实际乐器的声音采样,合成该乐器的乐音。乐音。波形表合成法又分为硬波形表,软波形表。硬波形表的音色库存放在声卡的波

29、形表合成法又分为硬波形表,软波形表。硬波形表的音色库存放在声卡的ROMROM中,而软波形表的音色库则以文件的形式存放在硬盘里,需要时再通过中,而软波形表的音色库则以文件的形式存放在硬盘里,需要时再通过CPUCPU调用。调用。利用波形表方式合成音乐的效果更加逼真,它的效果优于利用波形表方式合成音乐的效果更加逼真,它的效果优于FMFM方方式合成的效果。式合成的效果。第32页,共42页,编辑于2022年,星期一3.6 音频处理技术的应用v随着多媒体信息处理技术的发展,计算机随着多媒体信息处理技术的发展,计算机数据处理能力的增强,音频处理技术受到数据处理能力的增强,音频处理技术受到重视,并得到了广泛的

30、应用。如:重视,并得到了广泛的应用。如:(1 1)视频图像的配音、配乐;静态图像的解)视频图像的配音、配乐;静态图像的解说、背景音乐;说、背景音乐;(2 2)可视电话、电视会议中的话音;游戏中)可视电话、电视会议中的话音;游戏中的音响效果;虚拟现实中的声音模拟;的音响效果;虚拟现实中的声音模拟;(3 3)Internet Internet 电话电话(IP phone)(IP phone)第33页,共42页,编辑于2022年,星期一(4 4)声音欺骗系统与声纹识别声音欺骗系统与声纹识别 v声音欺骗:声音欺骗:比如:在军事上,截获敌人的无线电信号,改变内容把信号比如:在军事上,截获敌人的无线电信号

31、,改变内容把信号重新传送出去。重新传送出去。声音伪造装置可以将截获的信号分割成声音伪造装置可以将截获的信号分割成0.250.25秒的片断,进行重新组合,从而秒的片断,进行重新组合,从而得出带有欺骗性的新信息,而不改变敌军讲话人的声音。得出带有欺骗性的新信息,而不改变敌军讲话人的声音。进一步研究的装置能够把敌军话务员的声音分为几十个进一步研究的装置能够把敌军话务员的声音分为几十个音素音素,将这些音素转换,将这些音素转换成成参考模板参考模板,储存在数据库里。情报技师可用自己的声音讲话,并触发相应敌军,储存在数据库里。情报技师可用自己的声音讲话,并触发相应敌军话务员的音素参考模板,无线电播出的声音听

32、起来,就会和敌军话务员一模一样。话务员的音素参考模板,无线电播出的声音听起来,就会和敌军话务员一模一样。声音欺骗系统需要高超的声音分析技术和语音合成技术。声音欺骗系统需要高超的声音分析技术和语音合成技术。v声纹识别可以用来破案。声纹识别可以用来破案。第34页,共42页,编辑于2022年,星期一(5 5)现代现代“芝麻开门芝麻开门”系统系统(6 6)Internet Internet上的实时音频上的实时音频(7 7)语音识别)语音识别 (8 8)计算机言语输出)计算机言语输出(9 9)虚拟主持人)虚拟主持人 第35页,共42页,编辑于2022年,星期一v语音识别:语音识别:语音识别是将人发出的声

33、音、字或短语转换成语音识别是将人发出的声音、字或短语转换成文字、符号,或给出响应,如执行控制、做出文字、符号,或给出响应,如执行控制、做出回答。回答。语音识别技术应用于需要以语音作为人机交互语音识别技术应用于需要以语音作为人机交互手段的场合,主要是实现听写和命令控制功能。手段的场合,主要是实现听写和命令控制功能。如:语音识别软件如:语音识别软件 IBM ViaVoice IBM ViaVoice 第36页,共42页,编辑于2022年,星期一v计算机言语输出计算机言语输出计算机言语输出所要研究和解决的问题,就是计算机言语输出所要研究和解决的问题,就是如何利用计算机输出流利的自然语言,使计算如何利

34、用计算机输出流利的自然语言,使计算机具备说话的能力。机具备说话的能力。一般来讲,实现计算机语音输出有两种方法:一般来讲,实现计算机语音输出有两种方法:一是录音一是录音/重放重放,二是文二是文-语转换语转换(TTSText to Speech)(TTSText to Speech)。文文-语转换是语音合成技术的延伸,它能把计算机内的文语转换是语音合成技术的延伸,它能把计算机内的文体转换成连续自然的语声流。若采用这种方法输出语音,体转换成连续自然的语声流。若采用这种方法输出语音,应预先建立语音参数数据库、发音规则库等。需要输出语应预先建立语音参数数据库、发音规则库等。需要输出语音时,系统按需求先合

35、成语音单元,再按语音学规则或语音时,系统按需求先合成语音单元,再按语音学规则或语言学规则,连接成自然的语流。言学规则,连接成自然的语流。如:文如:文-语转换软件语转换软件 Panopreter Panopreter第37页,共42页,编辑于2022年,星期一v虚拟主持人虚拟主持人英国设计出的世界上首位虚拟主持人、播音员安英国设计出的世界上首位虚拟主持人、播音员安娜诺娃娜诺娃ANANOVAANANOVA。虚拟新闻主播安娜诺娃虚拟新闻主播安娜诺娃20002000年年4 4月首次上网。月首次上网。第38页,共42页,编辑于2022年,星期一v紧接着,安娜诺娃也迅速被借鉴。世界各国的网站上都出现了虚拟

36、主持紧接着,安娜诺娃也迅速被借鉴。世界各国的网站上都出现了虚拟主持人。人。v其实,虚拟主持人背后是一套运行速度极高的电脑系统,能够全其实,虚拟主持人背后是一套运行速度极高的电脑系统,能够全日不断地更新新闻资讯,把文字迅速转变成声音,从她日不断地更新新闻资讯,把文字迅速转变成声音,从她“口口”中中读出来,并配合脸部表情。电脑又即时制作动画配合有关新闻,读出来,并配合脸部表情。电脑又即时制作动画配合有关新闻,然后利用最新的立体影象科技,在网上播出。然后利用最新的立体影象科技,在网上播出。v中国的第一位虚拟电视节目主持人中国的第一位虚拟电视节目主持人-小龙,在小龙,在20042004年年1111月在月在CCTV-6CCTV-6中亮相。中亮相。第39页,共42页,编辑于2022年,星期一3.7 声音工具vWindows Windows 自带的录音机自带的录音机 第40页,共42页,编辑于2022年,星期一vCoolEditCoolEditvAdobeAuditionAdobeAuditionvGoldWaveGoldWave第41页,共42页,编辑于2022年,星期一v作业:作业:vP82 1P82 1、2 2第42页,共42页,编辑于2022年,星期一

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁