《六章声音基本概念.ppt》由会员分享,可在线阅读,更多相关《六章声音基本概念.ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Slide 0六章声音基本概念 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望一、声音的数字化Slide 2什么是声音?frequency(Hz)音调,音高(12音阶)amplitude/power(W,mW)音量,响度(Phon,方)shape of waveform 音色注意:物理特性与心理/生理感觉有关,但并不是线性关系!物理特性 心理/生理感觉特性声音是通过一定介质(如空气、水等)传播的连续的波Slide 3纯音与复音Slide 4声音的分类(1)按频率划
2、分:次声(Infra-sound)0-20Hz可听声 (Audio)20-20kHz超声 (Ultrasound)20kHZ-1GHz可听声中,声音分为:语音,言语(speech)300-3400Hz全频带声音 20-20kHz 音乐 (music)其它声音 (effect sound,noise)Slide 5声音的分类(2)数字波形声音语音音乐效果声数字合成声音合成语音MIDISlide 6模拟声音信号3 声音信号的数字化量 化数字声音01100011001编 码取 样能够无失真地恢复出原始信号的最低取样频率称为Nyquist取样频率。取样定理表明:Nyquist取样频率为原始信号最高频率
3、的2倍。量化精度既决定了取样值的动态范围,也决定着所引入的噪声大小。Slide 7Nyquist取样频率Slide 8数字波形声音的基本参数sampling frequency(取样频率)quantization bits(量化位数)number of sound channels(声道数目)encoding method(compression method)(压缩编码方法)bit rate(码率,比特率),每秒钟的数据量Slide 9数字化声音举例声音声音类型类型带宽带宽(Hz)取样频率取样频率(kHz)量化位数量化位数(bits)声道声道数数码率码率(kb/s)电话3003,400881
4、64AM广播507,00011.0258188.2CD2020,00044.11621411.2DAT磁带2020,000481621536FM广播2015,00022.050162705.6Slide 10信噪比和信号量化噪声比信噪比(Signal-to-Noise Ratio SNR)信号量化噪声比(Signal-to-Quantization-Noise Ratio SQNR)Slide 11非线性量化目的:适应听觉的非线性特性;压缩数据。北美和日本等地区 (律压扩算法)当 0=|x|=1/A当 1/A|x|=1欧洲和中国大陆等地区 (A律压扩算法)Slide 12声音获取设备联机获取设
5、备麦克风(microphone)声音卡(sound card)声波转换为电波取样、量化、压缩、编码、模拟声音数字声音脱机获取设备:数码录音笔Slide 13麦克风 动圈式麦克风Moving-coil MIC(Dynamic)利用声波推动震膜,震膜带动线圈,利用磁力线的改变产生微弱的电压。例 电容式麦克风Condenser MIC 丝带式麦克风RIBBON MIC 压电式麦克风PIEZO-ELECTRONIC MICSlide 14麦克风的指向性(Directional)指向性是指话筒灵敏度随声波入射方向而变化的特性区分:心型指向指向麦克风超心型指向麦克风全指向麦克风8字型球指向麦克风Slide
6、 15声卡(sound card)用途:波形声音的获取、编码;波形声音的重建、播放;MIDI声音的输入;MIDI声音的合成、播放;(CD-ROM 驱动器的控制,CD-DA声音的播放。)Slide 16声卡的性能参数最高取样频率、量化精度;输出功率(110W);是否支持波表合成,波表的容量;芯片类型:Advance Logic,Aureal,ESS支持的API:D3D、A3D、EAXCPU占有率Money二、语音合成(Speech synthesis)Slide 18概述语音合成:利用适当的方法和手段,从文本、概念或意向通过合成产生语音的过程。对合成语音的要求:可理解、自然、低延迟、语速可变声音
7、可变语言可变应用:声讯服务,自动应答,有声电子邮件,残疾人服务,自动配音等.Slide 19语音基础知识 音素(phoneme)是语音的最小单位。音素分为:元音(vowel)(浊音),不受声道阻碍的音。辅音(consonant)(浊音或清音),受声道阻碍的音。Slide 20英语语音每字(词)一个或几个音节(syllable)(多音节字)音节由一个或几个音素组成英语的音素:元音20个辅音28个Slide 21汉语语音 每字一个音节(syllable)(单音节字)音节由一个或几个音素组成 汉语的音素l 声母(21个,b,p,m,f,d,t,n,l,)l 韵母(39个,a,e,i,o,u,ao,o
8、u,an,en,eng,ong,)l 音调(4个:阴平、阳平、上声、去声)汉语语音的数目:l 无声调的音节数目:412个l 带声调的音节数目:1282个Slide 22()音系简单(音节少、音素少)()汉语没有词的自然界限分词问题 咬死了猎人的狗 下雨天留客天留我不留 今年真好晦气全无财帛进门 熊出没注意!()一字多音:我们都是同行,我们一路同行,去参加人参培植研讨会。(4)数字的读音:南京大学计算机系2002年招收了202名本科生,130多名硕士生,分成2个专业。汉语语音的特点Slide 23文语转换过程文本分析与理解文本韵律控制语音生成合成语音一串语音基元语音基元库文本到发音的转换发音标注
9、发音规则库韵律分析韵律控制参数韵律规则库n查找拼写错误,对不规范或无法发音的字符进行过滤。n分析文本中词或短语的边界,n分析文本中的数字、姓氏、特殊字符、专有词语等有关词语读音的性质。n根据文本的结构、组成和标点符号,确定发音时语气的变换以及不同音的轻重方式。n分析并决定各个音节的声调、语气和停顿方式,发音的轻重、长短等Slide 24文语转换方法参数合成法波形拼接法Slide 25参数合成法优点:音素参数库比较小,韵律控制能力较强不足:音质难以达到较好的水平“声道滤波器”模型声学参数音素参数库发音标注合成的语音韵律标注先从音素库中选择相应的声学参数根据韵律控制参数作一定的修改调整“声道滤波器
10、”模型按照激励源和滤波器的参数(一般每隔10ms-30ms一组参数),合成出语音。Slide 26波形拼接法优点:语音基元取自自然语音的词或句子,它隐含了声调、重音、发音速度变化时的细微特性,合成的语音清晰自然,其质量普遍高于参数合成法.缺点:韵律参数修改范围受限,机器味较浓,其自然度还不能达到用户可广泛接受的程度 波形拼接与韵律修饰波形语音基元波形库发音标注合成的语音韵律标注预先存储了大量语音基元(字或词组)的波形,合成时,按字(词)读取基元的波形进行拼接和韵律修饰,然后输出连续语流Slide 27波形拼接法需考虑的问题语音基元的选择。语音基元是拼接的基本单位。它可能是音素、半音节(首音、尾
11、音)、音节、词语、语句等。基元越小,语音数据库越小,拼接越灵活,韵律修饰的规则就越复杂。语音基元的样板数。对于同一个基元,由于语境不同和重音表现不同,其声学特征有很大差别。为了减小韵律修饰的负担,可以建立多样板语音数据库。Slide 28几个TTS系统中国科大讯飞TTS系统 http:/ https:/ http:/www.bell- 29实例1.下雨天留客天留我不留 中科大 微软2.南京大学计算机系2002年招收了202名本科生,130多名硕士生,分成2个专业。中科大 微软3.我们都是同行,我们一路同行,去参加人参培植研讨会 中科大 微软4.SOHO是Small Office Home Of
12、fice的缩写,亦即“小型的、家庭的办公室”的含义。中科大 微软5.比如“很久没见了”这句话,英文正确的说法应该是“I havent seen you for a long time”,一些人凑凑合合地说成“Long time no see.”不合语法,但意思明白了。中科大 微软Slide 30进一步的发展方向 提高合成语音的自然度 丰富合成语音的表现力 多语种文语合成(multi-language TTS).文本到可视语音的转换(text-to-visual speech,TTVS),三、音乐合成与MIDI1.音乐的电子合成Slide 33什么是音乐?音乐使用乐谱描述,由乐器演奏而成的一段旋
13、律。音乐的基本单元是音符(notes),音符有如下属性:音调(distinct pitches)所有不同音调的音符128个音色(different musical instruments)音强(various volumes)持续时间(Note OnNote Off)Slide 34什么是MIDI海阔天空MIDI是乐器数字化接口(Musical Instrument Digital Interface)的缩写。所以说MIDI并不是一个实在的东西,而是一个国际通用的标准接口。通过它,各种MIDI设备都可以准确传送MIDI信息。Slide 35音乐的电子合成输入设备:为了符合人们原有的音乐习惯,人
14、们制造了各种基于传统乐器形式上的MIDI乐器,如MIDI键盘,MIDI吹管,MIDI吉它,MIDI小提琴等等,你可以按照演奏传统乐器的方式去演奏它们,然后你的演奏便通过MIDI接口被音序器接收并存储为音序内容。音序器:把一首曲子所需的音色,节奏,音符等等按照一定的序列组织好让音源发声,它实际上是记录了音乐的一般要素,拍子,音高,节奏,音符时值等。MIDI文件的本质内容实际上就是音序内容。音源:能模拟乐器生成各种不同音色音符的电子合成器。Slide 36MIDI合成器的特性 1MIDI合成器相当于一个电子乐队,它划分成16个 Channel(通道),每个通道是1个逻辑合成器,各个逻辑合成器可演奏
15、不同的乐器和不同的乐谱。每个通道的volume,pan及其它特性均可独立设置。12345678910111213141516Slide 37MIDI合成器的特性每个通道能演奏最多128种不同的乐器(称为音色)。不同乐器有不同编号(称为Program或Patch号)。每个通道一次只能演奏一种乐器,但可随时改变;但声部数可以有若干个。即,每个MIDI 通道在某一时间里可进行一种音色的独奏、齐奏或合奏。Slide 38音源的分类按照工作原理,音源可分2类:调频合成器(FM),1983PCM波形合成器,1991Slide 39数字调频(FM)音乐合成器(A,Wm,I,Wc)合成的音乐音符声学参数不同音
16、色音符的参数库乐谱(声音强度、音长)“声道滤波器”模型音素的声学参数语音音素参数库文本分析合成的语音韵律标注发音标注文本发音标注Y(t)=A*Sin(Wc*t+I*Sin(Wm*t)Slide 40波表合成器波表的制作:每种乐器的每个音符的数字化波形,选择若干周期,把它们组织成一张表(波表),存放在ROM中。低通滤波采样、量化加工处理乐器演奏波表存储器录音波表的使用:合成音乐时根据乐器类型及音符等访问ROM,取出对应的波 形数据,修饰成所要求的音强和时长,进行播放。波表存储器解码播放修饰DAC合成的音乐2.MIDI(乐器数字接口乐器数字接口)规范规范Slide 42MIDI(乐器数字接口)规范
17、 MIDI是音乐的数字表示方法,包含音符、定时、乐器指派等,也是数字电子乐器互相连接、互相通信的标准。(1983)内容包括:设备的互连与通信协议;MIDI message(MIDI消息)的规范;MIDI 文件(SMF)的格式;MIDI 时间代码(MTC),使音/视频设备与MIDI设备同步;MIDI Machine control(MMC),使录音设备与MIDI设备同步MIDI Show control(MSC);使舞台灯光设备与MIDI 设备同步。Slide 43MIDI设备的接口MIDI设备端口(5芯DIN插座,菊花链方式连接):MIDI in (MIDI合成器通过MIDI in接收 MID
18、I 消息)MIDI out (演奏控制器通过MIDI out 输出MIDI消息)MIDI thru(MIDI合成器通过MIDI thru 转发MIDI消息)MIDI inMIDI inMIDI outMIDI thru音频输出电源MIDI音源的后面板To hostSlide 44MIDI 设备的互连(MIDI演奏器)(MIDIout)(MIDI音源,MIDI合成器)MIDI演奏器(又称MIDI 发送器,MIDI键盘)MIDI接收器(MIDI音源)接收MIDI message,合成出乐曲的声音.MIDI message(MIDIin)Slide 45MIDI Message作用:描述乐曲的乐谱及
19、演奏要求,控制MIDI合成器进行演奏。分类:Channel message(状态字节8-E)Voice messagesmode messagesSystem message(状态字节F)Common messagesReal-time messagesExclusive messagesSlide 46Voice MessageSlide 47Mode MessageSlide 48System MessageSlide 49MIDI标准的发展和补充General MIDI(GM),对128种电子乐器(音色)的分类和排列作了规定,每个音色有一个序号,8个相似音效的音色编为一组,供16组。XG标准(YAMAHA),在音色数量(扩充为480种)、音色编辑、音响效果控制以及外部音频输入等4个方面对GM进行了扩充。Slide 50MIDI小结优点数据量少(比CD-DA少3个数量级)。易于制作和编辑修改。可以与波形声音同时播放。问题是MIDI控制器与合成器之间的通信协议,描述的是音符,而没有描述合成的算法。音质与硬件相关。