语音信号处理的基础知识.ppt-淘文阁

资源描述

《语音信号处理的基础知识.ppt》由会员分享，可在线阅读，更多相关《语音信号处理的基础知识.ppt（89页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第二章语音信号处理的基础知识 2.2 语音和语言 2.3 汉语语音学2.4 语音生成系统和语音感知系统 2.5 语音信号生成的数学模型2.6 语音信号的特性分析2.2 语音和语言一、语音与语言的关系二、语音的基本声学特性三、音节与音素四、英语和汉语的音节构成语音语音(Speech)=(Speech)=声音声音(Acoustic)+(Acoustic)+语言语言(Language)(Language)语音是由一连串的音组成语言的声音。语音是由一连串的音组成语言的声音。1.1.语音语音：人们讲话时发出的话语叫语音。是一种人们讲话时发出的话语叫语音。是一种声音，是人们进行信息交流的声音，是组成

2、语言的声音，是人们进行信息交流的声音，是组成语言的声音声音/带有语言信息的声音。带有语言信息的声音。一、语音与语言的关系语语音：人与人的沟通介面音：人与人的沟通介面（1）语音中各个音的排列由一些规则所控制，对这语音中各个音的排列由一些规则所控制，对这些规则及其含义的研究称为些规则及其含义的研究称为语言学语言学(linguistics)(linguistics)。（2）语音中各个音的物理特性和分类的研究称为语音中各个音的物理特性和分类的研究称为语音学语音学（phoneticsphonetics）。它考虑的是语音产生、语音。它考虑的是语音产生、语音感知等过程和各个音的特征和分类。感知等过程和各个音

3、的特征和分类。2.对对语音的研究包括两个方面语音的研究包括两个方面3.人类的说话过程分五个阶段人类的说话过程分五个阶段想说想说说出说出传送传送接收接收理解理解人类的说话交流是通过联结说话人和听话人人类的说话交流是通过联结说话人和听话人的一连串心理、生理和物理的转换过程实现的。的一连串心理、生理和物理的转换过程实现的。4.语言语言(Language)人与人之间的沟通工具，人与人之间的沟通工具，是从人们的话语中是从人们的话语中概括总结出来的规律性的符号系统。包括构成语概括总结出来的规律性的符号系统。包括构成语言的语素、词、短语和句子等的不同层次的单位，言的语素、词、短语和句子等的不同层

4、次的单位，以及词法、句法和文脉等语法和语义内容。这些以及词法、句法和文脉等语法和语义内容。这些构成语言学的研究内容。构成语言学的研究内容。Phoneme(音素音素)Word formationGrammarText(Option)5.语言学和语音信号处理的关系语言学和语音信号处理的关系语言学是语音信号处理的基础。语言学是语音信号处理的基础。例如：可以利用句法和语义信息减少语音识别例如：可以利用句法和语义信息减少语音识别中搜索匹配范围，提高正确识别率。中搜索匹配范围，提高正确识别率。6.语音学和语音信号处理的关系语音学和语音信号处理的关系语音学和语音信号处理联系更加紧密。语音学和语音信号处理

5、联系更加紧密。如：运用现代信号处理技术建立发音的数学模型，如：运用现代信号处理技术建立发音的数学模型，确定发音方法；用声学和非平稳信号分析理论来确定发音方法；用声学和非平稳信号分析理论来解释各种语音现象；语音信息的存储形式等。解释各种语音现象；语音信息的存储形式等。语音是发声器官发出的一种声波，具有一定的语音是发声器官发出的一种声波，具有一定的音色、音调和音强和音长。音色、音调和音强和音长。音色音色:又称为音质，是一种声音区别于另又称为音质，是一种声音区别于另一种声音的基本特性。一种声音的基本特性。音调：声音的高低，取决于声波的频率音调：声音的高低，取决于声波的频率音强：声音的强弱，它由声波

6、的振动幅度音强：声音的强弱，它由声波的振动幅度所决定所决定音长：发音时间的长短音长：发音时间的长短二、语音的基本声学特性句子的最小单位为单词，单词的最小单位为音节。句子的最小单位为单词，单词的最小单位为音节。音节：发音时，被明显感觉到的语音片段为音节。音节：发音时，被明显感觉到的语音片段为音节。音素：是发音的最小单位，一个音节由一个音素或音素：是发音的最小单位，一个音节由一个音素或几个音素构成。分为元音和辅音。元音是构成音节的几个音素构成。分为元音和辅音。元音是构成音节的主干，从长度和能量来看，在音节中占主要位置；辅主干，从长度和能量来看，在音节中占主要位置；辅音只是出现在音节的前端或后端

7、或前后两端，它们的音只是出现在音节的前端或后端或前后两端，它们的时长和能量较小。时长和能量较小。三、音节与音素人在说话时，空气由肺部压入，由嘴唇呼出，声人在说话时，空气由肺部压入，由嘴唇呼出，声门由此开启和闭合，构成声带振动，然后通过声道门由此开启和闭合，构成声带振动，然后通过声道（喉腔、咽腔和口腔）响应（喉腔、咽腔和口腔）响应（引起共振特性引起共振特性）变成语变成语音，由于发不同音时，声带的振动情况音，由于发不同音时，声带的振动情况（基频）（基频）和声和声道的形状不同道的形状不同（谐振频率或共振峰频率）（谐振频率或共振峰频率），所以构成，所以构成不同的声音。不同的声音。元音的一个重要的声学

8、特性元音的一个重要的声学特性基频和基频和共振峰共振峰1.元音元音语音的产生语音的产生喉的生理结构喉的生理结构喉位于气管的上端，实喉位于气管的上端，实际上是气管末端一圈软骨际上是气管末端一圈软骨构成的一个框架，前方稍构成的一个框架，前方稍高处的软骨称为甲状软骨，高处的软骨称为甲状软骨，前后方环成一圈的称为喉前后方环成一圈的称为喉部环形软骨，喉中两片肌部环形软骨，喉中两片肌肉称为声带，声带之间的肉称为声带，声带之间的空隙为声门。空隙为声门。当声带张开时，声门当声带张开时，声门打开，空气可自由呼出，打开，空气可自由呼出，正常呼吸就处于这种情况；正常呼吸就处于这种情况；当声带闭合，声门关闭。当声带

9、闭合，声门关闭。发音机理发音机理甲状软骨甲状软骨声门声门声带声带环形软骨环形软骨人的前方人的前方当说话时，声带在软骨的作用下相互靠当说话时，声带在软骨的作用下相互靠近但不完全闭合，声门变成一条窄缝，当气近但不完全闭合，声门变成一条窄缝，当气流通过窄缝时压力减小，外界压力大，从而流通过窄缝时压力减小，外界压力大，从而两片声带完全闭合使得气流不能通过，当气两片声带完全闭合使得气流不能通过，当气流阻断时压力恢复正常，推开两片声带，声流阻断时压力恢复正常，推开两片声带，声门再次打开，气流再次流过。门再次打开，气流再次流过。声带靠拢声带靠拢Tp基音周期基音周期声带的开启和闭合称声带的开启和闭合称为振

10、动。这一振动过程周为振动。这一振动过程周而复始，形成了一串周期而复始，形成了一串周期性脉冲气流送入声道。这性脉冲气流送入声道。这个过程发出的音称为浊音。个过程发出的音称为浊音。如汉语发音的如汉语发音的aa、ii、uu和和oo等。等。女声汉语拼音女声汉语拼音a的时域波形的时域波形 F0=1/Tp，基音频率，由声带的质量来决定基音频率，由声带的质量来决定。F0的大小决定了声音的高低，称为音高。的大小决定了声音的高低，称为音高。男性的男性的F0大致分布在大致分布在：60200Hz 女性和儿童的女性和儿童的F0大致分布在大致分布在：200450Hz基音频率基音频率（Fundamental Freque

11、ncy）F0 声道声道气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射，期间的传输通道称为声道。气流流过声道外辐射，期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体，放大时犹如通过了一个具有某种谐振特性的腔体，放大某些频率，在频谱上形成相应位置的峰起，称为共某些频率，在频谱上形成相应位置的峰起，称为共振峰。振峰。讲话时，由于舌和唇讲话时，由于舌和唇的连续运动，使声道形状的连续运动，使声道形状改变，随即改变谐振频率，改变，随即改变谐振频率，使得发不同的音。声道的使得发不同的音。声道的不同的形状，对应不同的不同的形状，对应不同的谐振

12、频率。谐振频率。声带振动频率声带振动频率输出气流输出气流的频率的频率声道的谐振特性声道的谐振特性鼻端鼻端嘴唇嘴唇17cm8.5cm13cm声道的无损模型声道的无损模型谐振频率的计算谐振频率的计算谐振频率发生在：谐振频率发生在：Fn=Fn=（声道的横截面是均匀的，（声道的横截面是均匀的，发元音发元音e e时，声道近似是均匀时，声道近似是均匀的。）的。）L=17cmL=17cm，声道的长度，声道的长度n=1,2,3 n=1,2,3 称为第一共振峰称为第一共振峰F1=500Hz F1=500Hz、第二共、第二共振峰振峰F2=1500Hz F2=1500Hz、第三共振峰、第三共振峰F3=2500Hz

13、F3=2500Hz，c=340m/sc=340m/s2n-14Lc女声英文女声英文a的时域波形的时域波形女声英文女声英文a的频谱的频谱一种声道形状对应一套共振峰一种声道形状对应一套共振峰不同人的声道大小不同，共振峰不同不同人的声道大小不同，共振峰不同同一人，发不同音，共振峰也不同同一人，发不同音，共振峰也不同总结总结前三个共振峰的大致范围前三个共振峰的大致范围（Hz）共振峰成年男子成年女子带宽 f1 200800 2501000 4070 f2 6002800 7003300 5090 f3 13003400 15004000 60180鼻腔的作用鼻腔的作用在软腭的帮助下，可使空

14、气经过鼻腔排除在软腭的帮助下，可使空气经过鼻腔排除人体外，由此产生的语音称为鼻音。如人体外，由此产生的语音称为鼻音。如nn、ngng为鼻音韵母，为鼻音韵母，mm、nn、ll为鼻音声母。为鼻音声母。鼻腔是一个谐振腔，由于形状固定，故其鼻腔是一个谐振腔，由于形状固定，故其共振峰频率是确定的。共振峰频率是确定的。（1 1）声带振动）声带振动（2 2）声道不发生极端的狭窄，维持稳定的形状）声道不发生极端的狭窄，维持稳定的形状（3 3）和鼻腔不发生耦合，声音只是从口腔中辐射出）和鼻腔不发生耦合，声音只是从口腔中辐射出去。去。发元音的三个条件发元音的三个条件发元音的三个条件中，缺少任何一个时，发发元音的

15、三个条件中，缺少任何一个时，发出的音就是辅音。分为塞音、鼻音、摩檫音和颤出的音就是辅音。分为塞音、鼻音、摩檫音和颤音等。音等。2.辅音辅音语音产生的另一种方式语音产生的另一种方式清音清音声门完全封闭，声道不受声门周期脉冲气流的激声门完全封闭，声道不受声门周期脉冲气流的激励，而是利用口腔内存有的空气释放出来而发声。励，而是利用口腔内存有的空气释放出来而发声。由于该气流通过一个狭窄通道时在口腔中形成湍由于该气流通过一个狭窄通道时在口腔中形成湍流，因而具有随机噪声的特点。发出的音称为清音。流，因而具有随机噪声的特点。发出的音称为清音。如声母如声母ss、shsh、hh、xx和和ff等为清音等为清音

16、。男声汉语拼音声母男声汉语拼音声母s的时域波形的时域波形男声汉语拼音声母男声汉语拼音声母s的频谱的频谱利用利用MATLABMATLAB 产生的高斯噪声产生的高斯噪声3.元音、辅音和浊音、清音的关系元音、辅音和浊音、清音的关系元音一定是浊音元音一定是浊音。辅音包括浊音和清音。辅音包括浊音和清音。四、英语和汉语的音节构成英语中：由元音和辅音（这些都是音素）构成英语中：由元音和辅音（这些都是音素）构成音节，由几个音节构成一个词。音节，由几个音节构成一个词。汉语中：汉语中由元音和辅音构成声母和韵母，汉语中：汉语中由元音和辅音构成声母和韵母，结合声调构成一个音节，一个音节就是一个字。结合声调构成一个

17、音节，一个音节就是一个字。话音的分类话音的分类浊音（浊音（voiced soundsvoiced sounds）：声道打开，声带在先打）：声道打开，声带在先打开后关闭，气流经过使声带要发生张驰振动，变为开后关闭，气流经过使声带要发生张驰振动，变为准周期振动气流。浊音的激励源被等效为准周期的准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。脉冲信号。清音（清音（unvoiced soundsunvoiced sounds）：声带不振动，而在某）：声带不振动，而在某处保持收缩，气流在声道里收缩后高速通过产生湍处保持收缩，气流在声道里收缩后高速通过产生湍流，再经过主声道（咽、口腔）的调整最终形成

18、清流，再经过主声道（咽、口腔）的调整最终形成清音。清音的激励源被等效为一种白噪声信号。音。清音的激励源被等效为一种白噪声信号。爆破音（爆破音（plosive soundsplosive sounds）：声道关闭之后产生）：声道关闭之后产生压缩空气然后突然打开声道所发出的声音。压缩空气然后突然打开声道所发出的声音。2.3 2.3 汉语语音学汉语语音学一、汉语语音的特点二、语音的拼音方法三、汉语音节的一般结构（1 1）音系简单，在汉语中一个字就是一个音节，由）音系简单，在汉语中一个字就是一个音节，由一般为一般为2 23 3个音素组成，而且具有音素少、音节少。个音素组成，而且具有音素少、音节少。英语

19、中一个单词由若干个音节组成，一般为英语中一个单词由若干个音节组成，一般为2 23 3个，个，一个音节由若干个音素组成，一般为一个音节由若干个音素组成，一般为1 14 4个。个。（2 2）清辅音多，在听感上有清亮、高扬和舒服、柔）清辅音多，在听感上有清亮、高扬和舒服、柔和的感觉。和的感觉。（3 3）有鲜明的轻重音和儿化韵，所以字词分隔清楚，）有鲜明的轻重音和儿化韵，所以字词分隔清楚，语言表达准确而丰富。语言表达准确而丰富。一、汉语语音的特点在汉语中，由音素构成声母和韵母。在汉语中，由音素构成声母和韵母。二、语音的拼音方法声母：一个音节开始的辅音，声母完全由辅音充当，声母：一个音节开始的辅音，

20、声母完全由辅音充当，但辅音不等于声母，因为辅音还可以作为韵尾放在音但辅音不等于声母，因为辅音还可以作为韵尾放在音节的末尾。节的末尾。b b、p p、m m、f f、d d、t t、n n、l l、g g、k k、h h、j j、q q、x x、zhzh、chch、shsh、z z、c c、s s、r r 韵母：在音节中占主要部分，音节中除了头上的韵母：在音节中占主要部分，音节中除了头上的声母以外的部分，由单、双元音、元音带上辅音等几声母以外的部分，由单、双元音、元音带上辅音等几种不同的形式组成。所有元音都是浊音。种不同的形式组成。所有元音都是浊音。a a、o o、e e、i i、u u、单韵母

21、（元音）单韵母（元音）ai ai、eiei、aoao、ouou、iaia、ieie、iaoiao、iouiou、uaua、uouo、uaiuai、uei uei、e e 复韵母复韵母 an an、enen、angang、engeng、ongong、ianian、inin、iangiang、inging、iongiong、uanuan、uenuen、uanguang、uengueng、an an、n n 鼻韵母鼻韵母i i表示表示3 3个韵母，即韵母、舌尖前韵母和舌尖后韵母。个韵母，即韵母、舌尖前韵母和舌尖后韵母。韵母是由单、双元音、元音带上辅音等几种韵母是由单、双元音、元音带上辅音等几种不同的

22、形式组成。不同的元音有不同的基音频率不同的形式组成。不同的元音有不同的基音频率和共振峰模式，它们是区别不同韵母的重要参数。和共振峰模式，它们是区别不同韵母的重要参数。区别不同韵母的重要参数区别不同韵母的重要参数声母、韵母和声调是汉语语音的三要素。声母、韵母和声调是汉语语音的三要素。汉语语音的汉语语音的1 1个不同于其他语言的是它具有声调个不同于其他语言的是它具有声调（音调）。声调是（音调）。声调是1 1个音节在念法上的高低升降个音节在念法上的高低升降的变化，汉语中有的变化，汉语中有4 4个声调，即阴平（）、阳个声调，即阴平（）、阳平（平（）、上声（）、上声（）、和去声（）、和去声（）。）。三

23、、汉语音节的一般结构声调的变化就是浊音基音周期的变化，声调的变化就是浊音基音周期的变化，为了将为了将调值描写地具体一些，一般采用调值描写地具体一些，一般采用“五度标记法五度标记法”，用一条竖线表示声音的高低，从上而下用用一条竖线表示声音的高低，从上而下用1、2、3、4、5依次表示低、半低、中、半高、高依次表示低、半低、中、半高、高。5 5 高高4 4 半高半高3 3 中中2 2 半低半低1 1 低低阴平阴平阳平阳平上声上声去声去声调类调类阴平阴平阳平阳平上声上声去声去声调值调值553521451 单独发声的一个音节或是语音流中的任何一单独发声的一个音节或是语音流中的任何一个音节都可能由个音

24、节都可能由7 7部分组成。部分组成。无声段无声段音节音节声母声母鼻音段鼻音段声母辅音段声母辅音段元音段元音段送气段送气段前过渡段前过渡段后过渡段后过渡段韵母韵母2.4 语音生成系统和语音感知系统一、语音发音系统二、语音听觉系统肺：能源；肺：能源；喉：振动源，包括声带和声门；喉：振动源，包括声带和声门；声道（声门到嘴唇的呼气通道）：谐振腔；声道（声门到嘴唇的呼气通道）：谐振腔；其他发音器官：包括唇、齿、舌、面颊等，其他发音器官：包括唇、齿、舌、面颊等，使谐振腔改变形状。使谐振腔改变形状。一、语音发音系统（发音器官及其作用）二、语音听觉系统（一个十分巧妙的音频信号处理器）人类接收语音由人耳来完成

25、，空气振动由耳廓人类接收语音由人耳来完成，空气振动由耳廓收集，经外耳道而抵达鼓膜，鼓膜随之振动，使鼓收集，经外耳道而抵达鼓膜，鼓膜随之振动，使鼓室中的空气和听骨链也发生振动，听骨链的振动经室中的空气和听骨链也发生振动，听骨链的振动经前庭窗（卵圆窗）激励前庭淋巴，变为液波，液波前庭窗（卵圆窗）激励前庭淋巴，变为液波，液波使位于基底膜上的螺旋器受到刺激，将神经冲动经使位于基底膜上的螺旋器受到刺激，将神经冲动经听神经传到中枢而产生听觉。听神经传到中枢而产生听觉。正常人的听觉系统是极为灵敏的，可听声的范围正常人的听觉系统是极为灵敏的，可听声的范围为为0.02Hz-20kHz0.02Hz-20kHz。可

26、听声的最小声压级可听声的最小声压级(dB)(dB)称为听阈。称为听阈。-5 130dB-5 130dB，对低频和高频是不敏感的，听阈为，对低频和高频是不敏感的，听阈为60dB60dB，在，在1kHz1kHz附近最敏感。附近最敏感。声源声源声压声压/Pa/Pa 声压级声压级/dB/dB飞机附近飞机附近200200140140织布车间织布车间2020100100地铁地铁0.630.639090繁华街道繁华街道0.0630.0637070普通谈话普通谈话0.020.026060安静房间安静房间0.0020.0024040耳语耳语0.000630.000633030树叶沙沙声树叶沙沙声0.00020

27、.00022020农村静夜农村静夜0.0000630.00006310101.耳的结构（外耳、中耳和内耳）和功能耳的结构（外耳、中耳和内耳）和功能外耳：对声源定位和对声音放大的作用，由耳廓和外耳：对声源定位和对声音放大的作用，由耳廓和外耳道组成。外耳道组成。耳廓呈漏斗型，其作用是收集声音。耳廓呈漏斗型，其作用是收集声音。外耳道直至鼓膜，其中充满空气，是一谐振腔，外耳道直至鼓膜，其中充满空气，是一谐振腔，使谐振频率附近的频率成分有某些放大作用，导使谐振频率附近的频率成分有某些放大作用，导致声音有某些失真。致声音有某些失真。外耳道的长度为外耳道的长度为2.5cm2.5cm，对波长为其，对波长为其

28、4 4倍作用的声波能起到较好的放大作用，即倍作用的声波能起到较好的放大作用，即有：有：4 4 2.5=10cm2.5=10cm，3000-4000Hz 3000-4000Hz声波的声波的波长为，因此外耳道对这部分频率的信号波长为，因此外耳道对这部分频率的信号有扩音作用，有扩音作用，10dB10dB左右。左右。外耳道外耳道中耳中耳结构：总容量为结构：总容量为2 2立方厘米，内含三块听小骨，立方厘米，内含三块听小骨，锤骨、砧骨、镫骨，其中锤骨与鼓膜相接触，镫骨锤骨、砧骨、镫骨，其中锤骨与鼓膜相接触，镫骨则与内耳的前庭窗相接触。则与内耳的前庭窗相接触。作用：进行阻抗变换，将中耳两端的声阻抗匹配作用

29、：进行阻抗变换，将中耳两端的声阻抗匹配起来；保护内耳。在一定声强范围内，听小骨实现声起来；保护内耳。在一定声强范围内，听小骨实现声音的线性传递，而在特强声时，实现非线性传递。音的线性传递，而在特强声时，实现非线性传递。内耳内耳结构：主要部分是耳蜗，耳蜗长约结构：主要部分是耳蜗，耳蜗长约3.5cm3.5cm，呈，呈螺旋状盘绕圈，是一个密闭的管子，内部充满了螺旋状盘绕圈，是一个密闭的管子，内部充满了淋巴液。淋巴液。前庭窗前庭窗镫镫骨骨基底膜基底膜作用：将振动变换为神经冲动。当声音传入中耳作用：将振动变换为神经冲动。当声音传入中耳时，镫骨的运动经过前庭窗引起耳蜗内液体压强的时，镫骨的运动经过前庭

30、窗引起耳蜗内液体压强的变化，从而引起行波沿基底膜的传输，引起基底膜变化，从而引起行波沿基底膜的传输，引起基底膜的振动。不同频率的声音产生不同的行波，其峰值的振动。不同频率的声音产生不同的行波，其峰值出现在基底膜的不同位置上。基底膜的振动导致沿出现在基底膜的不同位置上。基底膜的振动导致沿基底膜分布的毛细胞的电位发生改变，引起神经冲基底膜分布的毛细胞的电位发生改变，引起神经冲动，传递给大脑，产生听觉。动，传递给大脑，产生听觉。如果信号是一个多频率的信号，则产生的如果信号是一个多频率的信号，则产生的行波将沿着基底膜在不同的位置产生最大幅行波将沿着基底膜在不同的位置产生最大幅度，从这个意义上讲，耳蜗就

31、像一个频谱分度，从这个意义上讲，耳蜗就像一个频谱分析仪，将复杂信号分解成各种频率分量，这析仪，将复杂信号分解成各种频率分量，这种作用称为人耳种作用称为人耳的时频分析特性。的时频分析特性。耳蜗在语耳蜗在语音接收过程起着重要的作用。音接收过程起着重要的作用。人工耳蜗是一种电子装置，能帮助重度及极重人工耳蜗是一种电子装置，能帮助重度及极重度耳聋患者获得或重新恢复听觉。它代替病变受损度耳聋患者获得或重新恢复听觉。它代替病变受损的听觉器官，把声音转换成编码的电信号传入内耳的听觉器官，把声音转换成编码的电信号传入内耳耳蜗，刺激分布在那里的听神经，再由大脑产生听耳蜗，刺激分布在那里的听神经，再由大脑产生听觉

32、。觉。人工耳蜗人工耳蜗麦克风接收声音，并通过导线将其传至言语麦克风接收声音，并通过导线将其传至言语处理器；言语处理器对声音进行数字化、滤波编处理器；言语处理器对声音进行数字化、滤波编码等处理，并将编码信号经导线传至传输线圈；码等处理，并将编码信号经导线传至传输线圈；传输线圈将编码信号通过耦合传至皮下的接收器；传输线圈将编码信号通过耦合传至皮下的接收器；接收器对编码信号进行解码；按信号选择一定位接收器对编码信号进行解码；按信号选择一定位置的电极，刺激耳蜗内的听神经纤维，使其产生置的电极，刺激耳蜗内的听神经纤维，使其产生兴奋，将信号传入大脑，产生听觉。兴奋，将信号传入大脑，产生听觉。人工耳蜗的工

33、作原理人工耳蜗的工作原理2.声音传入内耳的途径声音传入内耳的途径由空气传导，称为气导，其过程为：由空气传导，称为气导，其过程为：声波声波耳廓耳廓鼓膜鼓膜听骨听骨内耳内耳基底膜上基底膜上毛细胞电位改变毛细胞电位改变神经冲动神经冲动由骨传导，称为骨导，其过程为：由骨传导，称为骨导，其过程为：声波声波颅骨颅骨外淋巴振动外淋巴振动内耳内耳基底膜上毛细基底膜上毛细胞电位改变胞电位改变神经冲动神经冲动3.人耳的两个重要特性人耳的两个重要特性（1 1）耳蜗对声信号的时频分析特性）耳蜗对声信号的时频分析特性（2 2）人耳的掩蔽效应）人耳的掩蔽效应人耳的掩蔽（人耳的掩蔽（masking

34、phenomenonmasking phenomenon）效应）效应:在一个强信号附近弱信号将变得不可闻，被掩在一个强信号附近弱信号将变得不可闻，被掩蔽掉了。蔽掉了。掩蔽阈值掩蔽阈值被掩蔽掉的不可闻信号的最大声压级称为被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限和掩蔽阈值（掩蔽门限和掩蔽阈值（masking thresholdmasking threshold）,在这个掩蔽阈值以下的声音将被掩蔽掉。在这个掩蔽阈值以下的声音将被掩蔽掉。掩蔽效应分为同时掩蔽掩蔽效应分为同时掩蔽(频域掩蔽频域掩蔽)和短时和短时掩蔽（时域掩蔽）。同时掩蔽是指存在一个弱掩蔽（时域掩蔽）。同时掩蔽是指存在一个弱信号和一

35、个强信号，当其频率接近时，强信号信号和一个强信号，当其频率接近时，强信号会提高弱信号的阈值，就会导致弱信号变得不会提高弱信号的阈值，就会导致弱信号变得不可闻。可闻。1kHz1kHz的听阈的听阈1dB1dB20dB20dB4dB4dB可闻声可闻声3dB3dB不可闻声不可闻声图形描述图形描述同时出现的同时出现的A A声和声和B B声，若原来声，若原来A A声的阈值为声的阈值为50dB,50dB,由于另一个频率不同的由于另一个频率不同的B B声的存在使得声的存在使得A A声声的阈值提高了的阈值提高了68dB,68dB,则则B B声称为掩蔽声，声称为掩蔽声，A A声称为声称为被掩蔽声。掩蔽量为被掩蔽

36、声。掩蔽量为68dB68dB50dB50dB18dB18dB。数学描述数学描述掩蔽效应的作用掩蔽效应的作用当只有当只有A A声时，必须将声压级在声时，必须将声压级在50dB50dB以上的声音以上的声音信号传送出去，信号传送出去，50dB50dB以下的声音是听不到的。当同以下的声音是听不到的。当同时出现了时出现了B B声，由于掩蔽效应，使得声，由于掩蔽效应，使得A A声中的声中的68dB68dB以以下的声音是听不到了，可以不予传送，只是传送下的声音是听不到了，可以不予传送，只是传送50dB50dB以上的信号。以上的信号。同时掩蔽时，掩蔽声越强，掩蔽作用越大；掩同时掩蔽时，掩蔽声越强，掩蔽作用

37、越大；掩蔽声和被掩蔽声的频率越接近，掩蔽效果越明显，蔽声和被掩蔽声的频率越接近，掩蔽效果越明显，当频率相同时，掩蔽效果最大。当频率相同时，掩蔽效果最大。前向掩蔽：若被掩蔽声前向掩蔽：若被掩蔽声A A出现后，相隔出现后，相隔(0.05s,2s)(0.05s,2s)之内出现了掩蔽声之内出现了掩蔽声B B，对，对A A起掩蔽作用，起掩蔽作用，因为因为A A声尚未被人所反应接收而强大的声尚未被人所反应接收而强大的B B声已来临。声已来临。短时掩蔽短时掩蔽前向掩蔽和后向掩蔽前向掩蔽和后向掩蔽后向掩蔽：掩蔽声后向掩蔽：掩蔽声B B即使消失后，其掩蔽作用即使消失后，其掩蔽作用仍将持续一段时间，约仍将持续

38、一段时间，约(0.5s,2s)(0.5s,2s)，这时由于人耳，这时由于人耳的存储效应所致。的存储效应所致。2.5 语音信号生成的数学模型一、激励模型二、声道模型三、辐射模型四、完整的语音信号的数学模型语音信号的短时分析技术语音信号的短时分析技术语音信号的短时分析技术语音信号的短时分析技术语音信号处理的复杂性源于语音信号是非平稳语音信号处理的复杂性源于语音信号是非平稳语音信号处理的复杂性源于语音信号是非平稳语音信号处理的复杂性源于语音信号是非平稳的随机过程，其特性随时间变化的，但这种变换的随机过程，其特性随时间变化的，但这种变换的随机过程，其特性随时间变化的，但这种变换的随机过程，其特性随时

39、间变化的，但这种变换很缓慢。在实际处理中，一般对其加窗，截取很缓慢。在实际处理中，一般对其加窗，截取很缓慢。在实际处理中，一般对其加窗，截取很缓慢。在实际处理中，一般对其加窗，截取101030ms30ms内的信号（内的信号（内的信号（内的信号（1 1帧）进行处理。我们将这种技帧）进行处理。我们将这种技帧）进行处理。我们将这种技帧）进行处理。我们将这种技术称为短时分析技术。术称为短时分析技术。术称为短时分析技术。术称为短时分析技术。t第n帧第n+1帧第n+2帧第n+3帧第n+4帧为什么取为什么取101030ms30ms，因为根，因为根据人的发声生理结构变化的连续据人的发声生理结构变化的连续性

40、，在此时间段内，声带、声道、性，在此时间段内，声带、声道、口腔的特性几乎不变，语音信号口腔的特性几乎不变，语音信号近似平稳。近似平稳。加矩形窗加矩形窗加矩形窗加矩形窗分帧技术分帧技术分帧技术分帧技术加窗加窗加窗加窗加汉宁窗加汉宁窗加汉宁窗加汉宁窗 hanning hanning hanning hanning第第n n帧帧第第n+1n+1帧帧第第n+2n+2帧帧各帧之间有各帧之间有各帧之间有各帧之间有0 0 0 01/21/21/21/2的重叠，的重叠，的重叠，的重叠，由窗函数的定义决定的。由窗函数的定义决定的。由窗函数的定义决定的。由窗函数的定义决定的。w(n)=0.5*1-cos(2n

41、w(n)=0.5*1-cos(2nw(n)=0.5*1-cos(2nw(n)=0.5*1-cos(2n /(N-1)/(N-1)/(N-1)/(N-1)第第n+3n+3帧帧t第n帧第n+1帧第n+2帧第n+3帧第n+4帧数学模型数学模型声道声道数学模型的特点：数学模型的特点：是一个终端模拟的近是一个终端模拟的近似模型，其内部结构与语音产生的物理过程并似模型，其内部结构与语音产生的物理过程并不一致，只是在输出端等效。不一致，只是在输出端等效。激励激励辐射辐射一、激励模型uG(n)Av冲激序列冲激序列发生器发生器声门脉冲声门脉冲模型模型G(z)G(z)随机噪声随机噪声发生器发生器基音周期基音周

42、期TPAu清清/浊音浊音开关开关浊音激励浊音激励清音激励清音激励发浊音时，声激励是一个准周期的单位脉冲发浊音时，声激励是一个准周期的单位脉冲串，串，A Av v为增益参数；为了使浊音的激励信号具有为增益参数；为了使浊音的激励信号具有声门振动气流脉冲的实际波形，需将冲激序列通声门振动气流脉冲的实际波形，需将冲激序列通过一个声门脉冲模型滤波器（实际上是一个斜三过一个声门脉冲模型滤波器（实际上是一个斜三角波形）角波形）G(z)G(z)。最后形成一个以基音周期为周期最后形成一个以基音周期为周期的斜三角波形。的斜三角波形。1.1.浊音激励浊音激励单位脉冲串单位脉冲串单位脉冲串及幅值的单位脉冲串及幅值的

43、Z Z变换形式：变换形式：声门脉冲滤波器声门脉冲滤波器N1N2斜三角波形斜三角波形u(n)u(n)2.2.清音激励清音激励清音激励模拟为随机噪声，实际中一般使用清音激励模拟为随机噪声，实际中一般使用均值为均值为0 0、方差为、方差为1 1的白噪声。的白噪声。将声激励分为两种情况，与实际不完全相符。将声激励分为两种情况，与实际不完全相符。将声激励分为两种情况，与实际不完全相符。将声激励分为两种情况，与实际不完全相符。例如爆破音是气流在声门完全闭合处的下方建立例如爆破音是气流在声门完全闭合处的下方建立例如爆破音是气流在声门完全闭合处的下方建立例如爆破音是气流在声门完全闭合处的下方建立起压力，然后

44、除去这种障碍，使压力迅速释放，起压力，然后除去这种障碍，使压力迅速释放，起压力，然后除去这种障碍，使压力迅速释放，起压力，然后除去这种障碍，使压力迅速释放，产生一种瞬时的激励。在上面的声学模型中未考产生一种瞬时的激励。在上面的声学模型中未考产生一种瞬时的激励。在上面的声学模型中未考产生一种瞬时的激励。在上面的声学模型中未考虑。虑。虑。虑。应将两种激励按一定比例进行叠加，更符合实应将两种激励按一定比例进行叠加，更符合实应将两种激励按一定比例进行叠加，更符合实应将两种激励按一定比例进行叠加，更符合实际情况。际情况。际情况。际情况。二、声道模型(共振峰模型)线性系统线性系统线性系统线性系统声道声道声

45、道声道V(z)V(z)uG(n)ul(n)语音信号是一个非平稳信号，激励和声道语音信号是一个非平稳信号，激励和声道语音信号是一个非平稳信号，激励和声道语音信号是一个非平稳信号，激励和声道的谐振特性随时间变化。但在的谐振特性随时间变化。但在的谐振特性随时间变化。但在的谐振特性随时间变化。但在202030ms30ms内语音内语音内语音内语音信号是平稳的，即激励和声道的特性几乎不变，信号是平稳的，即激励和声道的特性几乎不变，信号是平稳的，即激励和声道的特性几乎不变，信号是平稳的，即激励和声道的特性几乎不变，因此认为在此时间段内系统是线性的。因此认为在此时间段内系统是线性的。因此认为在此时间段内系统是

46、线性的。因此认为在此时间段内系统是线性的。1.1.级联型级联型(元音元音)声道是一组串连的二阶谐振器（一个谐振腔对声道是一组串连的二阶谐振器（一个谐振腔对声道是一组串连的二阶谐振器（一个谐振腔对声道是一组串连的二阶谐振器（一个谐振腔对应应应应1 1 1 1个共振峰频率）。个共振峰频率）。个共振峰频率）。个共振峰频率）。V V1 1V V2 2V V3 3V V4 4V V5 5传输函数传输函数N N为极点个数，为极点个数，G G是是增益参数增益参数，a ak k为常系数。为常系数。T T为采样周期为采样周期传输函数是一个全极点的传输函数是一个全极点的IIRIIR滤波器，这些极点滤波器，这些极

47、点确定了声管的共振峰。若确定了声管的共振峰。若N N取偶数，取偶数，V(z)V(z)一般有一般有N/2N/2对共轭极点，对共轭极点，r rk kexp(j2exp(j2 F Fk kT)T)，k=1k=1N/2N/2。各个各个w wk k值分别与语音的共振峰相互对应。值分别与语音的共振峰相互对应。N N的取值一般的取值一般为为8 81212。a ai iz z-1-1z z-1-1b bi ic ci i2.2.并联型并联型(大部分辅音大部分辅音)传输函数，传输函数，零极点零极点IIRIIR滤波器滤波器V V1 1V V2 2V V3 3V V4 4V V5 53.3.混合型（根据需要进行模型

48、的切换）混合型（根据需要进行模型的切换）V V1 1V V2 2V V3 3V V4 4V V5 5V V1 1V V2 2V V3 3V V4 4V V5 5三、辐射模型线性系统线性系统唇辐射唇辐射R(z)R(z)u ul l(n)(n)p pl l(n)(n)P Pl l(z)=R(z)U(z)=R(z)Ul l(z)(z)R(z)=RR(z)=R0 0(1-z(1-z-1-1)唇端辐射损耗在唇端辐射损耗在高频端较为显著，高频端较为显著，而在低频端影响较而在低频端影响较小，小，R(z)应具有高应具有高通特性。通特性。四、完整的语音信号的数学模型A Av v冲激序列冲激序列发生器发生器声门脉

49、冲声门脉冲模型模型G(z)G(z)随机噪声随机噪声发生器发生器基音周期基音周期T TP PA AN N线性系统线性系统声道声道V V(z z)辐射模型辐射模型R R(z z)清清/浊音浊音开关开关传输函数传输函数传输函数传输函数传输函数的具体表达式：传输函数的具体表达式：传输函数的具体表达式：传输函数的具体表达式：数学模型的特点数学模型的特点数学模型的特点数学模型的特点在这个模型中，在这个模型中，在这个模型中，在这个模型中，T T T TP P P P、A A A Av v v v、A A A AN N N N、清清清清/浊音开关的位置浊音开关的位置浊音开关的位置浊音开关的位置以及声道滤波器

50、的参数都是随时间而变化，在以及声道滤波器的参数都是随时间而变化，在以及声道滤波器的参数都是随时间而变化，在以及声道滤波器的参数都是随时间而变化，在10-10-10-10-30ms30ms30ms30ms的时间间隔内是保持不变的。这种特性称为短的时间间隔内是保持不变的。这种特性称为短的时间间隔内是保持不变的。这种特性称为短的时间间隔内是保持不变的。这种特性称为短时性。时性。时性。时性。对于激励信号而言，大部分情况下，这一结论对于激励信号而言，大部分情况下，这一结论对于激励信号而言，大部分情况下，这一结论对于激励信号而言，大部分情况下，这一结论也是正确的，但有些音变化速度特别快，爆破音，也是正确的

展开阅读全文