《语音技术概述幻灯片.ppt》由会员分享,可在线阅读,更多相关《语音技术概述幻灯片.ppt(97页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、语音技术概述第1页,共97页,编辑于2022年,星期三12、一些基本概念、一些基本概念 音素(phoneme):语音的最小单位,由音素构成音节。音节(Syllable):说话时一次发出的,具有一个响亮的中心,并被明显感觉的语音片断。音素和音节第2页,共97页,编辑于2022年,星期三2辅音和元音音素分为两类:辅音(Consonant)和元音(Vowel)元音:声带振动产生一个准周期的空气脉冲,如 i、u、a、o、e等。辅音:呼出的气流,由于通路中某一部分封闭起来或受阻,气流不通畅所产生的声音,如b、p、m、f、d、t、n、l等。第3页,共97页,编辑于2022年,星期三3辅音和元音的区别有四点
2、:辅音和元音的区别有四点:1、辅音发音时,气流在通过咽头、口腔的过程中,要受到某部位的阻碍;元音发音时,气流在咽头、口腔不受阻碍。这是元音和辅音最主要的区别。2、辅音发音时,发音器官成阻的部位特别紧张;元音发音时发音器官各部位保持均衡的紧张状态。3、辅音发音时,气流较强;元音发音时,气流较弱。4、辅音发音时,声带不一定振动,声音一般不响亮;元音发音时,声带振动,声音比辅音响亮。第4页,共97页,编辑于2022年,星期三4半元音:声道基本通畅,但某处比较狭窄,引起轻微摩擦。W、Y元音构成音节的主干,辅音只出现在音节前端或前后两端。元音的共振峰特性:声道被看成具有均匀截面积的声管,发音时起共鸣器的
3、作用。元音激励进入声道时引起共振特性,产生一组共振频率,即共振峰。第5页,共97页,编辑于2022年,星期三5清音和浊音清音:声带不振动浊音:声带振动而发音元音都是浊音、辅音有清音也有浊音。第6页,共97页,编辑于2022年,星期三63、汉语的声调:、汉语的声调:浊音的声带振动基频称为基音频率。无论在说一个单音节或说一段连续语音时,各个音节中韵母段的都是随时间变化的,基音频率的不同轨迹称为声调。几乎平均于横轴、平均值高从较低一直上升到较高频率先降后升从较高频率降到较低频率第7页,共97页,编辑于2022年,星期三74、语音信号的时域波形、语音信号的时域波形开始/ai/k/时变特性时变特性有些段
4、落周期有些段落周期性,有些段落性,有些段落具有噪声特性,具有噪声特性,短时平稳性短时平稳性第8页,共97页,编辑于2022年,星期三8Do you like it?Vs Did you like it?Waveform 第9页,共97页,编辑于2022年,星期三9.2 语音产生的过程及声学特征语音产生的过程及声学特征语音产生的过程语音产生的过程喉以上的部分称为声道,随着发出声音的不同其形状是变化的;而喉的部分称为声门。第10页,共97页,编辑于2022年,星期三10q声带(Vocal Cords)1014mm在喉部的从喉结到杓状软骨之间的韧带褶。q声门(Glottis)两个声带之间形成一个开闭
5、自如的声门,声带合拢因而受声门下气流的冲击而张开;但由于声带韧性迅速地闭合,随后又张开而闭合,声带开启和闭合使气流形成一系列脉冲。声门每开启和闭合一次的时间即振动周期称为音调周期或基音周期,其倒数称为基音频率,也简称为基频。基音的范围约为70350 Hz左右。第11页,共97页,编辑于2022年,星期三11q声道(vocal tract)17cm 由咽腔、口腔和鼻腔三个空气腔体组成。声道是一个分布参数系统,它有许多自然谐振频率(在这些频率上其传递函数具有极大值),所以声道是一谐振腔,它放大某一频率而衰减其他频率分量。谐振频率由每一瞬间的声道外形决定。如果声道的截面是均匀的,谐振频率将发生在第1
6、2页,共97页,编辑于2022年,星期三12听觉系统:听觉系统:q 声波经过外耳的放大后,经过鼓膜和听小骨将声波转化为机械振动,传入内耳。2.3 2.3 语语 音音 感感 知知 由外耳、中耳、内耳组成人耳的作用:1、声音放大;2、声音传导;3、声源定位 第13页,共97页,编辑于2022年,星期三13正常人的听域与听阈:听觉感知特性:听觉感知特性:正常人的听觉系统是极为灵敏的,人耳所能感觉的最低声压接近空气中分子热运动所产生的声压。正常人可听声音的频率范围为0.016-16kHz,年轻人可听到20kHz的声音,而老年人可听到的高频声音要减少到10kHz左右。正常人可听声音的强度范围为0-120
7、dBSPL(声压级),这里的基准声压(0dB SPL)是 或 。第14页,共97页,编辑于2022年,星期三14纯音听阈是与频率有关的量,在1000Hz时约为4dB左右,而在40Hz时上升为50dB左右,在15kHz时上升为24dB左右。感觉阈代表可容忍的最高声压。在声压级高到一定程度时,耳朵会出现不适感觉,或者具有痒、压迫及痛感。对正常人而言一般取120dB为不适阂,140dB为痛阐,且认为它与频率无关。第15页,共97页,编辑于2022年,星期三15q 响度(Londness)-方(phon)是一种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。一样的音强,不一样的频率,则响
8、度也会有所不同。0dB声强级的1000Hz纯音的响度级为0phon;ndB声强级的1000Hz纯音的响度级为nphon;第16页,共97页,编辑于2022年,星期三16听觉掩蔽效应听觉掩蔽效应q掩蔽效应:一种声音的听觉感受受到同时听到的另一种声音的影响。分:同时掩蔽和短时掩蔽 第17页,共97页,编辑于2022年,星期三17同时掩蔽:同时存在的一个弱信号和一个强信号频率接近时,强信号会提同时掩蔽:同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈升高到一定程度会导致弱信号不可闻。高弱信号的听阈,当弱信号的听阈升高到一定程度会导致弱信号不可闻。短时掩蔽:当短时掩
9、蔽:当A A声和声和B B声不同时出现时。声不同时出现时。后向掩蔽:掩蔽声后向掩蔽:掩蔽声B B消失后,其作用仍持续一段时间:消失后,其作用仍持续一段时间:0.50.52s2s前向掩蔽:被掩蔽音前向掩蔽:被掩蔽音A A出现后,相隔出现后,相隔0.0050.0050.2s0.2s之内出现掩蔽音之内出现掩蔽音B B,也,也会对会对A A起作用。起作用。第18页,共97页,编辑于2022年,星期三182.4 2.4 语音信号的数学模型语音信号的数学模型准准则则:要要寻寻求求一一种种可可以以表表达达一一定定物物理理状状态态下下的的数数学学关关系系,要要使使这种关系不仅具有最大的精确度,而且还要最简单。
10、这种关系不仅具有最大的精确度,而且还要最简单。期望:模型既是线性的又是时不变的,这是最理想的模型。期望:模型既是线性的又是时不变的,这是最理想的模型。语语音音信信号号特特征征:一一连连串串的的时时变变过过程程;声声门门和和声声道道相相互互耦耦合合,还还形形成语音信号的非线性特性。成语音信号的非线性特性。合合理理假假设设:在在较较短短的的时时间间间间隔隔内内表表示示语语音音信信号号时时,采采用用线线性性时时不不变变模型。模型。第19页,共97页,编辑于2022年,星期三19发音器官的机理模型:发音器官的机理模型:第20页,共97页,编辑于2022年,星期三20语音信号的产生模型 第21页,共97
11、页,编辑于2022年,星期三21(1)发浊音时。此时气流通过绷紧的声带,冲激声带产生振动,使声门处形成准周期性的脉冲串,并用它去激励声道。声带绷紧的程度不同,振动频率也不同。该频率就是音调频率,其倒数为音调周期。(2)发清音时。此时声带松弛而不振动,气流通过声门直接进入声道。表示为均值为0、方差为1,并在时间或在幅度上为白色分布的序列。1、激励模型、激励模型第22页,共97页,编辑于2022年,星期三22罗森贝格(Rosenberg)在研究中发现,如果在发浊音时声门脉冲取如图所示的形状,可以获得比较好的合成语音效果。发浊音时的声门脉冲发浊音时的声门脉冲第23页,共97页,编辑于2022年,星期
12、三23 把声道视作截面积变化的管子,研究声音沿管道是怎样传播的。2 2、声道模型、声道模型(一)声管模型(一)声管模型第24页,共97页,编辑于2022年,星期三24管道内声波的运动方程:其中,为在 点 时刻的声压 为在 点 时刻的体积速度 为空气密度 为声速 为管道截面积第25页,共97页,编辑于2022年,星期三25每每个个管管子子可可看看作作为为一一个个四四端端网网络络,这这个个网网络络具具有有反反射射系系数数,声声道道可可由由一组截面积或一组反射系数来表示。一组截面积或一组反射系数来表示。通常用通常用A A表示声管的截面积。由于语音的短时平稳性,假设在短表示声管的截面积。由于语音的短时
13、平稳性,假设在短时间内,各段管子的截面积且是常数。设第时间内,各段管子的截面积且是常数。设第m m段和第段和第m+1m+1段的声管的段的声管的截面积分别为截面积分别为Am、Am+1,设,设称为称为“面积和差比面积和差比”,其取值范围为,其取值范围为-1km1。它实际上是线性预。它实际上是线性预测的反射系数。测的反射系数。第26页,共97页,编辑于2022年,星期三26q共振峰与舌位关系舌位高低决定了F1共振频率。舌位越高,F1 的频率越低,反则反之。舌位前后决定了F2共振频率舌位越后,F2 的频率越低,反则反之。(二)共振峰模型(二)共振峰模型声道被视为谐振腔,共振峰是腔体的谐振频率第27页,
14、共97页,编辑于2022年,星期三271)级联共振峰模型(适合于一般元音)分解:第28页,共97页,编辑于2022年,星期三282)并联型(非一般元音和大多数辅音)第29页,共97页,编辑于2022年,星期三293、混合型(结合级联型和并联型):幅度控制因子AB专为一些频谱特性比较平坦的音素,如f,p,b所考虑的。第30页,共97页,编辑于2022年,星期三30 声声道道的的终终端端为为口口和和唇唇。从从声声道道输输出出的的是是速速度度波波,而而语语音音信信号号是是声声压压波波,二二者者之之倒倒比比称称为为辐辐射射阻阻抗抗ZL。它它表表征征口口和和唇唇的的辐辐射射效效应,也包括圆形的头部的绕射
15、效应等。应,也包括圆形的头部的绕射效应等。口口唇唇的的辐辐射射效效应应可可表表示示为为:,它它是是一一阶阶后后向向差差分分。辐辐射模型射模型R(z)是一阶类高通滤波器的形式。是一阶类高通滤波器的形式。3 3、辐、辐 射射 模模 型型第31页,共97页,编辑于2022年,星期三31 完完整整的的语语音音信信号号数数字字模模型型可可以以用用三三个个子子模模型型:激激励励模模型型、声声道模型和辐射模型的串联来表示。其转移函数为:道模型和辐射模型的串联来表示。其转移函数为:H(z)=U(z)V(z)R(z)这这里里,U(z)是是激激励励信信号号声声门门脉脉冲冲即即斜斜三三角角波波的的形形式式;V(z)
16、是是声声道道传传递递函函数数,既既可可以以用用声声管管模模型型,也也可可以以用用共共振振峰峰模模型型来来描描述述。在在共共振振峰峰模模型中,又可采用级联型、并联型或混合型等几种形式;型中,又可采用级联型、并联型或混合型等几种形式;R(z)为辐射模型。为辐射模型。4 4、完整的模型完整的模型 第32页,共97页,编辑于2022年,星期三32 声门脉冲 声道 语音信号 激励信号 声道滤波器 语音信号 频谱 传递函数 频谱 韵母的产生过程第33页,共97页,编辑于2022年,星期三332.5 2.5 语音的质量评估语音的质量评估一一类类是是音音节节以以下下(如如音音素素、声声母母、韵韵母母)的的语语
17、音音单单元元的的测测试试,这这常常称称为为“清清晰晰度度”测测试试;清清晰晰度度测测试试可可以以元元音音、辅辅音音为为基基础或以声母、韵母为基础,再根据音节成分算出音节清晰度。础或以声母、韵母为基础,再根据音节成分算出音节清晰度。一一类类是是音音节节以以上上(如如词词、句句)的的语语音音单单元元的的测测试试,常常称称为为“可可懂度懂度”测试。测试。语音质量测试可分为两类:语音质量测试可分为两类:第34页,共97页,编辑于2022年,星期三342.6 2.6 语音信号的时频特性分析语音信号的时频特性分析汉语拼音“Sou Ke”的时域波形采样率8kHz第35页,共97页,编辑于2022年,星期三3
18、5第36页,共97页,编辑于2022年,星期三36第37页,共97页,编辑于2022年,星期三372.7 2.7 语音信号的语谱图语音信号的语谱图语谱仪:将语音信号(经话筒变成了电信号)送进一排频率依次相接的窄带滤波器,各窄带滤波器的输出记录在一卷按一定速度旋转的记录纸上(各滤波器的由低到高按频率排列),信号强则记录得浓黑一些,反之则浅谈一些。由此得到的即是语音信号的语谱图,此图的水平方向是时间轴,垂直方向是频率轴,固上或深或浅的黑色条纹表征各个时刻的短时谱。第38页,共97页,编辑于2022年,星期三38 自然语音a波形图 自然语音a语谱图 自然语音o波形图 自然语音o语谱图第39页,共97
19、页,编辑于2022年,星期三39语音处理的根本方法语音处理的根本方法短时分析技术短时分析技术 语音信号具有时变特性,而在一个短时间范围内其特性基本保持语音信号具有时变特性,而在一个短时间范围内其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程。语音的重要不变即相对稳定,因而可以将其看作是一个准稳态过程。语音的重要特性是它具有特性是它具有“短时性短时性”,所以对语音的分析和处理必须建立在,所以对语音的分析和处理必须建立在“短短时时”的基础上,即进行的基础上,即进行“短时分析短时分析”,2.8 2.8 语音信号的数字化与预处理语音信号的数字化与预处理语音信号处理系统框图第40页,共97
20、页,编辑于2022年,星期三40数字化:放大、增益控制、反混叠滤波、采样、A/D变换及编码预处理:预加重、加窗、分帧、端点检测表示语音信号比较直观、物理意义明确。表示语音信号比较直观、物理意义明确。实现起来比较简单、运算量少。实现起来比较简单、运算量少。可以得到语音的一些重要参数。可以得到语音的一些重要参数。采用示波器等通用设备,使用较为简单。采用示波器等通用设备,使用较为简单。l时域分析的特点时域分析的特点:第41页,共97页,编辑于2022年,星期三411、预滤波、采样、A/D变换目的:1、抑制输入信号各频域分量中频率超出fs/2的所有分量,以防止混叠干扰;2、抑制50Hz工频干扰。实现:
21、带通滤波器,上下边带截止频率分别为 、第42页,共97页,编辑于2022年,星期三42采样采样根根据据取取样样定定理理,当当取取样样频频率率大大于于信信号号的的两两倍倍带带宽宽时时,取取样样过过程程中中不不会会丢丢失失信信息息,且且从从取取样样信信号号中中可可以以精精确确地地重重构构原原始始信信号号波波形形。在在信信号号的的带带宽宽不不明明确确时时,在在取取样样前前应应接接入入反反混混叠叠滤滤波波器器,使使其其带带宽宽限限制制在在某某个个范围内。范围内。语音信号频率范围:语音信号频率范围:3003400Hz采样率:采样率:8kHz10kHz第43页,共97页,编辑于2022年,星期三43量化量
22、化:将输入的整个幅值分成有限区间,把落入同一区间的波形样本都量化成同一幅度值。第44页,共97页,编辑于2022年,星期三44量化后的信号值与原信号之间的差值称为量化误差,又称为量化噪声。若信号波形的变化足够大或量化间隔足够小时,可以证明量化噪声符合具有下列特性的统计模型:它是一个平稳的白噪声过程;量化噪声和输入信号不相关;量化噪声在量化间隔内均匀分布,即具有等概率密度分布。第45页,共97页,编辑于2022年,星期三452、预处理预加重:原因:语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB倍频程跌落。目的:提升高频部分,使信号的频谱变得平坦,以便于进行频谱
23、分析或声道参数分析。位置:可在反混叠滤波之前进行,这样不仅能够进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。也可在AD变换之后进行,用具有6dB倍频程的提升高频特性的预加重数字滤波器实现,它一般是一阶的。式 中 值接近于1。第46页,共97页,编辑于2022年,星期三46加窗分帧:语音信号是一种典型的非平稳信号,其特性是随时间而变化的,但是语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来说要缓慢得多,因此语音信号常常可假定为短时平稳的,即在1030ms的时间段内,其频谱特性和物理特征参量可近似地看作是不变的,这样,就可以采用平稳过程的分析处理方法来处理了。
24、由这个假定导出了各种“短时”处理方法,以后讨论的各种语音信号都是分隔为一些短段(帧)再加以处理。这些短段就好像是来自一个具有固定特性的持续语音片段一样。第47页,共97页,编辑于2022年,星期三47将语音分成短段的基本手段是对语音加窗,即用一个有限长度的窗序列截取一段语音信号来进行分析。该窗函数可以按时间方向滑动,以便分析任一时刻附近的信号。加窗运算定义为:第48页,共97页,编辑于2022年,星期三48帧长和帧移的示例第49页,共97页,编辑于2022年,星期三49 矩形窗:汉明窗:汉宁窗:第50页,共97页,编辑于2022年,星期三50端点检测:端点检测是指从包含语音的一段信号中确定出语
25、音的开始和终止点。有效的端点检测不仅能使处理时间减到最小,而且能去除无声段的噪声干扰,从而使识别系统具有良好的识别性能。一个较好的端点检测算法应该能够满足:门限值可以对背景噪声的变化有一定的适应;能够将短时冲激噪声和超过门限值的信号纳入无声段而不是有声段;对于爆破音的寂静段,应将其纳入语音的范围而不是无声段;应该尽量避免在检测中丢失鼻韵和弱摩擦音等与噪声特性相似、短时参数较少的语音;应该避免使用过零率作为判决标准,以免带来负面影响。第51页,共97页,编辑于2022年,星期三51传统的端点检测算法1.基于能量的端点检测语音和噪音的主要区别在它们的能量上,语音段的能量比噪音段的大,语音段的能量是
26、噪音段能量叠加语音声波能量的和。传统端点检测算法认为,如果环境噪声和系统环境噪声比较小,能够保证系统的信噪比较高,那么只要计算输入信号的短时能量或短时平均幅度就能把语音段和噪声背景区分开。实际中信噪比较低。第52页,共97页,编辑于2022年,星期三522.双门限前端检测法利用短时过零率来检测清音,用短时能量来检测浊音。双门限法是考虑到语音开始以后总会出现能量较大的浊音,设一个较高的门限用以确定语音已开始,再取一比稍低的门限,用以确定真正的起止点及结束点。判断清音与无话的差别,是采用另一个较低的门限,求越过该门限的“过零率”。只要取得合适,通常背景噪声的低门限过零率将明显低于语音的低门限过零率
27、值。这种方法普遍地用于有话、无话鉴别或词语前端检测。第53页,共97页,编辑于2022年,星期三533.基于噪声动态检测的语音端点检测算法第54页,共97页,编辑于2022年,星期三54仿真实验及结果分析图图1“1“制约制约”在零噪声时的检测结在零噪声时的检测结果果图图2“2“”在加入少量噪声时在加入少量噪声时的检测结果的检测结果图图3“3“”在噪声加大时的检在噪声加大时的检测结果测结果 图图4“4“”在噪声进一步加大时在噪声进一步加大时的检测结果的检测结果第55页,共97页,编辑于2022年,星期三554.基于小波变换的语音端点检测算法依据:小波系数可以反映语音信号在各个子带内沿时间轴的能量
28、分布,通过处理又可以捕捉到语音段的边界,因此可以利用小波变换来对语音信号进行端点检测,以达到区分语音段和非语音段的目的。第56页,共97页,编辑于2022年,星期三56步骤:1)先将语音信号分成由1024个采样点组成的帧;2)对每帧进行10层小波分解;3)计算所选两个子带(子带4和子带5)的小波系数;4)计算两个子带的互相关系数;5)通过帧间平滑连接所有互相关系数成为一个和原信号长度相同的序列;6)计算序列前220个点(20ms)的最大值,把此最大值作为阈值;7)比较序列中各个点的值。若小于阈值,则记为静音;若大于阈值,则记为语音;8)按照上述过程对语音信号进行标记,再滤掉个别误判点,完成语音
29、信号的端点检测。第57页,共97页,编辑于2022年,星期三575.基于循环神经网络的语音端点检测算法 原理:选用一个三层的RNN,且隐层的输出全部反馈到输入层。输入的采样语音信号被分成三种模式:浊音(U)、清音(V)、和背景噪声(N)。选用的RNN神经网络输出层有三个节点,对应输出的三种模式。第58页,共97页,编辑于2022年,星期三58循环神经网络的结构 第59页,共97页,编辑于2022年,星期三593)仿真实验与结果分析 针对白噪声和汽车噪声环境对数字09的语音数据进行实验,用来做测试的语音文件每组50个,包括男生和女生发音,含有汽车噪声的语音信号平均信噪比10dB和5dB,分别模拟
30、汽车中速和高速行驶环境下的录音。第60页,共97页,编辑于2022年,星期三60实验室背景下基于能量和过零率的端点检测结果 第61页,共97页,编辑于2022年,星期三61信噪比15dB时基于能量和过零率的检测结果 第62页,共97页,编辑于2022年,星期三62信噪比15dB时基于小波变换的端点检测结果 第63页,共97页,编辑于2022年,星期三63信噪比5dB时基于小波变换的端点检测结果第64页,共97页,编辑于2022年,星期三64信噪比5dB时基于循环神经网络小波变换的端点检测结果 第65页,共97页,编辑于2022年,星期三65方法 测度白噪声/dB汽车噪声/dB0515510En
31、ergy0.620.750.800.720.780.530.610.780.590.690.590.720.780.680.75Wavelet0.850.900.990.870.900.700.820.980.770.800.810.880.990.840.87RNN0.900.951.000.910.920.750.880.980.820.850.860.920.990.880.92噪声情况下各种语音端点检测方法比较第66页,共97页,编辑于2022年,星期三66 基于能量和过零率的端点检测方法在实验室环境下可以获得较好的端点检测结果,随着信噪比的降低该方法检测的准确率将随之下降,基于小波变
32、换和基于循环神经网络的端点检测方法对于噪声具有一定的鲁棒性,但是随着噪声的明显增大,小波变换的方法得到的检测结果仍然有所下降,与之相比基于循环神经网络的方法的鲁棒性要优于基于小波变换的方法,具有很大的优越性和实用性。结果分析:结果分析:第67页,共97页,编辑于2022年,星期三672.8 短时能量和平均幅度分析短时能量和平均幅度分析原理:语音信号能量随时间有相当大的变化,特别是清音段的能量一原理:语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。般比浊音段的小得多。定义定义:1、短时能量分析、短时能量分析第68页,共97页,编辑于2022年,星期三68决定短时能量特性
33、有两个条件:不同的窗口的决定短时能量特性有两个条件:不同的窗口的形状形状和和长度长度。矩形窗:第一个零点:窗口形状:q窗长对分辨率的影响窗长越长,频率分辨率越高,而时间分辨率越低第69页,共97页,编辑于2022年,星期三69海明窗:第一个零点:矩形窗谱平滑性能好,但损失高频成分,波形细节丢失,海明窗与之相反。第70页,共97页,编辑于2022年,星期三70N=51的直角窗和海的直角窗和海明窗的对数幅频特明窗的对数幅频特性。海明窗的第一性。海明窗的第一个零值频率位置比个零值频率位置比直角窗要大直角窗要大1倍左倍左右,同时其带外衰右,同时其带外衰减也比直角窗大得减也比直角窗大得多。多。第71页,
34、共97页,编辑于2022年,星期三71这里窗长的选择对于反映语音信号的幅度变化起着决定的作用。如果很大,它等效于很窄的低通滤波器,此时随时间的变化很小,不能反映语音信号的幅度变化,信号的变化细节就看不出来;反之,窗长太小时,滤波器的通带变宽,随时间有急剧的变化,不能得到平滑的能量函数。窗口的长度:标准:一帧内含有标准:一帧内含有17个基音周期,个基音周期,10kHz取样下,取样下,N取取100200点。点。第72页,共97页,编辑于2022年,星期三722、短时平均幅度分析、短时平均幅度分析定义:定义:框图:框图:优点:优点:1、对高电平信号不如、对高电平信号不如En敏感;敏感;2、计算方法简
35、单。、计算方法简单。缺点:浊音和清音的区分不如缺点:浊音和清音的区分不如En明显。明显。第73页,共97页,编辑于2022年,星期三73短时平均能量和短时平均幅度的主要用途:短时平均能量和短时平均幅度的主要用途:可可以以区区分分清清音音段段与与浊浊音音段段:En值值大大的的对对应应于于浊浊音音段段,而而En值值小小的的对对应应于于清清音音段段。En值值的的变变化化,可可大大致致判判定浊音变为清音或清音变为浊音的时刻。定浊音变为清音或清音变为浊音的时刻。可可以以用用来来区区分分声声母母与与韵韵母母的的分分界界,无无声声与与有有声声的的分界,连字分界,连字(指字之间无间隙指字之间无间隙)的分界等。
36、的分界等。作为一种超音段信息,用于语音识别中。作为一种超音段信息,用于语音识别中。第74页,共97页,编辑于2022年,星期三742.9 短时过零分析短时过零分析定义:过零就是信号通过零值。定义:过零就是信号通过零值。连续语音信号,考察其时域波形通过时间轴的情况;连续语音信号,考察其时域波形通过时间轴的情况;离散时间信号,相邻的取样值改变符号则称为过零。离散时间信号,相邻的取样值改变符号则称为过零。语音信号序列是宽带信号,语音信号序列是宽带信号,则不能简单用上面的公则不能简单用上面的公式。式。第75页,共97页,编辑于2022年,星期三75语音信号短时过零分析语音信号短时过零分析定义:定义:其
37、中:框图:第76页,共97页,编辑于2022年,星期三76短时过零分析的意义:短时过零分析的意义:可以区分清音与浊音:浊音时具有较低的平均过零数,而清音时具可以区分清音与浊音:浊音时具有较低的平均过零数,而清音时具有较高的平均过零数。有较高的平均过零数。利用它可以从背景噪声中找出语音信号,可用于判断寂静利用它可以从背景噪声中找出语音信号,可用于判断寂静无语音和有语音的起点和终点位置。无语音和有语音的起点和终点位置。在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零数识别较为有效。用平均过零数识别较为有效。第77页,共9
38、7页,编辑于2022年,星期三772.10 语音信号的倒谱分析语音信号的倒谱分析求语音倒谱特征参数,通过同态处理来实现。求语音倒谱特征参数,通过同态处理来实现。倒谱分析:运用对数运算和二次倒谱分析:运用对数运算和二次FFT/IFFT变换,将基音谐波和声变换,将基音谐波和声道的频谱包络分离出来,用低时窗从语音信号倒谱中截取出低倒道的频谱包络分离出来,用低时窗从语音信号倒谱中截取出低倒谱域部分,可以更精确的反映声道的响应,得到共振峰。谱域部分,可以更精确的反映声道的响应,得到共振峰。2、对原、对原语音信号分析出一组预测系数,得到语音产生模型的频率响应。语音信号分析出一组预测系数,得到语音产生模型的
39、频率响应。同态处理(同态滤波):解卷,将卷积关系变为求和处理。同态处理(同态滤波):解卷,将卷积关系变为求和处理。将语音信号的声门激励和声道响应分离开。将语音信号的声门激励和声道响应分离开。第78页,共97页,编辑于2022年,星期三78同态信号处理的基本原理同态信号处理的基本原理信号分类:加性信号、乘积性信号、卷积性信号等。信号分类:加性信号、乘积性信号、卷积性信号等。同态信号处理目的:将非线性问题转化为线性问题来处理。同态信号处理目的:将非线性问题转化为线性问题来处理。同态信号处理分类:乘积同态处理和卷积同态处理两种。同态信号处理分类:乘积同态处理和卷积同态处理两种。第79页,共97页,编
40、辑于2022年,星期三79q特征系统 D*q反特征系统 D*-1:它是特征系统的反运算卷积同态系统:第80页,共97页,编辑于2022年,星期三80q特征系统 D*第81页,共97页,编辑于2022年,星期三81反特征系统 D*-1:第82页,共97页,编辑于2022年,星期三82复倒谱和倒谱 是是一一个个时时域域序序列列,我我们们 称称是是x(n)的的“复复倒倒频频谱谱”,简简称称为为“复复倒倒谱谱”,有有时时也也称称作作对对数数复复倒倒谱谱。所所处处的的离离散散时时域域,称称之之为为“复复倒倒谱谱域域”。这这样样,特特征征系系统统D*将将离离散散时时域域中中的的卷卷积积运运算算转转换换为为
41、复复倒倒谱谱域域中中的的加加性性运运算算。进进行行同同态态信信 号号 处处 理理 后后,即即 可可 完完 成成 解解 卷卷 的的 任任 务务。若若 时时 域域 中中 有有 ,则则复复倒倒谱谱域域中中 。假假设设 位位于于复复倒倒谱谱域域中中不不同同的的间间隔隔内内并并且且互互不不交交替替,那那么么适适当当地地设设计计线线性性系系统,便可将统,便可将x1(n)或或x2(n)分离出来。分离出来。第83页,共97页,编辑于2022年,星期三83q特征系统 D*q反特征系统D*-1c(n)是是序序列列x(n)对对数数幅幅度度谱谱的的傅傅里里叶叶逆逆变变换换,c(n)称称为为“倒倒频频谱谱”或简称为或简
42、称为“倒谱倒谱”,有时也称,有时也称“对数倒频谱对数倒频谱”。第84页,共97页,编辑于2022年,星期三84复倒谱和倒谱的特点和关系:1.复倒谱要进行复对数运算,倒谱只进行实对数运算。2.倒谱情况下,一个序列经过正反两个特征系统以后不能还原成自身,因为丢失相位信息。4.已知一个实序列的复倒谱,可以求其倒谱。5.已知倒谱,可以求复倒谱。第85页,共97页,编辑于2022年,星期三85语音信号的复倒谱语音信号的复倒谱语音信号可看作是声门激励信号和声道冲激响应语音信号可看作是声门激励信号和声道冲激响应序列的卷积序列的卷积。1 声门激励信号声门激励信号 发浊音时,声门激励是以基音周期为周期的冲激序发
43、浊音时,声门激励是以基音周期为周期的冲激序列:列:第86页,共97页,编辑于2022年,星期三86得到复倒谱:得到复倒谱:对上式取对数并按泰勒级数展开:第87页,共97页,编辑于2022年,星期三87或:一个周期冲激的有限长度序列,其复一个周期冲激的有限长度序列,其复倒谱也是一个周期冲激序列,而且长倒谱也是一个周期冲激序列,而且长度不变,只是序列变为无限长度序列。度不变,只是序列变为无限长度序列。同时其振幅随着同时其振幅随着k值的增大而衰减。值的增大而衰减。第88页,共97页,编辑于2022年,星期三882 声道冲激响应序列声道冲激响应序列 如果用最严格如果用最严格(也是最普遍的也是最普遍的)
44、极零模型来描述声道冲激响应,则其极零模型来描述声道冲激响应,则其Z变换的形式为:变换的形式为:第89页,共97页,编辑于2022年,星期三89取对数进行泰勒级数展开:第90页,共97页,编辑于2022年,星期三90进行逆进行逆z z变换,得复倒谱变换,得复倒谱 第91页,共97页,编辑于2022年,星期三91结论:是双边序列,存在于是双边序列,存在于-nn的范围内。的范围内。是衰减序列,是衰减序列,随随|n|的增大而减小。的增大而减小。随随|n|增大而衰减的速度至少比增大而衰减的速度至少比1|n|快,快,如果如果x(n)是最小相位序列,是最小相位序列,为因果序列。为因果序列。l如果如果x(n)
45、是最大相位序列,是最大相位序列,为反因果序列。为反因果序列。第92页,共97页,编辑于2022年,星期三92避免相位卷绕避免相位卷绕在复倒谱分析中,在复倒谱分析中,z变换后得到的是复数,所以取对数时进行的是复对数运算。变换后得到的是复数,所以取对数时进行的是复对数运算。这时存在相位的多值性问题,称为这时存在相位的多值性问题,称为“相位卷绕相位卷绕”。产生相位的多值避免相位卷绕的算法有:微分法、最小相位信号法、避免相位卷绕的算法有:微分法、最小相位信号法、递归法等。递归法等。第93页,共97页,编辑于2022年,星期三93(a)(b)(c)(d)浊语音的倒谱和复倒谱实例浊语音的倒谱和复倒谱实例实
46、例分析实例分析 窗窗 长长 为为15ms,fs=10kHz,因因 此此 共共包包括括150个个语语音音样样点点。这这 段段 语语 音音用用 海海 明明 窗窗加加 权权,基基音音 周周 期期 为为Np=45。第94页,共97页,编辑于2022年,星期三94先用窗先用窗w(n)选择一个语音段,再计算复倒谱,然后将欲得到选择一个语音段,再计算复倒谱,然后将欲得到的复倒谱分量用一个的复倒谱分量用一个“复倒谱窗复倒谱窗”分离出来。所得到分离出来。所得到的窗选复倒谱用逆特征系统进行处理以恢复所需的卷积分量。的窗选复倒谱用逆特征系统进行处理以恢复所需的卷积分量。第95页,共97页,编辑于2022年,星期三9
47、5浊音语音用同态滤波分离出声门激励和浊音语音用同态滤波分离出声门激励和声道响应的示例声道响应的示例(a)(b)上图给出了经过滤波和逆特征系统处理后的结果。图上图给出了经过滤波和逆特征系统处理后的结果。图(a)为经过为经过低复倒谱窗低复倒谱窗l(n)和和 之后的输出波形即声道冲击响应,图(之后的输出波形即声道冲击响应,图(b)给)给出了声门激励信号。可以看出声门激励波形近视于一个冲击串,其幅出了声门激励信号。可以看出声门激励波形近视于一个冲击串,其幅度随时间变化保持了用来加权输入信号所用的海明窗形状。度随时间变化保持了用来加权输入信号所用的海明窗形状。第96页,共97页,编辑于2022年,星期三96清语音的同态分析清语音的同态分析(a)(b)上图给出了相同条件下一段加窗语音的时域波形及其倒谱。图(上图给出了相同条件下一段加窗语音的时域波形及其倒谱。图(a)是一个海明窗乘过)是一个海明窗乘过的清音语音段,图的清音语音段,图(b)为相应的倒谱。可见倒谱中没有出现在浊音情况下的那种尖峰,为相应的倒谱。可见倒谱中没有出现在浊音情况下的那种尖峰,然而倒谱的低时域部分包含了关于声道冲击响应的信息。然而倒谱的低时域部分包含了关于声道冲击响应的信息。第97页,共97页,编辑于2022年,星期三97