语音教学—语音产生及数学模型.pptx

上传人:莉*** 文档编号:87289778 上传时间:2023-04-16 格式:PPTX 页数:75 大小:4.02MB
返回 下载 相关 举报
语音教学—语音产生及数学模型.pptx_第1页
第1页 / 共75页
语音教学—语音产生及数学模型.pptx_第2页
第2页 / 共75页
点击查看更多>>
资源描述

《语音教学—语音产生及数学模型.pptx》由会员分享,可在线阅读,更多相关《语音教学—语音产生及数学模型.pptx(75页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、一、语音处理研究的基本内容从人与计算机交互的角度来看语音信号相应的处理如下:(1)人与计算机通信(计算机接收语音信号):语音识别与理解;(2)计算机与人通信(计算机输出语音)语音合成:包括音乐合成和语音合成;(3)人-计算机-人通信:人通过网络,与处于异地的人进行语音通信,需要的语音处理包括:语音采集语音编码语音传输解码等。这里语音编/解码技术是信道利用率的关键。第1页/共75页说的是什么内容?是谁在说话?计算机去说话?语音识别声纹识别语音合成第2页/共75页2011-3-9第3页/共87页一、语音信号处理研究的基本内容第3页/共75页第4页/共75页语音处理综合性的新兴学科综合性的新兴学科语

2、音合成教计算机学会说话教计算机学会说话 语音识别 让计算机听懂人类语言让计算机听懂人类语言 语音编码 去除冗余压缩数据去除冗余压缩数据 第5页/共75页研究内容涉及三方面相互密切配合的任务和课题:应用基础理论和算法硬件系统第6页/共75页1 1应用方面 通信产业起源于1874年电话的发明。从那时起,通信产业大致发生了三次重大变革。(1)第一次变革产生于七十年代初。1972年CCITT组织公布了第一个语音编码标准G.711。即对数PCM编码,由此开始,数字程控交换网络逐步淘汰了传统的模拟交换传输方式。第7页/共75页(2)第二次重大变革产生于八十年代末。1988年欧共体13个国家数字移动特别工作

3、组(GSM)制定了采用长时预测规则码激励的编码标准(13k bps RPE-LTP)。从而确立了全球范围移动通信产业(第二个通信网络)的崛起。第8页/共75页(3)第三次变革是指以新兴的计算机因特网为基础的信息高速公路为标记如何在INTERNET网上有效地传输话音。IP电话将使因特网成为第三个话音通信传输网。目前IP电话所用的话音编码标准有G.723.1、G.728、G.729等。这些标准各有长短。人们正在努力研究适合IP电话的新的编码算法。低延迟、低码率、低复杂性、高音质的话音编码算法将是未来IP电话网络的奠基石。第9页/共75页2 2、基础理论和算法方面从以下方面进行:(1)语音产生的机理

4、(发音)和感知机理(听)涉及心理学、语音学、语言学、认知学、神经生理学等。(2)将语音作为一种信号来处理 第10页/共75页第11页/共75页常用语音编码算法分类语音编码算法PCM预测编码变换编码付立叶变换斜变换小波变换统计编码Huffman编码算术编码游程编码其他编码二值图像编码子带编码轮廓编码固定自适应固定自适应离散余弦变换KL变换沃尔什哈达马Harr变换LZW矢量量化差分预测第12页/共75页(3)硬件实现:实时语音语音处理系统的产品化。(略)第13页/共75页分为五个阶段:想说阶段说出阶段传送阶段接收过程 理解阶段二、人的言语二、人的言语(speech)(speech)过程过程第14页

5、/共75页想说阶段说出阶段传送阶段接受阶段理解阶段机器翻译文语转换语音分析语音编码语音加密公用电信网移动通信网语音解码语音增强语音识别语音理解机器翻译图1.1人的语言过程第15页/共75页人的语言过程第16页/共75页1、人的发音器官组成:肺和气管组成声源;喉和声带称为声门;由咽腔、口腔、鼻腔组成声道。三、三、语音的发音机理语音的发音机理第17页/共75页 人的发音生理机构主声道:声门以上,经咽喉、口腔、鼻道第18页/共75页 机理示意第19页/共75页 过程:发音时由肺部收缩送出一股直流空气经气管流至喉头声门处;在声门处的声带肌肉收缩,声带产生振动而且具有一定的振动周期,从而产生声音。第20

6、页/共75页功能肺:产生压缩气体,通过气管传送到声音生成系统。喉:控制声带运动的复杂系统。主要包括:环状软骨、甲状软骨、杓状软骨、声带第21页/共75页第22页/共75页声带是伸展在喉前、后端之间的褶肉,前端由甲状软骨支撑,后端由杓状软骨支撑,而杓状软骨又与环状软骨较高部分相联。这些软骨在环状软骨上的肌肉的控制下,能将两片声带合拢或分离。声带之间的间隙称为声门,功能主要是产生激励。第23页/共75页声道:声道包括喉以上的所有发音器官。主要功能是传输调制声波。成年男性声道的长度为17cm。当声波通过声道时,其频率高低受声腔共振的影响。这种共振与声道不同区段形状有关。第24页/共75页四、语音的听

7、觉机理听 觉 器 官 耳是听觉的外周感觉器官。听觉和保持平衡的功能.外耳:耳廓、外耳道。中耳:鼓膜、听小骨、咽鼓管和听小肌。内耳:耳蜗。第25页/共75页1.1.声音的传递:外耳、中耳外耳的功能(2)(2)外耳道:外耳道:传音的通路;传音的通路;增加声强:与增加声强:与4 4倍于外耳道长的声波长倍于外耳道长的声波长(正常语言正常语言交流的波长交流的波长)发生共振,从而增加声强。发生共振,从而增加声强。(1)(1)耳廓:利于集音;判断声源:依据声波到达两耳的强弱和时间差判断声源。第26页/共75页结构特点:是一个具有一定紧张度、动作灵敏、斗笠状的半透明膜,对声波的频率响应较好,失真度较小。外耳道

8、外耳道鼓膜鼓膜镫骨镫骨锤骨锤骨砧骨砧骨半规管半规管中耳的功能 鼓膜:功能作用:功能作用:能如实地把声波振动传递给听小骨。能如实地把声波振动传递给听小骨。第27页/共75页(2).(2).听小骨:结构特点:由锤骨由锤骨-砧骨砧骨-镫骨依次连接成镫骨依次连接成呈弯曲杠杆状的呈弯曲杠杆状的听骨链。听骨链。功能作用功能作用:传递振动,增强振压传递振动,增强振压(1.3(1.3倍倍),减小振幅,减小振幅(约约1/4)1/4),防止卵圆窗膜因振幅过大,防止卵圆窗膜因振幅过大造成损伤。造成损伤。第28页/共75页(3).(3).咽鼓管:结构特点:是鼓室与咽腔相通的管道,其鼻咽部的开口通常呈闭合状态,当吞咽、

9、打呵欠或喷嚏时则开放。功能作用:调节鼓膜两侧气压平衡、维持鼓膜正常位置、形状和振动性能。咽鼓管粘膜上的纤毛运动可排泄中耳内的分泌物。第29页/共75页2.2.2.2.声波在内耳耳蜗转变为动作电位声波在内耳耳蜗转变为动作电位 内内耳耳耳耳蜗蜗形形似似蜗蜗牛牛壳壳,蜗蜗管管腔腔被被前前庭庭膜膜和和基基膜膜分分隔隔为为三三个个腔腔:前前庭庭阶阶、蜗蜗管管和和鼓阶。鼓阶。基膜上有螺旋器:基膜上有螺旋器:由内、外毛细由内、外毛细胞、支持细胞及胞、支持细胞及盖膜等构成盖膜等构成.第30页/共75页 当当声声音音振振动动中中耳耳听听骨骨链链振振动动卵卵圆圆窗窗振振动动前前庭庭阶阶外外淋淋巴巴+基基膜膜上上下

10、下振振动动:以以行行波波方方式式从从蜗蜗底底向向蜗蜗顶顶传传播播,同同时时振振幅幅也也逐逐渐渐加加大大,到到基基膜膜的的某某一一部部位位,振幅达到最大,以后则很快衰减。振幅达到最大,以后则很快衰减。基基膜膜的的最最大大振振幅幅区区为为兴兴奋奋区区,该该部部位位的的毛毛细细胞胞受受到刺激而兴奋,从而引起不同音调的感觉。到刺激而兴奋,从而引起不同音调的感觉。耳蜗底部-高音、中部-中音、顶部-低音 高频声波低频声波第31页/共75页声 波外耳道鼓 膜听骨链卵圆窗前庭阶外淋巴基底膜螺旋器上下振动毛细胞的听毛弯曲毛细胞的听毛与盖膜发生交错的移行运动耳蜗的感音换能作用耳蜗的感音换能作用 耳蜗的功能之一是声

11、耳蜗的功能之一是声-电转换的换能作用。电转换的换能作用。听神经动作电位毛细胞膜上离子通透性改变第32页/共75页 声波振动声波振动外耳外耳(耳廓耳廓外耳道外耳道)中耳中耳(鼓膜鼓膜听小骨听小骨卵圆窗卵圆窗)内耳内耳(耳蜗的内淋巴液耳蜗的内淋巴液螺旋器螺旋器声声-电转换电转换)神经冲动神经冲动听觉中枢听觉中枢听觉。听觉。听听觉觉的的产产生生过过程程第33页/共75页耳蜗截面图耳蜗截面图第34页/共75页第35页/共75页听觉的形成听觉的形成声波声波外耳道外耳道声波的通道声波的通道鼓膜鼓膜耳廓耳廓收集声波收集声波听小骨听小骨声音放大声音放大耳蜗耳蜗耳蜗内有听觉感受器耳蜗内有听觉感受器产生兴奋产生兴

12、奋听神经听神经大脑大脑听觉听觉将振动转换成神经冲动将振动转换成神经冲动传递冲动传递冲动振动传声振动传声-将声波转换成振动将声波转换成振动第37页/共75页传导性聋传导性聋经空气径路传导的声波,受到经空气径路传导的声波,受到外耳道,中耳病变的阻碍,到达内外耳道,中耳病变的阻碍,到达内耳的声能减弱,致使不同程度听力耳的声能减弱,致使不同程度听力减退者称为传导性聋。减退者称为传导性聋。第38页/共75页神经性耳聋神经性耳聋内耳听毛细胞、血管纹、螺旋神经节、内耳听毛细胞、血管纹、螺旋神经节、听神经或听觉中枢的器质性病变均可阻碍听神经或听觉中枢的器质性病变均可阻碍声音的感受与分析或影响声音讯息的传递,声

13、音的感受与分析或影响声音讯息的传递,由此引起的听力减退或听力丧失称为感音由此引起的听力减退或听力丧失称为感音神经性聋。神经性聋。第39页/共75页五、语音信号模型 语音信号模型的基本思想是认为任何语音都是由一个适当的激励源作用于声道而产生的,这意味着激励源与声道系统是互相独立的。有三部分作用施加在语音的声波上:声门产生的激励模型G(z);声道产生的调制函数V(z);嘴唇产生的辐射函数R(z)。语音信号的传递函数由这三个函数级联而成,即:H(z)=G(z)V(z)R(z)第40页/共75页激励过程激励过程(声门)(声门)调制过程调制过程(声道)(声道)语音辐射语音辐射人的发声过程包括三个步骤:声

14、门/声带产生不同频率的声音(准周期气流脉冲或白噪声)(准周期气流脉冲或白噪声)声道对声源的调制作用 第41页/共75页语音信号的产生数学模型激励模型声道模型辐射模型第42页/共75页1、语音类型压缩空气通过声门激励声道滤波器,根据激励方式不同发出的话音分成三种类型:浊音(voiced sounds)清音(unvoiced sounds)爆破音(plosive sounds)第43页/共75页话音的分类浊音(voiced sounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。清音(unvoiced sounds):声

15、带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。清音:纯粹由气流受阻构成,声带不振动,不带乐音。普通话中包括b、p、f、d、t、g、k、h、j、q、x、zh、ch、sh、z、c、s,共17个。浊音:除气流受阻以外,声带振动,带乐音。普通话中包括m、n、l、r,共4个。爆破音p b t d k g.第44页/共75页(1)(1)、发浊音情况 空气流经过声带时,如果声带是崩紧的,则声带将产生张弛振动,即声带将周

16、期性地启开和闭合。声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙期。因此,这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波,这便是浊音语音。这个准周期脉冲的周期即为基音周期。男性的基语音率一般为50250Hz,女性基语音率为100500Hz。第45页/共75页第46页/共75页(2)(2)、发清音情况 空气流经过声带时,如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气流通过声门后,会遇到两种不同情况。一种情况是,如果声道的某个部位发生收缩形成了一个狭窄的通道,当空气流到达此处时被迫以高速冲过收缩区,并

17、在附近产生出空气湍流,这种湍流空气通过声道后便形成所谓摩擦音或清音。另一种情况是,如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,闭合点突然开启便会让气压快速释放,经过声道后便形成所谓爆破音。第47页/共75页2 2、语音生成 下图为语音生成的机理模型。空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。在声门(声带)以左,称为“声门子系统”,它负责产生激励振动;右边是“声道系统”和“辐射系统”。当发不同性质的语音时,激励和声道的情况是不同的,它们对应的模型也是不同的。第48页/共75页发音器官机理模型第49页/共75页3、二元激励模型l发浊音时,

18、由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角形的脉冲。第50页/共75页第51页/共75页由图可以看出单个斜三角波的频谱G(ej)表现出一个低通滤波器的特性。可以把它表示成z变换的全极点形式:因此,作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励上述单位斜三角波模型实现。这个单位脉冲串和幅值因子可以表示成下面的Z变换形式第52页/共75页所以浊音激励模型可表示为在发清音的场合,声道被阻碍形成湍流。所以可以模拟成随机白噪声。第53页/共75页4、声道模型典型的声道模型有两种。即:共振峰模型和无损声管模型。通过两种方法得到的数字模型本质上没有区别。(1)共振峰模型 当声

19、波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,一般把它叫作共振峰,如下图。第54页/共75页第55页/共75页 从物理声学可以容易推导出均匀断面的共振峰频率。例如对成人声道17cm长,其共振频率计算公式为:i是共振频率的序号,c为声波的速度,L为声管长度。按此算出前三个共振频率为:F1=500Hz,F2=1500Hz,F3=2500Hz。由于发音时,声道的形状很少是均匀断面的。因此必须通过语音信号来计算共振峰。第56页/共75页一个二阶谐振器的传输函数可以写成 实践表明,用前三个共振峰代表一个元音足够了。多个Vi叠加可以得到声道的

20、共振峰模型:第57页/共75页(2)无损声管模型无损声管模型是假定声道由多个等长的不同截面积的管子串联而成的系统,并假定管子中的流体及管壁没有热传导和粘滞的损耗。在短时间内,声道可表为形状稳定的管道,并可以认为声波是沿管轴传播的平面波,如图所示。第58页/共75页可以把声道视作截面积变化的管子,研究声音沿管道是怎样传播的第59页/共75页第60页/共75页对于N个无损声管级联的情况,通过数学推导和归纳法,忽略系统延迟,可得到无损声管的传递函数为:第61页/共75页5、辐射模型从声道模型输出的是速度波ul(n),而语音信号是声压波Pl(n)。二者倒比称为辐射阻抗Zl,它表征口唇的辐射效应。如果认

21、为口唇张开的面积远远小于头部的表面积,利用单板开槽辐射的处理方法,可以得到辐射阻抗,r近似为1第62页/共75页 由辐射引起的能量损耗正比于辐射阻抗的实部R(z),其频响曲线表现出一阶高通滤波器的特性。在实际信号分析时,常用所谓预加重技术,即:在取样之后加入一个一阶高通滤波器。这样,模型只剩下声道部分,对参数分析就方便了。在语音合成时再进行解加重处理。常用的预加重因子为,这里R(n)是信号S(n)的自相关函数,对浊音R(1)R(0)1,对清音该值可取得很小。第63页/共75页6、语音产生的数字模型下图出了语音产生的数字模型。它包括三部分:激励模型、声道模型和辐射模型。激励源分浊音和清音两个分支

22、,按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。第64页/共75页第65页/共75页7、模型局限性 数字模型的基本思想是认为任何语音都是由一个适当的激励源作用于声道而产生的,这意味着激励源与声道系统是互相独立的。上述假定对于大多数语音是合适的,但在有些情况下,例如某些瞬变音,实际上声门和声道是互相耦合的,这便形成了这些语音的非线性特性。第66页/共75页 并非任何语音都能够明显地按清音和浊音来划分,有的音甚至也不是清音和浊音的简单叠加。这种将语音信号截然分为周期脉冲激励和噪声激励两种情况的“二元激励”法在高质语音的合成中是不适用的。7、模型局限性第67页/共75页一种更精确的域音

23、产生模型第68页/共75页电话是如何发明的亚历山大格拉汉姆贝尔(AlexanderGrahamBell,1847-1942)美国发明家和企业家。他发明了世界上第一台可用的电话机,创建了贝尔电话公司。被誉为“电话之父”。1847年生于英国苏格兰,他的祖父亲毕生都从事聋哑人的教育事业,由于家庭的影响,他从小就对声学和语言学有浓厚的兴趣。开始,他的兴趣是在研究电报上。有一次,当他在做电报实验时,偶然发现了一块铁片在磁铁前振动会发出微弱的声音,而且他还发现这种声音能通过导线传向远方。这给贝尔以很大的启发。他想,如果对着铁片讲话,不也可以引起铁片的振动吗?这贝尔关于电话的最初构想。第69页/共75页电话

24、是如何发明的第70页/共75页电话是如何发明的为了纪念贝尔的功绩,将电学和声学中计量功率或功率密度比值的一种单位命名为“贝尔”。由于贝尔1876年3月10日所使用的这部电话机的送话器,在原理上与另一位电话发明家菲利浦格雷(德国科学家)的发明雷同,因而格雷便向法院提出起诉。一场争夺电话发明权的诉讼案便由此展开,并一直持续了十多年。最后,法院根据贝尔的磁石电话与格雷的液体电话有所不同,而且比格雷早几个小时提交了专利申请等这些因素,作出了现在大家已经知道结果的判决,电话发明权案至此画上句号。第71页/共75页共振峰频率或共振峰 当声音产生后,便沿着声道进行传播。声道可以看成是一根具有非均匀截面的声管,在发音时起着共鸣器的作用。声音进入声道后,其频谱必定会受到声道的共振特性的影响,声道具有一组共振频率,称为共振峰频率或共振峰。声道的频谱特性便主要地反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。第72页/共75页第二章 作业题1发音器官的组成及功能。2语音的产生过程。3声门、声道、浊音、清音、基音周期、共振峰。第73页/共75页4语音信号模型由哪三部分组成?5典型的两种声道模型,共振峰概念。第74页/共75页75/76感谢您的观看!第75页/共75页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁