教案：第二章语音信号处理的基础知识（4课时理论+2课时上机）.docx-淘文阁

资源描述

《教案：第二章语音信号处理的基础知识（4课时理论+2课时上机）.docx》由会员分享，可在线阅读，更多相关《教案：第二章语音信号处理的基础知识（4课时理论+2课时上机）.docx（17页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数字语音处理A课程教案授课题目第二章语音信号处理基础(2022.04.01)学时2授课方式课堂讲授课次第1次教学目的和要求教学要求：了解语音的发声和感知机理，理解语音产生数学模型及组成，能运用共振峰模型生成一个语音信号。教学目的：掌握语音信号处理的基本理论。教学重点和难点教学重点：语音产生数学模型及组成，语音的产生与感知机理。教学难点：语音信号的数字线性模型，以及运用该模型生成语音信号。主要内容时间安排课堂教学以课堂讲授、讨论为主，辅助以举例说明。对重点和难点的局部通过理论与算法实例比照进行详细讲解。利用超星学习通布置课外拓展阅读文献、参考代码和推荐学习网站及语音平台，加深教学深

2、度与广度。复习与引入：1 .知识抢答：语音处理的八大研究领域？2 .什么技术为机器装上了耳朵？3 .什么技术使机器具有了人工嘴巴的功能？(语音合成)2.1语音的产生与感知人类发音系统1 .人类语音是如何产生的？由人体发音器官在大脑控制下的生理运动产生。2 .发音器官有哪些？肺和气管、喉(包括声带)、声道(咽腔、鼻腔和口腔)组成。(1)肺、气管：整个语音系统的能源提供者(2)喉：主要的声音生成机构(3)声道：那么对生成的声音进行调制人类听觉系统讲授法、提问法： 10分钟讲授法、提问法、演示法：40 分钟每个管子可看作为一个四端网络，该网络具有反射系数，此时声道可由一组截面积或一组

3、反射系数来表示。,共振峰模型共振峰：元音激励声道时，引起共振，产生的一组共振频率，称为共振峰频率（共振峰）共振峰是区别元音的重要参数，包括其位置和频带宽度精确描述语音，应该用尽可能多的共振峰，工程中，常用前三个共振峰参数：第一共振峰F1、第二共振峰F2、第三共振峰F3元音的共振峰特性与发音机制有关F1与舌位高低有关，舌位高F1低；舌位低F1高舌位越低，嘴张得越大（开口度大）；舌位越高开口度越小F2与舌位前后密切相关，舌位靠前F2高，舌位靠后F2低前元音i的舌位靠前，F2达2000 Hz后元音u的舌位靠后，F2只有500 HzFl和F2和嘴唇的圆展程度也有关系，如圆唇可使F2降低等。F3与舌位有

4、关，并不密切，但受舌尖活动的影响，舌尖抬高卷起时，F3就明显下降舌位前后、唇形圆展和开口度大小对F1和F2的影响情况。成年女子和儿童的基频高于成年男子。区分语音是男声还女声，是成人声音还是儿童声音，更重要的因素是共振峰频率的高低。成年女性和男性的共振峰频率有明显的差异（约高25%）表I。个英语单兀音前3个共振峰频率的平均值/Hz元音ii:eXaAa:uu:dFi男27()39053066073057044030()640490女310430610860850590470370760500f2为22901990184017201090840102087011901350女27902480233

5、020501220920116095014001640Fa男3010255024802410244024102240224023901690女3310307029902810281027102610267027801960将声道看成为谐振腔，共振峰是该腔体的谐振频率。柯蒂氏器官的纤毛细胞按频率感受排列，故共振峰模型有效。实践证明：元音用前3个共振峰。辅音或鼻音，用到5个以上的共振峰。应用物理学知识可推导出均匀断面声管的共振峰频率。例：成人声道约为17.5cm,可计算出：fl = 500 Hz, （2= 1500 Hz, f3 = 2500 Hzo发同时声道最接近均匀断面，其共振峰最接近上述值。

6、从语音信号求出共振峰频率、带宽和幅度的方法是重要的。三种实用的共振峰模型：级联型、并联型、混合型。辐射系统辐射模型讲授法、提从声道模型输出的是速度波，而语音信号是声压波，二者之倒比称为辐射阻抗。口吐问法、该阻抗表征口唇的辐射效应，也包括圆形的头部的绕射效应等。此时，可推导出辐一演不射阻抗的公式如下：注1CzJQ）=加r分钟此+由于辐射引起的能量损耗正比于辐射阻抗实部，所以辐射模型是一阶类高通滤波器。在实际信号分析时，常用所谓“预加重技术”，即在取样之后，插入一个一阶的高通滤波器。此时，只剩下声道局部，就便于声道参数的分析。数学模型的实现完整的语音信号的数字模型可以用三个子模型：激励模型

7、、声道模型和辐射模型的串联来表示。基音频率外T-/4声道2笏数讲授法、提问法、：10分钟周期脉冲发生器声门脉冲模型G（z），卜弋甲本2七生士振声道模型 V（z），版应关辐射模型 R（z）输出语音激力基于共振1略复习人类发复习浊音和复习两类声复习辐射模随机噪声发生器效源箪模型的话声系统的组清音的激励道模型：声型。清合成与正模型管模西It曲曰f!、k浊音/清音开关声道模型当讲解（Matlat欠课小结数学模型之间对1峰模型辐射模型.本）:系教学设计步骤（时段）教学内容教师活动（方法手段）学生活动5分钟签到、知识问答、引出本讲主题、告知（教学内容、目的）知识抢

8、答：1 .人类发声系统组成及其作用？2 .人类发声机理对我们运用数学模型模拟发声的后示？配合知识抢答，复习和回顾上一章节内容设问：发声系统一一语音生成数学模型？讲授签到思考回答听讲5分钟说话过程：想说说出一传讲授听讲引入（声音产生过程）送接收理解提问20分钟（理论讲解）激励子系统两类语音信号（浊音、清音）的激励模型及其表达式演示讲解提问听讲个别回答35分钟（理论讲解）声道子系统无损声管模型共振峰模型共振峰模型的三种实现方式演示讲解提问听讲个别回答15分钟（理论讲解）辐射子系统辐射模型二元激励语音生成模型演示讲解提问听讲个别回答10分钟总结归纳本次课所讲

9、的内容，总结要实现的能力目标和知识目标，重点是理解激励模型、辐射模型和声道模型以及二元激励语音生成模型的流程图讲授听讲作业课堂练习：知识抢答1题简答题1题提问回答板书设计1 .语音生成系统组成激励子系统、声道子系统和辐射子系统三局部组成2 .激励模型浊音激励模型：斜三角波函数清音激励模型：高斯白噪声函数3 .声道模型声管模型共振峰模型4.辐射模型：一阶高通滤波作业1 .完善第一篇文献综述(主题不限)。2 .编写基于共振峰模型的元音语音生成，不限开发语言。参考资料1康广玉，郭世泽，孙圣和.基于共振峰过渡的协同发音语音合成算法几 2022(9).2李晨，韦怡，曾毓敏.改进的Mel频率尺度与

10、耳语音共振峰结合的耳语音增强算法:,2020.3李建文，王咿卜.多项式函数拟合实现汉语声调的语音合成J.西安科技大学学报,2021,41(3):10.4杨俊杰，李红明，岳玮，等.通信信道及通信设备对语音共振峰特性的影响 J.山西警察学院学报,2022(1).教学反思及持续改进意见1 .教学目标：课程内容是否到达预期的教学效果，对知识的掌握到达了预期目标？2 .教学内容：教学内容与教学目标是否贴合，重点难点把握得当？3 .教过过程：教学过程中讲授、讨论、练习是否安排合理？数字语音处理A课程教案授课题目第二章语音信号处理基础（调至2022.04.13 1-2节）学时2授课方式上机课次第3

11、次教学目的和要求教学要求：理解语音产生数学模型及组成，能运用共振峰模型生成语音信号。教学目的：掌握语音信号处理的基本理论。教学重点和难占八、教学重点：语音产生数学模型及组成。教学难点：语音信号的数字线性模型，以及运用该模型生成语音信号。主要内容时间安排课堂教学以学生上机为主，课堂讲授、讨论为辅，以Matlab版本代码为例，复现基于共振峰模型的语音信号生成。对重点和难点的局部通过理论与算法实例比照进行详细讲解。利用超星学习通布置课外拓展阅读文献、参考代码和推荐学习网站及语音平台，加深教学深度与广度。复习与引入：1 .回顾数字语音生成模型：激励模型、声道模型、辐射模型。2 .解析上述三个

12、模型对应的数学表达式。基于共振峰模型的语音合成代码讲解（Matlab版本）略学生上机操作讲授法、提问法、演示法：15 分钟75分钟教学设计步骤（时段）教学内容教师活动（方法手段）学生活动5分钟签到、知识问答、引出本讲主题、告复习数字语音生成模型讲授签到思考回答知(教学内容、目的)听讲10分钟代码讲解与演示 MATLAB代码演示与讲解讲授提问听讲75分钟(上机)对照教材给出的原理方程，编写相应代码，并测试结果答疑上机操作板书设计1 .数字语音生成系统组成激励子系统、声道子系统和辐射子系统三局部组成2 .激励模型3 .声道模型4 .辐射模型：一阶高通滤波作业1.编写并完善

13、基于共振峰模型的元音语音生成，不限开发语言。参考资料1康广玉，郭世泽，孙圣和.基于共振峰过渡的协同发音语音合成算法J. 2022(9).2李晨，韦怡，曾毓敏.改进的Mel频率尺度与耳语音共振峰结合的耳语音增强算法:,2020.13李建文，王咿卜.多项式函数拟合实现汉语声调的语音合成J.西安科技大学学报,2021,41(3):10.4杨俊杰，李红明，岳玮，等.通信信道及通信设备对语音共振峰特性的影响 J.山西警察学院学报,2022(1).教学反思及持续改进意见1 .教学目标：课程内容是否到达预期的教学效果，对知识的掌握到达了预期目标？2 .教学内容：教学内容与教学目标是否贴合，重点难点把

14、握得当？3 .教过过程：教学过程中讲授、讨论、练习是否安排合理？1.人类听觉系统组成与功能外耳、中耳和内耳。（1）外耳和中耳有导音的作用，合称为导音系（2）内耳有感音作用，称感音器。其感音作用起始于蜗神经的终端（螺旋器），故内耳的淋巴系统也属于导音系。各组成局部的作用（1）外耳由耳翼、外耳道和鼓膜组成，其作用是对声源定位和放大（2）中耳：为充气腔体，由鼓膜将其与外耳隔离，通过圆形窗和前庭窗两个小孔与内耳相通。通过咽鼓管与外界相连，以平衡气压，保护鼓膜。其作用是通过听小骨进行声阻抗变换，放大声压、保护内耳。（3）内耳（迷路）：在颅骨腔内，由半规管、前庭窗和耳蜗组成。是听觉接受器，把声音经

15、机械变换产生神经发放信号，其作用是感受声音。听觉产生过程声波鼓膜振动听小骨传递耳蜗基底膜振动=今产生神经脉冲人类听觉感知特性1 .听觉系统的两个重要特性：耳蜗对于声信号的时频分析特性、听觉掩蔽效应2,耳蜗的时频分析特性：声波推动镣骨运动，使耳蜗内流体压强变化，引起行波沿房底膜的传播。声频不同，产生的行波不同，峰值出现在基底膜的位置不同，呈现对数型分布：频率低，峰值出现在基底膜的顶附近；频率高，峰值出现在基底膜的底附近；振动强度增加，基底膜运动幅度加大。耳蜗的听觉选择性，在数学上，通常由一组基于等效矩形带宽刻度的Gammatone 滤波器来模拟，每个滤波器模拟基底膜不同部位最大位移处的

16、响应，四阶Gammatone 滤波器可很好地模拟基底膜的滤波特性。3.听觉掩蔽效应：在一个强信号附近，弱信号将变得不可闻，被掩蔽。掩蔽效应分为同时掩蔽和短时掩蔽。（1）同时掩蔽：同时存在的一个弱信号和一个强信号频率接近时，强信号会提高弱信号的听阀，当弱信号的听阀被升高到一定程度时就会导致这个弱信号变得不可闻。（2）短时掩蔽：分为后向掩蔽和前向掩蔽。即使掩蔽声消失后，其掩蔽作用将持续一段时间，约052秒，是由于人耳存储效应所致，这种效应称为后向掩蔽。假设被掩蔽声出现后，相隔00502秒之内出现了掩蔽声，它也会起掩蔽作用, 这是由于声音尚未被人所反响接受而强大的掩蔽声已来临所致，被称为前向掩蔽。

17、（3）掩蔽门限：被掩蔽掉的不可闻信号的最大声压级，在这个掩蔽阈值以下的声音将被掩蔽掉。提问：掩蔽效应对研究语音信号处理系统的启示？在语音信号处理中的典型应用？2.2 语音信号的数字化讲授法、提问法、：8分钟语音信号的数字化一般包括：放大及增益控制、反混叠滤波、采样、A/D变换及编码。反混叠滤波的作用：抑制输入信号各频域分量中频率超出二分之一采样频率的所有分量，以防止混叠干扰。抑制50Hz的电源工频干扰。提问：数字化过程中AGC的作用？2.3 语音信号的表征语音基本参数：讲授法、提问法、：24分钟（1）主观参数：响度、音高、音色（2）客观参数：振幅、频率、相位强度与响度强度是一个

18、物理测量值，以dB IL （声强级）、dB SPL （声压级）、dB HL （听力级）或dBSL （感觉级）为单位。响度属于心理范畴即人耳区分声音由强到弱的等级概念。小量增加一个微弱声音的强度，感觉的响度会增加很大。假设使响的声音更响比使弱的声音更响，需要增加更大的强度。频率与音高音调：是描述听觉分辨声音高低时的一种特性。客观上，用频率表示声音的音调，其单位是Hz。主观上，感觉音调的单位采用美（mel）标度。两者的关系：音调的测量以40 dB声强为基准，由主观感觉定标，且1kHz纯音的音调定为1000美。音调与频率是非线性的，与声强及波形有关。音色与音质音色乂称音品，指的是声音的感觉

19、特性，由声音波形的谐波频谱和包络决定。声音波形的基频所产生的最清楚的音称为基音，各次谐波的微小振动所产生的声音称泛音。不同的发声体由于材料、结构不同，发出声音的音色也就不同。“音质”笼统的意义是声音的品质，但是在音响技术中它包含了三方面的内容：声音的音高，即音频的强度或幅度；声音的音调，即音频的频率或每秒变化的次数；声音的音色，即音频泛音或谐波成分。语音信号的时域表示时间波形是语音信号最直观的表示，观察波形可看出语音信号的一些重要特性。语音信号的频域表示语音信号属于短时平稳信号，一般认为在1030ms内语音信号特性基本上是不变的，或者变化很缓慢。由幅度谱图可看出浊音的基音频率及谐波频

20、率（本例约250 Hz）。频谱中明显的凸起点是共振峰频率。清音频谱峰点间隔随机，没有周期分量。时变频谱（Fourier谱）图，即语谱图。讲授法、提问法：8分钟语谱图是三维频谱图，纵轴为频率，横轴为时间，谱能量用相应点的灰度或色调的浓淡来表示。语谱图：显示大量与语音特性有关的信息，它综合了频谱图和时域波形的特点，清晰地展示了语音频谱随时间的变化情况，或者说是一种动态的频谱。本次课小结回顾人类发声系统的组成及其作用回顾人类听觉感知系统的组成及其作用，以及耳蜗的频率选择性和听觉掩蔽效应回顾语音信号的数字化过程回顾语音信号的表征：主观三要素、客观三要素，以及两者的关系；时域波形表示, 频

21、谱图，语谱图。教学设计步骤（时段）教学内容教师活动（方法手段）学生活动5分钟签到、知识问答、引出本讲主题、告知（教学内容、目的）知识抢答：1 .语音处理的八大研究领域？2 .什么技术为机器装上了耳朵？3 .什么技术使机器具有了人工嘴巴的功能？（语音合成）配合知识抢答，复习和回顾上一章节内容设问：由人工嘴巴引出本讲的内容“人类发声系统与发声机理？”讲授签到思考回答听讲5分钟引入（人类说话过程）说话过程：想说-说出-传送-接收-理解讲授提问听讲20分钟（理论讲解）人类发声系统组成各组成局部作用演示讲解提问听讲个别回答20分钟（理论讲解）人类听觉感知系统组成各组成局部作用

22、耳蜗的频率选择性听觉掩蔽效应及其在语音信号中的应用演示讲解提问听讲个别回答8分钟（理论讲解）语音信号的数字化过程反混叠滤波的作用演示讲解提问听讲个别回答24分钟（理论讲解）语音的主观表征参数语音的客观表征参数语音信号时域波形演示讲解提问听讲个别回答李富强，万红，黄俊杰.基于MATLAB的语谱图显示与分析J.微计算机信息,语音信号频谱语音信号的语谱图8分钟总结归纳本次课所讲的内容，总结要实现的能力目标和知识目标，重点是理解人类发声机理与听觉感知机理以及语音信号的几类表征形式讲授听讲作业课堂练习：知识抢答3题简答2题提问回答板书设计1 .人类发声系统由肺和气管、喉（包括声带）、声

23、道（咽腔、鼻腔和口腔）三局部组成2 .人类听觉感知系统听觉外周指的是位于脑及脑干以外的结构，包括外耳、中耳、内耳和蜗神经，主要完成声音采集、频率分解以及声能转换等功能；听觉中枢包含位于听神经以上的所有听觉结构，对声音有加工和分析的作用，主要包括感觉声音的音色、音调、音强、判断方位等功能，还承当与语言中枢联系和实现听觉反射的功能。3 .语音信号表征（1）主观参数：响度、音高、音色（2）客观参数：振幅、频率和相位（3）时域波形（4）频谱图（5）语谱图作业1.第一篇文献综述（主题不限）。参考资料2005,21(10X):3.教学反思及持续改进意见王翠，王璐，解雪琴，等.基于AlexNet模型

24、的值语语谱图识别J. 2022(4).颜为之，王明文，徐凡，等.基于语谱图的江西境内赣方言自动分区研究JJ.中文信息学报,2021.4杨丽佳，舒坤贤.一种基于语谱图的语音情绪识别方法:,CN112581979AP. 2021.5于擎.简析声纹串并在非接触性网络诈骗案件侦破中的应用J.中国平安防范技术与应用,2021.6徐剑，简志华，于佳祺，等.采用完整局部二进制模式的伪装语音检测J.电信科学, 2021.17J李姗，徐珑婷.基于语谱图提取瓶颈特征的情感识别算法研究J. 2022(5).8张卫，贾宇，罗翠线.基于语谱图和胶囊网络的混合语音情感分类方法:, CN112562725AP. 202

25、1.I.教学目标：课程内容是否到达预期的教学效果，对知识的掌握到达了预期目标？2 .教学内容：教学内容与教学目标是否贴合，重点难点把握得当？3 .教过过程：教学过程中讲授、讨论、练习是否安排合理？数字语音处理A课程教案授课题目第二章语音信号处理基础（调课至2022.04.12, 3-4节）学时2授课方式课堂讲授课次第2次教学目的和要求教学要求：理解语音产生数学模型及组成，能运用共振峰模型生成语音信号。教学目的：掌握语音信号处理的基本理论。教学重点和难点教学重点：语音产生数学模型及组成。教学难点：语音信号的数字线性模型，以及运用该模型生成语音信号主要内容时间安排课堂教学以课堂讲授、讨论

26、为主，辅助以举例说明。对重点和难点的局部通过理论与算法实例比照进行详细讲解。利用超星学习通布置课外拓展阅读文献、参考代码和推荐学习网站及语音平台，加深教学深度与广度。复习与引入：1 .人类发声系统组成及其作用？2 .根据人类发声机理对我们选择数学模型来模拟或合成语音有什么启示？2.4语音产生的数学模型模拟人类发声机理，可将语音生成系统分成三个局部：/ 激励系统：在声门（声带）以下，称为“声门子系统”，负责产生激励振动；/ 声道系统：从声门到嘴唇的呼气通道；/ 辐射系统：语音是从嘴唇辐射出去，嘴唇以外是辐射系统。激励系统一激励模型语音分成清音和浊音：/ 清音由随机噪声激励产生/ 浊音由准周期

27、脉冲串激励产生，其周期称为基音周期。浊音情况下，激励信号的产生示意图如下。讲授法、提问法： 10分钟讲授法、提问法、演示法：20 分钟基音周期 UG 冲激：1；发生器，G(z)守一增益控制小浊音信号激励的产生冲激串发生器输出的单位冲激序列(冲激间隔为基音周期)。线性激励系统函数为G(z),经幅度控制后输出为浊音激励。 G(z)的反变换g(n)可以用Rosenberg函数近似表示：TT 0.5(1-cos-); 0 h N1 一 N )g(n) = cos-; N、W nW N、+ N 20;其它式中，N1斜三角波上升局部的时间，约占基音周期的50%；N2 斜三角波下降局部的时间，约占基音周期的35%。清音情况下，发塞音或摩擦音，声道被阻形成湍流。激励可模拟成随机白噪声，用均值为0、方差为1,时间或/和幅值为白色分布的序列。图示为考虑所有的激励因素，语音产生的数字模型。特点：二元激励，浊音、清音激励交替进行。声道可以用多种滤波器来模拟，通常，把辐射和声道等因素全部结合，表示为全极点函数：(n)=VXn)R(n)

展开阅读全文