语音信号处理课件.ppt

上传人:石*** 文档编号:42160119 上传时间:2022-09-14 格式:PPT 页数:35 大小:2.82MB
返回 下载 相关 举报
语音信号处理课件.ppt_第1页
第1页 / 共35页
语音信号处理课件.ppt_第2页
第2页 / 共35页
点击查看更多>>
资源描述

《语音信号处理课件.ppt》由会员分享,可在线阅读,更多相关《语音信号处理课件.ppt(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、关于语音信号处理现在学习的是第1页,共35页10.1 10.1 概述概述v自动说话人识别(自动说话人识别(Automatic Speaker Recognition Automatic Speaker Recognition 简称简称ASRASR),又),又称为话者识别或声纹识别,称为话者识别或声纹识别,是一种自动识别说话人的过程。说话是一种自动识别说话人的过程。说话人识别和语音识别的人识别和语音识别的区别区别在于,它不注重包含在语音信号内的文字符在于,它不注重包含在语音信号内的文字符号以及语意内容信息,而是着眼于包含在语音信号中的个人特征,提取号以及语意内容信息,而是着眼于包含在语音信号中的

2、个人特征,提取说话人的这些个人信息特征,以达到识别说别说话人的目的。说话人的这些个人信息特征,以达到识别说别说话人的目的。v按其最终完成的任务可以分为两类:按其最终完成的任务可以分为两类:*自动说话人自动说话人确认确认(Automatic Speaker Verification Automatic Speaker Verification,简称,简称ASVASV):确认一个人的身份,只涉及一个特定的参考模型和待识别模:确认一个人的身份,只涉及一个特定的参考模型和待识别模式之间的比较,只做式之间的比较,只做“是是”和和“不是不是”的判决。的判决。*自动说话人自动说话人辨认辨认(Automati

3、c Speaker Identification,(Automatic Speaker Identification,简称简称ASI)ASI):必须辨认出待识别的语音是来自待考察人中的哪一个,有时:必须辨认出待识别的语音是来自待考察人中的哪一个,有时还要对这个人以外的语音做出拒绝的判决。还要对这个人以外的语音做出拒绝的判决。现在学习的是第2页,共35页10.2 10.2 说话人识别方法和系统结说话人识别方法和系统结构构v说话人识别说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨认或

4、者确认过对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。图的目的。图10-110-1是说话人识别系统的结构框图,它由是说话人识别系统的结构框图,它由预处理、特征预处理、特征提取、模式匹配和判决提取、模式匹配和判决等几大部分组成。等几大部分组成。现在学习的是第3页,共35页v10.2.110.2.1预处理预处理 包包括括对对输输入入计计算算机机的的语语音音数数据据进进行行端端点点检检测测、预预加加重重、加加窗窗、分针等。分针等。v10.2.210.2.2说话人识别特征的选取说话人识别特征的选取 在在说说话话人人识识别别系系统统中中特特征征提提取取是是最最重重要要的的一一环环,

5、特特征征提提取取就就是是从说话人的语音信号中提取出表示说话人个性的基本特征。从说话人的语音信号中提取出表示说话人个性的基本特征。在理想情况下,选取的特征应当满足下述准则:在理想情况下,选取的特征应当满足下述准则:能能够够有有效效地地区区分分不不同同的的说说话话人人,但但又又能能在在同同一一说说话话人人的的语语音音发发生生变变化化时时相对保持稳定。相对保持稳定。易于从语音信号中提取易于从语音信号中提取不易被模仿不易被模仿尽量不随时间和空间变化尽量不随时间和空间变化现在学习的是第4页,共35页v如果把说话人识别中常用的参数加以简要归类,可划如果把说话人识别中常用的参数加以简要归类,可划分为以下几类

6、:分为以下几类:1.1.线性预测参数及其派生参数线性预测参数及其派生参数2.2.语音频谱直接导出的参数语音频谱直接导出的参数3.3.混合参数混合参数4.4.其他鲁棒性参数其他鲁棒性参数 上表是日本人上表是日本人Matui和和Furui在在1990年针对倒谱特征和基音特征所作的比较实验结果年针对倒谱特征和基音特征所作的比较实验结果所用特征所用特征误识率误识率/(%)倒谱差值倒谱基音差值基音倒谱与差值倒谱倒谱、差值倒谱与基音、差值基音9.4311.8174.4285.887.932.89现在学习的是第5页,共35页v10.2.310.2.3特征参量评估方法特征参量评估方法 F F比:比:在给定一种

7、识别方法后,识别的效果主要取决于特征参数在给定一种识别方法后,识别的效果主要取决于特征参数的选取。对于某一维单个的参数而言,可以用的选取。对于某一维单个的参数而言,可以用F F来表征它在说话人来表征它在说话人识别中的有效性。识别中的有效性。F F越大表示越有效,即不同说话人的特征量的均值分布的离散程度分布越大表示越有效,即不同说话人的特征量的均值分布的离散程度分布得越散越好;而同一个人的越集中越好。得越散越好;而同一个人的越集中越好。现在学习的是第6页,共35页v10.2.310.2.3特征参量评估方法特征参量评估方法 D D比:比:把F比的概念推广到多维,用以衡量多维特征矢量在说话人识别系统

8、中的有效性。F比没有考虑到特征矢量中各维参数之间的相关性。定义两个协方差矩阵,即说话人间的协方差矩阵B和说话人内协方差矩阵W,定义对多维特征矢量的可分性测度散度,即D比为:现在学习的是第7页,共35页v10.2.4模式匹配方法模式匹配方法1.1.概率统计方法概率统计方法 通过对稳态特征(基音、声门增益、低阶反射系数等)的统计分析,利通过对稳态特征(基音、声门增益、低阶反射系数等)的统计分析,利用均值、方差等统计量和概率密度函数进行分类判决。优点:不用对特征参量用均值、方差等统计量和概率密度函数进行分类判决。优点:不用对特征参量在时域上进行规整,适合与文本无关的说话人识别。在时域上进行规整,适合

9、与文本无关的说话人识别。2.2.动态时间规整方法(动态时间规整方法(DTW)将识别模板与参考模板进行时间对比,按照某种距离测度得出两个模板之间的相将识别模板与参考模板进行时间对比,按照某种距离测度得出两个模板之间的相似程度。常用的分法:基于最近邻原则的动态时间规整。似程度。常用的分法:基于最近邻原则的动态时间规整。3.3.矢量量化方法(矢量量化方法(VQ)将每个人的特定文本训练成码本,识别时将测试文本按此码本进行编码,将每个人的特定文本训练成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。优点:速度快,识别精度不低。以量化产生的失真度作为判决标准。优点:速度快,识别精度

10、不低。现在学习的是第8页,共35页v10.2.4模式匹配方法模式匹配方法4.4.隐马尔科夫模型方法(隐马尔科夫模型方法(HMM)为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出矩阵;识别时为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出矩阵;识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。优点:计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。优点:无需时间规整,精度高;缺点:训练耗时较大。无需时间规整,精度高;缺点:训练耗时较大。5.5.人工神经网络方法(人工神经网络方法(ANN)人工神经网络在某种程度上模拟

11、了生物的感知特性,是一种分布式并行处理结构人工神经网络在某种程度上模拟了生物的感知特性,是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。缺点:训练时间长、动态规整能力弱、网信息的鲁棒性,其性能近似理想的分类器。缺点:训练时间长、动态规整能力弱、网络随说话人数码的增加时可能大到难以训练的程度。络随说话人数码的增加时可能大到难以训练的程度。现在学习的是第9页,共35页v10.2.510.2.5说话人识别中判别方法和阈值的选择说话人识别中判

12、别方法和阈值的选择加快系统响应的判别分法:多门限判决、预分类技术。加快系统响应的判别分法:多门限判决、预分类技术。说话人确认系统的阈值选择:确认说话人确认系统的阈值选择:确认错误由错误由误拒率误拒率(False Rejection,FR)和)和误受率误受率(False Acceptance,FA)表示。判决门)表示。判决门限一般由限一般由FR和和FA的相等点附件来的相等点附件来确定。确定。现在学习的是第10页,共35页v10.2.6说话人识别系统的评价说话人识别系统的评价 一个说话人识别系统的好坏是由一个说话人识别系统的好坏是由许多因素决定的。其中主要有正确许多因素决定的。其中主要有正确识别率

13、(或出错率)、训练时间的识别率(或出错率)、训练时间的长短、识别时间、对参考参量存储长短、识别时间、对参考参量存储量的要求、使用者适用的方便程度量的要求、使用者适用的方便程度等,实用中还有价格因素。图等,实用中还有价格因素。图10.3表示了说话人辨别与说话人确认系表示了说话人辨别与说话人确认系统性能与用户数的关系。统性能与用户数的关系。现在学习的是第11页,共35页10.310.3应用应用DTWDTW的说话人确认系统的说话人确认系统 一个应用一个应用DTW说话人识别系统如图说话人识别系统如图10-4所示。它采用的识所示。它采用的识别特征是别特征是BPFG(附听觉特征处理),匹配时采用(附听觉特

14、征处理),匹配时采用DTW技术。技术。现在学习的是第12页,共35页10.410.4应用应用VQVQ的说话人识别系统的说话人识别系统 目目前前自自动动说说话话人人识识别别的的方方法法主主要要是是基基于于参参数数模模型型的的HMM的的方方法法和和基基于于非非参参数数模模型型的的VQ的的方方法法。应应用用VQ的的说说话话人人识识别别系系统统如如图图10-5所所示。示。现在学习的是第13页,共35页v应用应用VQ的说话人识别过程的步骤如下:的说话人识别过程的步骤如下:1.1.训练过程训练过程从训练语音提取特征矢量,得到特征矢量集;从训练语音提取特征矢量,得到特征矢量集;通过通过LBG算法生成码本;算

15、法生成码本;重复训练修正优化码本;重复训练修正优化码本;存储码本存储码本2.2.识别过程识别过程从测试语音提取特征矢量序列从测试语音提取特征矢量序列由每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差:由每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差:式中式中 是第是第i个码本中第个码本中第l个码本矢量,个码本矢量,而而 是待测矢量是待测矢量 和码矢量和码矢量 之间的距离之间的距离选择平均量化误差最小的码本所对应的说话人作为系统识别结果。选择平均量化误差最小的码本所对应的说话人作为系统识别结果。现在学习的是第14页,共35页10.510.5应用应用HMMHMM的说话

16、人识别系统的说话人识别系统v10.5.1 基于基于HMM的与文本有关的说话人识别的与文本有关的说话人识别 基于基于HMM的与文本有关的说话人识别系统的结构如图的与文本有关的说话人识别系统的结构如图10-6所示。所示。现在学习的是第15页,共35页v10.5.2基于基于HMM的与文本无关的说话人识别的与文本无关的说话人识别v10.5.3基于基于HMM的指定文本型说话人识别的指定文本型说话人识别 指定文本型说话人识别系统的基本构造如图指定文本型说话人识别系统的基本构造如图10-7所示。所示。文本内容不确定,一般采用各态历经文本内容不确定,一般采用各态历经HMM建立说话人模型。建立说话人模型。现在学

17、习的是第16页,共35页v10.5.4说话人识别说话人识别HMM的学习方法的学习方法v10.5.5鲁棒的鲁棒的HMM说话人识别技术说话人识别技术利用少量的登录说话人学习数据的学习方法;利用非特定人语音HMM和登录说话人学习数据的学习方法。对于由信号传输信道、滤波器等引起的识别率下降,通过倒谱均值正规化法可以得到改善;由声道特征、发音方式的时间变动等引起的识别率下降,可以通过似然度正规化法加以改善。现在学习的是第17页,共35页10.610.6应用应用GMMGMM的说话人识别系统的说话人识别系统 混合高斯分布模型是只有一个状态的模型,在这个状态里具混合高斯分布模型是只有一个状态的模型,在这个状态

18、里具有多个高斯分布函数有多个高斯分布函数v10.6.1GMM模型的基本概念模型的基本概念 高斯混合模型(高斯混合模型(GMM)可以看做一种状态数为)可以看做一种状态数为1的连续分布隐马尔的连续分布隐马尔科夫模型科夫模型CDHMM。一个。一个M阶混合高斯模型的概率密度函数是由阶混合高斯模型的概率密度函数是由M个高斯概率密度函数加权求和得到,所示如下:个高斯概率密度函数加权求和得到,所示如下:现在学习的是第18页,共35页 其其中中 是是一一个个D维维随随即即向向量量,是是子子分分布布,是是混混合合权权重重。每每个子分布是个子分布是D维的联合高斯概率分布,可表示为:维的联合高斯概率分布,可表示为:

19、其其中中 是是均均值值向向量量,是是协协方方差差矩矩阵阵,混混合合权权重重值值满满足以下条件:足以下条件:完完整整的的混混合合高高斯斯模模型型由由参参数数均均值值向向量量、协协方方差差矩矩阵阵和和混混合合权权重重组组成成,表示为:表示为:对对于于给给定定的的时时间间序序列列 ,利用,利用GMM模型求得的对数似然度可定义如下:模型求得的对数似然度可定义如下:现在学习的是第19页,共35页v10.6.2GMM模型的参数估计模型的参数估计 GMM模型的训练就是给定一组训练数据,依据某种准则确定模型模型的训练就是给定一组训练数据,依据某种准则确定模型参数。最常用的参数估计方法是最大似然估计(参数。最常

20、用的参数估计方法是最大似然估计(ML)估计。对于)估计。对于一组长度为一组长度为T的训练矢量序列的训练矢量序列 ,GMM的似然度可以表示为:的似然度可以表示为:由于上式是参数由于上式是参数 的非线性函数,很难直接求出上式的最的非线性函数,很难直接求出上式的最大值。因此,常常采用大值。因此,常常采用EM算法估计参数算法估计参数 。EM算法的计算算法的计算是从参数是从参数 的一个初值开始,采用的一个初值开始,采用EM算法估计出一个新算法估计出一个新的参数的参数 ,使得新的模型参数下的似然度,使得新的模型参数下的似然度 新的模型参数再作为当前参数进行训练,这样迭代运算直到模型新的模型参数再作为当前参

21、数进行训练,这样迭代运算直到模型收敛。每一次迭代运算,下面的重估公式保证了模型似然度的单收敛。每一次迭代运算,下面的重估公式保证了模型似然度的单调递增。调递增。现在学习的是第20页,共35页混合权值的重估公式:混合权值的重估公式:均值的重估公式:均值的重估公式:方差的重估公式:方差的重估公式:其中,分量其中,分量i的后验概率为:的后验概率为:现在学习的是第21页,共35页v10.6.3训练数据不充分的问题训练数据不充分的问题 由于训练数据的不充分,由于训练数据的不充分,GMM模型的协方差矩阵的一些分量可模型的协方差矩阵的一些分量可能会很小,这些很小的值对模型参数的似然度函数影响很大,严能会很小

22、,这些很小的值对模型参数的似然度函数影响很大,严重影响系统的性能。为了避免小的值对系统性能的影响,一种方重影响系统的性能。为了避免小的值对系统性能的影响,一种方法是在法是在EM算法的迭代计算中,对协方差的值设置一个门限值,在训算法的迭代计算中,对协方差的值设置一个门限值,在训练过程中领协方差的值不小于这个设定的门限值,否则用这个门限练过程中领协方差的值不小于这个设定的门限值,否则用这个门限值代替。值代替。现在学习的是第22页,共35页v10.6.4GMM模型的识别问题模型的识别问题 给定一个语音样本,说话人辨认的目的是要确定这个语音属于给定一个语音样本,说话人辨认的目的是要确定这个语音属于N个

23、说话人中的哪一个。基于个说话人中的哪一个。基于GMM的说话人辨认系统结构框图如的说话人辨认系统结构框图如图图10-8所示。所示。现在学习的是第23页,共35页 根据根据Bayes理论,最大后验概率可表示为:理论,最大后验概率可表示为:在这里:在这里:其对数形式为:其对数形式为:因为因为 的先验概率未知,我们假定该语音信号出自封闭集的先验概率未知,我们假定该语音信号出自封闭集里的每一个人的可能性相等,也就是说:里的每一个人的可能性相等,也就是说:现在学习的是第24页,共35页 对于一个确定的观察值矢量对于一个确定的观察值矢量X,P(X)是一个确定的常数值,对所是一个确定的常数值,对所有说话人都相

24、等。因此,求取后验概率的最大值可以通过求取有说话人都相等。因此,求取后验概率的最大值可以通过求取 获得,这样,辨认该语音属于语音库中的哪一种说话人可以表示为:获得,这样,辨认该语音属于语音库中的哪一种说话人可以表示为:其中其中 即为识别出的说话人。即为识别出的说话人。现在学习的是第25页,共35页10.710.7说话人识别尚需探索的问题及应说话人识别尚需探索的问题及应用用1.1.基础性的课题基础性的课题关于语音中语意内容和说话人的分离,系统全面地进行研关于语音中语意内容和说话人的分离,系统全面地进行研究的人还是很少的。究的人还是很少的。究竟什么特征参数对说话人识别最有效?如何有效的利用究竟什么

25、特征参数对说话人识别最有效?如何有效的利用非声道特征?非声道特征?说话人特征的变化和样本选择问题。说话人特征的变化和样本选择问题。用听觉和视觉的说话人识别研究是用计算机进行说话人识用听觉和视觉的说话人识别研究是用计算机进行说话人识别的基础。别的基础。现在学习的是第26页,共35页2.2.实用性的问题实用性的问题说话人识别系统设计的合理化及优化问题。说话人识别系统设计的合理化及优化问题。如何处理长时和短时说话人的语音波动?如何区别有意模仿的声如何处理长时和短时说话人的语音波动?如何区别有意模仿的声音?音?说话人识别系统的性能评价问题。说话人识别系统的性能评价问题。可靠性和经济性。可靠性和经济性。

26、目前说话人识别的主要研究主要集中在如下几个方面:目前说话人识别的主要研究主要集中在如下几个方面:语音特征参数的提取和混合语音特征参数的提取和混合HMM模型与其他模型混合,改善说话人识别系统的性能。模型与其他模型混合,改善说话人识别系统的性能。现在学习的是第27页,共35页3.3.说话人识别技术的应用说话人识别技术的应用电话信道罪犯缉拿、法庭中电话录音信息的身份确认、电话语音跟电话信道罪犯缉拿、法庭中电话录音信息的身份确认、电话语音跟踪,为用户提供防盗门开启功能等。踪,为用户提供防盗门开启功能等。通信领域,说话人识别技术可以应用于诸如电话银行、电通信领域,说话人识别技术可以应用于诸如电话银行、电

27、话购物、数据库访问、信息服务、安全控制、计算机远程话购物、数据库访问、信息服务、安全控制、计算机远程登陆等领域。登陆等领域。呼叫中心应用上,说话人识别技术同样可以提供更加个性化的人机呼叫中心应用上,说话人识别技术同样可以提供更加个性化的人机交互界面。交互界面。现在学习的是第28页,共35页10.810.8语种辨别的原理和应用语种辨别的原理和应用 语种辨别(语种辨别(Language Identification,LID)与语音识别和说话人识别)与语音识别和说话人识别有所不同,它是通过分析处理一个语言片段以判别其所属语言的有所不同,它是通过分析处理一个语言片段以判别其所属语言的语种,本质上也是语

28、音识别的一方面。语种,本质上也是语音识别的一方面。v10.8.1语种辨别的基本原理和基本方法语种辨别的基本原理和基本方法 世界上的不同语种间有多种区别,比如音素集合、音位序列、音节世界上的不同语种间有多种区别,比如音素集合、音位序列、音节结构、韵律特征、词汇分类、语法及语意网络等,所以在自动语种结构、韵律特征、词汇分类、语法及语意网络等,所以在自动语种辨识中有多种可利用的特征。就一个语种辨识系统的结构而言,则辨识中有多种可利用的特征。就一个语种辨识系统的结构而言,则和语音识别及说话人识别有相似之处,其基本框架结构如图和语音识别及说话人识别有相似之处,其基本框架结构如图10-9所示。所示。现在学

29、习的是第29页,共35页现在学习的是第30页,共35页 从信源的建模来看,语音信号是一种典型的连续信源。所以语从信源的建模来看,语音信号是一种典型的连续信源。所以语音信号可以用几种模型来建模:音信号可以用几种模型来建模:无记忆模型无记忆模型有记忆模型有记忆模型离散模型离散模型连续模型连续模型 这些模型可分为四类,如表这些模型可分为四类,如表10-2所示。所示。类型类型记忆性记忆性模型模型离散无记忆VQ有记忆离散HMM连续无记忆GMM有记忆连续HMM现在学习的是第31页,共35页1.1.基于失真的基于失真的VQ方法方法现在学习的是第32页,共35页2.2.离散离散/连续各态经历连续各态经历HMM 基于基于VQ失真测度的方法是一种无记忆语音源模型,及独立时间失真测度的方法是一种无记忆语音源模型,及独立时间序列源模型。序列源模型。现在学习的是第33页,共35页3.3.混合高斯分布模型混合高斯分布模型 图图10-12是一个具有三个混合函数的混合高斯分布模型和三状态各态是一个具有三个混合函数的混合高斯分布模型和三状态各态历经连续历经连续HMM的例子。的例子。现在学习的是第34页,共35页感感谢谢大大家家观观看看现在学习的是第35页,共35页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁