语音信号处理精选课件.ppt-淘文阁

资源描述

《语音信号处理精选课件.ppt》由会员分享，可在线阅读，更多相关《语音信号处理精选课件.ppt（35页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、关于语音信号处理第一页，本课件共有35页10.1 10.1 概述概述v自动说话人识别（自动说话人识别（Automatic Speaker Recognition Automatic Speaker Recognition 简称简称ASRASR），），又称为话者识别或声纹识别，又称为话者识别或声纹识别，是一种自动识别说话人的过程。是一种自动识别说话人的过程。说话人识别和语音识别的说话人识别和语音识别的区别区别在于，它不注重包含在语音信号内在于，它不注重包含在语音信号内的文字符号以及语意内容信息，而是着眼于包含在语音信号中的的文字符号以及语意内容信息，而是着眼于包含在语音信号中的个人特征，提取说话

2、人的这些个人信息特征，以达到识别说别说个人特征，提取说话人的这些个人信息特征，以达到识别说别说话人的目的。话人的目的。v按其最终完成的任务可以分为两类：按其最终完成的任务可以分为两类：*自动说话人自动说话人确认确认（Automatic Speaker Verification Automatic Speaker Verification，简，简称称ASVASV）：确认一个人的身份，只涉及一个特定的参考模型和待：确认一个人的身份，只涉及一个特定的参考模型和待识别模式之间的比较，只做识别模式之间的比较，只做“是是”和和“不是不是”的判决。的判决。*自动说话人自动说话人辨认辨认(Automatic

3、Speaker Identification,(Automatic Speaker Identification,简称简称ASI)ASI)：必须辨认出待识别的语音是来自待考察人中的哪一个，有：必须辨认出待识别的语音是来自待考察人中的哪一个，有时还要对这个人以外的语音做出拒绝的判决。时还要对这个人以外的语音做出拒绝的判决。第二页，本课件共有35页10.2 10.2 说话人识别方法和系统说话人识别方法和系统结构结构v说话人识别说话人识别就是从说话人的一段语音中提取出说话人的个性特征，就是从说话人的一段语音中提取出说话人的个性特征，通过对这些个人特征的分析和识别，从而达到对说话人进行辨认通过对这些个

4、人特征的分析和识别，从而达到对说话人进行辨认或者确认的目的。图或者确认的目的。图10-110-1是说话人识别系统的结构框图，它由是说话人识别系统的结构框图，它由预处理、特征提取、模式匹配和判决预处理、特征提取、模式匹配和判决等几大部分组成。等几大部分组成。第三页，本课件共有35页v10.2.110.2.1预处理预处理包包括括对对输输入入计计算算机机的的语语音音数数据据进进行行端端点点检检测测、预预加加重重、加加窗窗、分针等。分针等。v10.2.210.2.2说话人识别特征的选取说话人识别特征的选取在在说说话话人人识识别别系系统统中中特特征征提提取取是是最最重重要要的的一一环环，特特征征提提

5、取取就就是是从从说话人的语音信号中提取出表示说话人个性的基本特征。说话人的语音信号中提取出表示说话人个性的基本特征。在理想情况下，选取的特征应当满足下述准则：在理想情况下，选取的特征应当满足下述准则：能能够够有有效效地地区区分分不不同同的的说说话话人人，但但又又能能在在同同一一说说话话人人的的语语音音发生变化时相对保持稳定。发生变化时相对保持稳定。易于从语音信号中提取易于从语音信号中提取不易被模仿不易被模仿尽量不随时间和空间变化尽量不随时间和空间变化第四页，本课件共有35页v如果把说话人识别中常用的参数加以简要归类，可划如果把说话人识别中常用的参数加以简要归类，可划分为以下几类：分为以下几类：

6、1.1.线性预测参数及其派生参数线性预测参数及其派生参数2.2.语音频谱直接导出的参数语音频谱直接导出的参数3.3.混合参数混合参数4.4.其他鲁棒性参数其他鲁棒性参数上表是日本人上表是日本人Matui和和Furui在在1990年针对倒谱特征和基音特征所作的比较实验结果年针对倒谱特征和基音特征所作的比较实验结果所用特征所用特征误识率误识率/（%）倒谱差值倒谱基音差值基音倒谱与差值倒谱倒谱、差值倒谱与基音、差值基音9.4311.8174.4285.887.932.89第五页，本课件共有35页v10.2.310.2.3特征参量评估方法特征参量评估方法 F F比：比：在给定一种识别方法后，识别的效

7、果主要取决于特征参数的在给定一种识别方法后，识别的效果主要取决于特征参数的选取。对于某一维单个的参数而言，可以用选取。对于某一维单个的参数而言，可以用F F来表征它在说话人识来表征它在说话人识别中的有效性。别中的有效性。F F越大表示越有效，即不同说话人的特征量的均值分布的离散程度分越大表示越有效，即不同说话人的特征量的均值分布的离散程度分布得越散越好；而同一个人的越集中越好。布得越散越好；而同一个人的越集中越好。第六页，本课件共有35页v10.2.310.2.3特征参量评估方法特征参量评估方法 D D比：比：把F比的概念推广到多维，用以衡量多维特征矢量在说话人识别系统中的有效性。F比没有考虑

8、到特征矢量中各维参数之间的相关性。定义两个协方差矩阵，即说话人间的协方差矩阵B和说话人内协方差矩阵W，定义对多维特征矢量的可分性测度散度，即D比为:第七页，本课件共有35页v10.2.4模式匹配方法模式匹配方法1.1.概率统计方法概率统计方法通过对稳态特征（基音、声门增益、低阶反射系数等）的统计分析，利用均值、通过对稳态特征（基音、声门增益、低阶反射系数等）的统计分析，利用均值、方差等统计量和概率密度函数进行分类判决。优点：不用对特征参量在时域上进行规方差等统计量和概率密度函数进行分类判决。优点：不用对特征参量在时域上进行规整，适合与文本无关的说话人识别。整，适合与文本无关的说话人识别。2.

9、2.动态时间规整方法（动态时间规整方法（DTW）将识别模板与参考模板进行时间对比，按照某种距离测度得出两个模板之间的相将识别模板与参考模板进行时间对比，按照某种距离测度得出两个模板之间的相似程度。常用的分法：基于最近邻原则的动态时间规整。似程度。常用的分法：基于最近邻原则的动态时间规整。3.3.矢量量化方法（矢量量化方法（VQ）将每个人的特定文本训练成码本，识别时将测试文本按此码本进行编将每个人的特定文本训练成码本，识别时将测试文本按此码本进行编码，以量化产生的失真度作为判决标准。优点：速度快，识别精度不低。码，以量化产生的失真度作为判决标准。优点：速度快，识别精度不低。第八页，本课件共有35

10、页v10.2.4模式匹配方法模式匹配方法4.4.隐马尔科夫模型方法（隐马尔科夫模型方法（HMM）为每个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出矩阵；为每个说话人建立发声模型，通过训练得到状态转移概率矩阵和符号输出矩阵；识别时计算未知语音在状态转移过程中的最大概率，根据最大概率对应的模型进识别时计算未知语音在状态转移过程中的最大概率，根据最大概率对应的模型进行判决。优点：无需时间规整，精度高；缺点：训练耗时较大。行判决。优点：无需时间规整，精度高；缺点：训练耗时较大。5.5.人工神经网络方法（人工神经网络方法（ANN）人工神经网络在某种程度上模拟了生物的感知特性，是一种分布式人

11、工神经网络在某种程度上模拟了生物的感知特性，是一种分布式并行处理结构的网络模型，具有自组织和自学习能力、很强的复杂分类边并行处理结构的网络模型，具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性，其性能近似理想的分类器。缺点：界区分能力以及对不完全信息的鲁棒性，其性能近似理想的分类器。缺点：训练时间长、动态规整能力弱、网络随说话人数码的增加时可能大到难以训练时间长、动态规整能力弱、网络随说话人数码的增加时可能大到难以训练的程度。训练的程度。第九页，本课件共有35页v10.2.510.2.5说话人识别中判别方法和阈值的选择说话人识别中判别方法和阈值的选择加快系统响应的判别

12、分法：多门限判决、预分类技术。加快系统响应的判别分法：多门限判决、预分类技术。说话人确认系统的阈值选择：确说话人确认系统的阈值选择：确认错误由认错误由误拒率误拒率（False Rejection,FR）和）和误受率误受率（False Acceptance,FA）表示。）表示。判决门限一般由判决门限一般由FR和和FA的相等的相等点附件来确定。点附件来确定。第十页，本课件共有35页v10.2.6说话人识别系统的评价说话人识别系统的评价一个说话人识别系统的好坏是由一个说话人识别系统的好坏是由许多因素决定的。其中主要有正确许多因素决定的。其中主要有正确识别率（或出错率）、训练时间的识别率（或出错率）

13、、训练时间的长短、识别时间、对参考参量存储长短、识别时间、对参考参量存储量的要求、使用者适用的方便程度量的要求、使用者适用的方便程度等，实用中还有价格因素。图等，实用中还有价格因素。图10.3表示了说话人辨别与说话人确认系表示了说话人辨别与说话人确认系统性能与用户数的关系。统性能与用户数的关系。第十一页，本课件共有35页10.310.3应用应用DTWDTW的说话人确认系统的说话人确认系统一个应用一个应用DTW说话人识别系统如图说话人识别系统如图10-4所示。它采用的识别所示。它采用的识别特征是特征是BPFG（附听觉特征处理），匹配时采用（附听觉特征处理），匹配时采用DTW技术。技术。第十二页

14、，本课件共有35页10.410.4应用应用VQVQ的说话人识别系统的说话人识别系统目目前前自自动动说说话话人人识识别别的的方方法法主主要要是是基基于于参参数数模模型型的的HMM的的方方法法和和基基于于非非参参数数模模型型的的VQ的的方方法法。应应用用VQ的的说说话话人人识识别别系系统统如图如图10-5所示。所示。第十三页，本课件共有35页v应用应用VQ的说话人识别过程的步骤如下：的说话人识别过程的步骤如下：1.1.训练过程训练过程从训练语音提取特征矢量，得到特征矢量集；从训练语音提取特征矢量，得到特征矢量集；通过通过LBG算法生成码本；算法生成码本；重复训练修正优化码本；重复训练修正优化码本

15、；存储码本存储码本2.2.识别过程识别过程从测试语音提取特征矢量序列从测试语音提取特征矢量序列由每个模板依次对特征矢量序列进行矢量量化，计算各自的平均量化误差：由每个模板依次对特征矢量序列进行矢量量化，计算各自的平均量化误差：式中式中是第是第i个码本中第个码本中第l个个码本矢量，而码本矢量，而是待测矢量是待测矢量和码矢量和码矢量之之间的距离间的距离选择平均量化误差最小的码本所对应的说话人作为系统识别结果。选择平均量化误差最小的码本所对应的说话人作为系统识别结果。第十四页，本课件共有35页10.510.5应用应用HMMHMM的说话人识别系统的说话人识别系统v10.5.1 基于基于HMM的

16、与文本有关的说话人识别的与文本有关的说话人识别基于基于HMM的与文本有关的说话人识别系统的结构如图的与文本有关的说话人识别系统的结构如图10-6所示。所示。第十五页，本课件共有35页v10.5.2基于基于HMM的与文本无关的说话人识别的与文本无关的说话人识别v10.5.3基于基于HMM的指定文本型说话人识别的指定文本型说话人识别指定文本型说话人识别系统的基本构造如图指定文本型说话人识别系统的基本构造如图10-7所示。所示。文本内容不确定，一般采用各态历经文本内容不确定，一般采用各态历经HMM建立说话人模型。建立说话人模型。第十六页，本课件共有35页v10.5.4说话人识别说话人识别HMM的

17、学习方法的学习方法v10.5.5鲁棒的鲁棒的HMM说话人识别技术说话人识别技术利用少量的登录说话人学习数据的学习方法；利用非特定人语音HMM和登录说话人学习数据的学习方法。对于由信号传输信道、滤波器等引起的识别率下降，通过倒谱均值正规化法可以得到改善；由声道特征、发音方式的时间变动等引起的识别率下降，可以通过似然度正规化法加以改善。第十七页，本课件共有35页10.610.6应用应用GMMGMM的说话人识别系统的说话人识别系统混合高斯分布模型是只有一个状态的模型，在这个状态里具混合高斯分布模型是只有一个状态的模型，在这个状态里具有多个高斯分布函数有多个高斯分布函数v10.6.1GMM模型的基本

18、概念模型的基本概念高斯混合模型（高斯混合模型（GMM）可以看做一种状态数为）可以看做一种状态数为1的连续分布隐的连续分布隐马尔科夫模型马尔科夫模型CDHMM。一个。一个M阶混合高斯模型的概率密度函数阶混合高斯模型的概率密度函数是由是由M个高斯概率密度函数加权求和得到，所示如下：个高斯概率密度函数加权求和得到，所示如下：第十八页，本课件共有35页其其中中是是一一个个D维维随随即即向向量量，是是子子分分布布，是是混混合合权权重重。每个子分布是每个子分布是D维的联合高斯概率分布，可表示为：维的联合高斯概率分布，可表示为：其其中中是是均均值值向向量量，是是协协方方差差矩矩阵阵，混混合合权权重重

19、值值满满足以下条件：足以下条件：完完整整的的混混合合高高斯斯模模型型由由参参数数均均值值向向量量、协协方方差差矩矩阵阵和和混混合合权权重重组成，表示为：组成，表示为：对对于于给给定定的的时时间间序序列列，利用利用GMM模型求得的对数似然度可定义如下：模型求得的对数似然度可定义如下：第十九页，本课件共有35页v10.6.2GMM模型的参数估计模型的参数估计 GMM模型的训练就是给定一组训练数据，依据某种准则确模型的训练就是给定一组训练数据，依据某种准则确定模型参数。最常用的参数估计方法是最大似然估计（定模型参数。最常用的参数估计方法是最大似然估计（ML）估计。对于一组长度为估计。对于一组长度为

20、T的训练矢量序列的训练矢量序列，GMM的似然度可以表示为：的似然度可以表示为：由于上式是参数由于上式是参数的非线性函数，很难直接求出上式的最大的非线性函数，很难直接求出上式的最大值。因此，常常采用值。因此，常常采用EM算法估计参数算法估计参数。EM算法的计算是算法的计算是从参数从参数的一个初值开始，采用的一个初值开始，采用EM算法估计出一个新的参算法估计出一个新的参数数，使得新的模型参数下的似然度，使得新的模型参数下的似然度新的模型参数再作为当前参数进行训练，这样迭代运算直到模新的模型参数再作为当前参数进行训练，这样迭代运算直到模型收敛。每一次迭代运算，下面的重估公式保证了模型似然

21、度型收敛。每一次迭代运算，下面的重估公式保证了模型似然度的单调递增。的单调递增。第二十页，本课件共有35页混合权值的重估公式：混合权值的重估公式：均值的重估公式：均值的重估公式：方差的重估公式：方差的重估公式：其中，分量其中，分量i的后验概率为：的后验概率为：第二十一页，本课件共有35页v10.6.3训练数据不充分的问题训练数据不充分的问题由于训练数据的不充分，由于训练数据的不充分，GMM模型的协方差矩阵的一些分量可模型的协方差矩阵的一些分量可能会很小，这些很小的值对模型参数的似然度函数影响很大，严重能会很小，这些很小的值对模型参数的似然度函数影响很大，严重影响系统的性能。为了避免小的值对系

22、统性能的影响，一种方法是影响系统的性能。为了避免小的值对系统性能的影响，一种方法是在在EM算法的迭代计算中，对协方差的值设置一个门限值，在训算法的迭代计算中，对协方差的值设置一个门限值，在训练过程中领协方差的值不小于这个设定的门限值，否则用这个练过程中领协方差的值不小于这个设定的门限值，否则用这个门限值代替。门限值代替。第二十二页，本课件共有35页v10.6.4GMM模型的识别问题模型的识别问题给定一个语音样本，说话人辨认的目的是要确定这个语音属于给定一个语音样本，说话人辨认的目的是要确定这个语音属于N个个说话人中的哪一个。基于说话人中的哪一个。基于GMM的说话人辨认系统结构框图的说话人辨认

23、系统结构框图如图如图10-8所示。所示。第二十三页，本课件共有35页根据根据Bayes理论，最大后验概率可表示为：理论，最大后验概率可表示为：在这里：在这里：其对数形式为：其对数形式为：因为因为的先验概率未知，我们假定该语音信号出自封闭的先验概率未知，我们假定该语音信号出自封闭集里的每一个人的可能性相等，也就是说：集里的每一个人的可能性相等，也就是说：第二十四页，本课件共有35页对于一个确定的观察值矢量对于一个确定的观察值矢量X，P(X)是一个确定的常数值，是一个确定的常数值，对所有说话人都相等。因此，求取后验概率的最大值可以通过对所有说话人都相等。因此，求取后验概率的最大值可以通过求取

24、求取获得，这样，辨认该语音属于语音库获得，这样，辨认该语音属于语音库中的哪一种说话人可以表示为：中的哪一种说话人可以表示为：其中其中即为识别出的说话人。即为识别出的说话人。第二十五页，本课件共有35页10.710.7说话人识别尚需探索的问题及应说话人识别尚需探索的问题及应用用1.1.基础性的课题基础性的课题关于语音中语意内容和说话人的分离，系统全面地进行关于语音中语意内容和说话人的分离，系统全面地进行研究的人还是很少的。研究的人还是很少的。究竟什么特征参数对说话人识别最有效？如何有效的利用究竟什么特征参数对说话人识别最有效？如何有效的利用非声道特征？非声道特征？说话人特征的变化和样本选择问

25、题。说话人特征的变化和样本选择问题。用听觉和视觉的说话人识别研究是用计算机进行说话人识用听觉和视觉的说话人识别研究是用计算机进行说话人识别的基础。别的基础。第二十六页，本课件共有35页2.2.实用性的问题实用性的问题说话人识别系统设计的合理化及优化问题。说话人识别系统设计的合理化及优化问题。如何处理长时和短时说话人的语音波动？如何区别有意模仿的如何处理长时和短时说话人的语音波动？如何区别有意模仿的声音？声音？说话人识别系统的性能评价问题。说话人识别系统的性能评价问题。可靠性和经济性。可靠性和经济性。目前说话人识别的主要研究主要集中在如下几个方面：目前说话人识别的主要研究主要集中在如下几个方面：

26、语音特征参数的提取和混合语音特征参数的提取和混合HMM模型与其他模型混合，改善说话人识别系统的性能。模型与其他模型混合，改善说话人识别系统的性能。第二十七页，本课件共有35页3.3.说话人识别技术的应用说话人识别技术的应用电话信道罪犯缉拿、法庭中电话录音信息的身份确认、电电话信道罪犯缉拿、法庭中电话录音信息的身份确认、电话语音跟踪，为用户提供防盗门开启功能等。话语音跟踪，为用户提供防盗门开启功能等。通信领域，说话人识别技术可以应用于诸如电话银行、电话购通信领域，说话人识别技术可以应用于诸如电话银行、电话购物、数据库访问、信息服务、安全控制、计算机远程登陆等物、数据库访问、信息服务、安全控制、计

27、算机远程登陆等领域。领域。呼叫中心应用上，说话人识别技术同样可以提供更加个呼叫中心应用上，说话人识别技术同样可以提供更加个性化的人机交互界面。性化的人机交互界面。第二十八页，本课件共有35页10.810.8语种辨别的原理和应用语种辨别的原理和应用语种辨别（语种辨别（Language Identification,LID）与语音识别和说话人识）与语音识别和说话人识别有所不同，它是通过分析处理一个语言片段以判别其所属语言的别有所不同，它是通过分析处理一个语言片段以判别其所属语言的语种，本质上也是语音识别的一方面。语种，本质上也是语音识别的一方面。v10.8.1语种辨别的基本原理和基本方法语种辨别

28、的基本原理和基本方法世界上的不同语种间有多种区别，比如音素集合、音位序列、世界上的不同语种间有多种区别，比如音素集合、音位序列、音节结构、韵律特征、词汇分类、语法及语意网络等，所以在音节结构、韵律特征、词汇分类、语法及语意网络等，所以在自动语种辨识中有多种可利用的特征。就一个语种辨识系统的自动语种辨识中有多种可利用的特征。就一个语种辨识系统的结构而言，则和语音识别及说话人识别有相似之处，其基本框结构而言，则和语音识别及说话人识别有相似之处，其基本框架结构如图架结构如图10-9所示。所示。第二十九页，本课件共有35页第三十页，本课件共有35页从信源的建模来看，语音信号是一种典型的连续信源。所

29、以语从信源的建模来看，语音信号是一种典型的连续信源。所以语音信号可以用几种模型来建模：音信号可以用几种模型来建模：无记忆模型无记忆模型有记忆模型有记忆模型离散模型离散模型连续模型连续模型这些模型可分为四类，如表这些模型可分为四类，如表10-2所示。所示。类型类型记忆性记忆性模型模型离散无记忆VQ有记忆离散HMM连续无记忆GMM有记忆连续HMM第三十一页，本课件共有35页1.1.基于失真的基于失真的VQ方法方法第三十二页，本课件共有35页2.2.离散离散/连续各态经历连续各态经历HMM 基于基于VQ失真测度的方法是一种无记忆语音源模型，及独立失真测度的方法是一种无记忆语音源模型，及独立时间序列源模型。时间序列源模型。第三十三页，本课件共有35页3.3.混合高斯分布模型混合高斯分布模型图图10-12是一个具有三个混合函数的混合高斯分布模型和三状态是一个具有三个混合函数的混合高斯分布模型和三状态各态历经连续各态历经连续HMM的例子。的例子。第三十四页，本课件共有35页感谢大家观看第三十五页，本课件共有35页

展开阅读全文