语音识别综述幻灯片.ppt

上传人:石*** 文档编号:48768140 上传时间:2022-10-07 格式:PPT 页数:25 大小:1.22MB
返回 下载 相关 举报
语音识别综述幻灯片.ppt_第1页
第1页 / 共25页
语音识别综述幻灯片.ppt_第2页
第2页 / 共25页
点击查看更多>>
资源描述

《语音识别综述幻灯片.ppt》由会员分享,可在线阅读,更多相关《语音识别综述幻灯片.ppt(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、语音识别综述语音识别综述第1页,共25页,编辑于2022年,星期二语音识别的分类语音识别的分类一、从识别单位分为以下几类一、从识别单位分为以下几类1.孤立词语音识别。识别的单词间有停顿。孤立词语音识别。识别的单词间有停顿。2.连接词语音识别。在连续语音中识别出其包含的几个或某几连接词语音识别。在连续语音中识别出其包含的几个或某几个词。个词。3.连续语音识别。识别的单词之间没有停顿。连续语音识别。识别的单词之间没有停顿。4.语音理解。在语音识别的基础上,用语言学知识推断出语音语音理解。在语音识别的基础上,用语言学知识推断出语音的含义。的含义。二、从识别的词汇量可以分为小词汇(二、从识别的词汇量可

2、以分为小词汇(1050个)、中词汇(个)、中词汇(50200个)、大词汇(个)、大词汇(200个以上)等三类。个以上)等三类。三、按讲话人范围可以分为特定讲话人和非特定讲话人两类。三、按讲话人范围可以分为特定讲话人和非特定讲话人两类。不仅仅这三种分类方法,我们还可以从识别方法、识别环境、不仅仅这三种分类方法,我们还可以从识别方法、识别环境、说话人类型等方面进行分类。说话人类型等方面进行分类。第2页,共25页,编辑于2022年,星期二语音识别技术的发展方向语音识别技术的发展方向一、大词汇量连续语音识别系统,主要应用于计算机的听写,一、大词汇量连续语音识别系统,主要应用于计算机的听写,以及与电话网

3、或者互联网相结合的语音信息查询服务系统,这以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的。些系统都是在计算机平台上实现的。二、小型化、便携式语音产品的应用,如无线手机上的拨号、二、小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都是使用专门的硬件系统实现。些应用系统大都是使用专门的硬件系统实现。语音识别与语言学和人工智能有密切联系。语音识别的重大进语音识别与语言学和人工智能有密切联系。语音识别的重大进展可能并不是来自分析、自适应模式匹配

4、及计算机运算等方面展可能并不是来自分析、自适应模式匹配及计算机运算等方面的进一步研究,而是来自语言感知、语言产生、语音学、语言的进一步研究,而是来自语言感知、语言产生、语音学、语言学及心理学的研究。学及心理学的研究。第3页,共25页,编辑于2022年,星期二语音识别的原理语音识别的原理第4页,共25页,编辑于2022年,星期二预处理预处理 待识别的语音经过话筒变成电信号后加在识别系统的输入端,待识别的语音经过话筒变成电信号后加在识别系统的输入端,首先要经过预处理。预处理包括反混叠失真滤波、预加重和端首先要经过预处理。预处理包括反混叠失真滤波、预加重和端点检测。经过预处理后,按照一定的特征提取方

5、法产生语音特点检测。经过预处理后,按照一定的特征提取方法产生语音特征参数,这些特征参数的时间序列便构成了待识别语音模式,征参数,这些特征参数的时间序列便构成了待识别语音模式,将其与已经存储在的参考模式逐一进行比较(模式匹配),最将其与已经存储在的参考模式逐一进行比较(模式匹配),最佳(由判决规则确定)的参考模式便是识别结果。参考模式是佳(由判决规则确定)的参考模式便是识别结果。参考模式是在系统使用前获得并存储起来的,为此,要输入一系列已知语在系统使用前获得并存储起来的,为此,要输入一系列已知语音信号,提取它们的特征作为参考模式,这一过程称为训练。音信号,提取它们的特征作为参考模式,这一过程称为

6、训练。语音识别所遇的难题是搜索最佳识别结果和参数训练。目前,语音识别所遇的难题是搜索最佳识别结果和参数训练。目前,语音识别所应用的模式匹配和模型训练技术主要有动态时间规语音识别所应用的模式匹配和模型训练技术主要有动态时间规整技术(整技术(DTW)、隐马尔科夫模型()、隐马尔科夫模型(HMM)和人工神经网络。)和人工神经网络。第5页,共25页,编辑于2022年,星期二特征提取特征提取 特征提取就是对语音信号进行分析处理,去除语音识别无关特征提取就是对语音信号进行分析处理,去除语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。特征提取一紧要的冗余信息,获得影响语音识别的重要信息。特征提取一般

7、要解决两个问题,一个是从语音信号中提取有代表性的合适般要解决两个问题,一个是从语音信号中提取有代表性的合适的特征参数,另一个是进行适当的数据压缩。目前,语音识别的特征参数,另一个是进行适当的数据压缩。目前,语音识别技术中应用最流行的特征参数是基于人的声道模型和听觉机理技术中应用最流行的特征参数是基于人的声道模型和听觉机理的的LPCC,LPCMCC,MFCC和和ZCPA。语音特征的参数是分帧提取的,每帧特征参数一般构成一个矢语音特征的参数是分帧提取的,每帧特征参数一般构成一个矢量序列。语音信号中提取出来的矢量序列经过数据压缩后便成量序列。语音信号中提取出来的矢量序列经过数据压缩后便成为语音的模板

8、,显然,特征的选取对识别效果至关重要,选择为语音的模板,显然,特征的选取对识别效果至关重要,选择的标准应尽量满足一下两个要求:的标准应尽量满足一下两个要求:(1)能有效的代表语音特征,包括声道特征和听觉特征,具有很)能有效的代表语音特征,包括声道特征和听觉特征,具有很好的区分性。好的区分性。(2)特征参数要计算方便,在保持高识别率的情况下。最好有高)特征参数要计算方便,在保持高识别率的情况下。最好有高效的计算方法。效的计算方法。第6页,共25页,编辑于2022年,星期二特征提取的方法特征提取的方法一、线性预测系数(一、线性预测系数(LPC)二、二、LPC倒谱系数(倒谱系数(LPCC)三、三、M

9、el频率倒谱系数(频率倒谱系数(MFCC)四、四、LPC梅尔倒谱系数(梅尔倒谱系数(LPCC)五、五、zcpa特征特征第7页,共25页,编辑于2022年,星期二LPC 倒谱 依据语音信号产生的生理和数学模型可知,语音信号是音源激励依据语音信号产生的生理和数学模型可知,语音信号是音源激励分量与声道冲激响应、辐射模型三者相卷积的产物。因此通过语分量与声道冲激响应、辐射模型三者相卷积的产物。因此通过语音信号的倒谱分析可有效地分离激励成分与声道成分。音信号的倒谱分析可有效地分离激励成分与声道成分。计算语音信号的倒谱通常有两种方法:其一是先对语音信号进行计算语音信号的倒谱通常有两种方法:其一是先对语音信

10、号进行短时付里叶变换,取其模的对数值,再进行反变换,得其倒谱。声道短时付里叶变换,取其模的对数值,再进行反变换,得其倒谱。声道信息可通过低时窗取出。信息可通过低时窗取出。其二是依据其二是依据AR模型对模型对LPC参数进行递推,形成参数进行递推,形成LPC倒谱,倒谱,LPC 倒谱(倒谱(LPCC)由于利用了线性预测中声道系统函数的最小相位)由于利用了线性预测中声道系统函数的最小相位特性,避免了复杂的相位卷积和复对数计算;且特性,避免了复杂的相位卷积和复对数计算;且LPC倒谱的运倒谱的运算量仅是用算量仅是用FFT 求倒谱时运算量的一半,适于实时应用,它的递求倒谱时运算量的一半,适于实时应用,它的递

11、推式如下推式如下:第8页,共25页,编辑于2022年,星期二式中a1ap为p阶LPC的特征向量。第9页,共25页,编辑于2022年,星期二识别方法介绍识别方法介绍一般来说,语音识别的方法有四种一般来说,语音识别的方法有四种:(1)基于声道模型和语音知识的方法)基于声道模型和语音知识的方法(2)模式匹配方法)模式匹配方法(3)统计型模型方法)统计型模型方法(4)人工神经网络方法)人工神经网络方法第10页,共25页,编辑于2022年,星期二 基于声道模型和语音知识的方法起步较早,在语音识别技术基于声道模型和语音知识的方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识

12、过提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段于复杂,现阶段没有达到实用的阶段 。模式匹配常用的技术有动态时间规整(模式匹配常用的技术有动态时间规整(DTWDTW)和矢量量化()和矢量量化(VQVQ);统计型模型方法常见的是隐马尔可夫模型;语音识别常用;统计型模型方法常见的是隐马尔可夫模型;语音识别常用的神经网络有反向传播(的神经网络有反向传播(BPBP)神经网络,径向基函数网络()神经网络,径向基函数网络(RBFRBF)及新兴的小波网络(及新兴的小波网络(这两年很少有人用这两年很少有人用)。)。第11页,共25页,编辑于2022年,星期二动态时间规

13、整(动态时间规整(DTWDTW)动态时间弯折是一种效果非常好的非线性时间规整模板匹配动态时间弯折是一种效果非常好的非线性时间规整模板匹配法。例如对于孤立词识别系统,将每个词重复多遍发音,直到得到法。例如对于孤立词识别系统,将每个词重复多遍发音,直到得到一个一致性较好的特征矢量序列,从而形成一个模板,在识别时,一个一致性较好的特征矢量序列,从而形成一个模板,在识别时,待识别矢量序列用待识别矢量序列用DTW算法分别求得与每个模板的累计失真,然后判算法分别求得与每个模板的累计失真,然后判别它属于哪一类。别它属于哪一类。第12页,共25页,编辑于2022年,星期二矢量量化(矢量量化(VQVQ)DTW方

14、法是针对时间对准问题的,我们希望不考虑时间顺方法是针对时间对准问题的,我们希望不考虑时间顺序任意指定时间对准点,这意味着没有任何时间归一化的处理。序任意指定时间对准点,这意味着没有任何时间归一化的处理。矢量量化就时完全忽略时间信息的一种方法。对于孤立词,首矢量量化就时完全忽略时间信息的一种方法。对于孤立词,首先为词会表中的每个但词建立一个码本,这些码本是分离的,先为词会表中的每个但词建立一个码本,这些码本是分离的,它们即为每个单词的模板,识别过程指不过是搜寻誉为指单词它们即为每个单词的模板,识别过程指不过是搜寻誉为指单词有最佳拟合的码本问题,即每个输入矢量必须和每个码本所有有最佳拟合的码本问题

15、,即每个输入矢量必须和每个码本所有码字进行比较。码字进行比较。第13页,共25页,编辑于2022年,星期二神经网络神经网络关于神经网络在语音信号处理中的应用研究十分活跃,关于神经网络在语音信号处理中的应用研究十分活跃,其中以在语音识别方面的应用最令人瞩目。目前,主要是从其中以在语音识别方面的应用最令人瞩目。目前,主要是从听觉神经模型中得到启发,以便构成一些具有类似能力的人听觉神经模型中得到启发,以便构成一些具有类似能力的人工系统,使它们在解决语音信号处理工系统,使它们在解决语音信号处理(特别是识别特别是识别)问题时问题时能得到较好的性能。研究神经网络以探索人的听觉神能得到较好的性能。研究神经网

16、络以探索人的听觉神经机理,改进现有语音语音识别系统的性能,是当前经机理,改进现有语音语音识别系统的性能,是当前语音识别研究的一个重要方向。在模式识别的应用中语音识别研究的一个重要方向。在模式识别的应用中,多采用多采用BP网和网和RBF网等前向神经网络来实现。网等前向神经网络来实现。第14页,共25页,编辑于2022年,星期二RBF网络拓扑结构第15页,共25页,编辑于2022年,星期二RBF神经网络的特点 径向基函数神经网络径向基函数神经网络(简称简称RBFNN)是一种三层前向神经网络。它的隐层是一种三层前向神经网络。它的隐层激活函数是一种径向对称的核函数。当输入样本传播到隐单元空间时激活函数

17、是一种径向对称的核函数。当输入样本传播到隐单元空间时,这组核这组核函数构成了输入样本的一组函数构成了输入样本的一组“基基”。因此。因此,这种神经网络称为径向基函这种神经网络称为径向基函数神经网络。数神经网络。RBFNN具有以下特点具有以下特点:是一种静态网络;是一种静态网络;与函数逼近理论相吻合;与函数逼近理论相吻合;具有唯一最佳逼近点;具有唯一最佳逼近点;网络连接权值与输出呈线性关系。网络连接权值与输出呈线性关系。径向基网络与一般的三层径向基网络与一般的三层BP网结构很相似,区别有两点:网结构很相似,区别有两点:1.输入层到隐层之间权值固定为输入层到隐层之间权值固定为1,只有隐层到输出层之间

18、的全值可调,只有隐层到输出层之间的全值可调节。节。2.隐层神经元的激活函数不同,它用一种具有局部作用性质的函数隐层神经元的激活函数不同,它用一种具有局部作用性质的函数代替了代替了BP网常用的网常用的Sigmoid函数。函数。RBF网最常用的激活函数是高斯函数。网最常用的激活函数是高斯函数。第16页,共25页,编辑于2022年,星期二 从上面的分析可知,RBF 网络由两部分组成(设输入维数为 p,隐单元数为 m,输出维数为 q):第一部分:从输入空间到隐含层空间的非线性变换层第 i 个隐单元输出为:第17页,共25页,编辑于2022年,星期二 其中:g(.)为隐单元的变换函数(即径向基函数),一

19、般取为 Gauss 函数,即 x 为 p 维的输入向量,即 为第 i 个非线性变化单元的“中心”向量。为非线性变化单元的宽度。第18页,共25页,编辑于2022年,星期二 第二部分:从隐含层空间到输出层空间的线性合并层第 j 个输出其中:为第 i 个隐单元与第 j 个输出之间的连接权值;y 为 q 维的输出向量,即 。第19页,共25页,编辑于2022年,星期二 在在RBFRBF网络中可以调整的参数有:隐节点激励函网络中可以调整的参数有:隐节点激励函数,隐节点中心和半径,隐层节点个数和隐层至输出数,隐节点中心和半径,隐层节点个数和隐层至输出的连接权值。的连接权值。RBFRBF网络的学习方法有两

20、种:网络的学习方法有两种:1 1参数同时训练。参数同时训练。2 2两阶段训练。两阶段训练。确定每个确定每个RBFRBF隐单元的中心和半径;隐单元的中心和半径;调节权值矩阵(线性最小二乘法)。调节权值矩阵(线性最小二乘法)。RBF网络的学习第20页,共25页,编辑于2022年,星期二基于RBF网络的语音识别原理图第21页,共25页,编辑于2022年,星期二第一步:提取特征第一步:提取特征第二步:确定网络结构第二步:确定网络结构第三步:确定隐函数中心(聚类方法)第三步:确定隐函数中心(聚类方法)第四步:确定半径(根据公式第四步:确定半径(根据公式 )第五步:训练隐层到输出层的连接权值第五步:训练隐

21、层到输出层的连接权值(最小二乘法最小二乘法)第六步:对测试集单词进行识别第六步:对测试集单词进行识别实验步骤第22页,共25页,编辑于2022年,星期二K均值聚类算法均值聚类算法步骤(步骤(LBGLBG算法):算法):即按照一定的失真测度,对训练数据进行分类,从而把训练数据在多维空间中划分成一个个以形心(码字)为中心的胞腔。这个过程需要一个由大量的矢量构成的样本集,经过统计实验后确定出各个胞腔的中心矢量。下面是LBG算法的具体步骤:第23页,共25页,编辑于2022年,星期二 初始化:初始化:采用某种适当的方法选一个包含采用某种适当的方法选一个包含N个码字个码字的初始码本矢量。的初始码本矢量。

22、分类分类:按最近邻按最近邻(Nearest Neighbor)准则准则,以码字为中以码字为中心,将训练矢量集中的所有矢量分到各个胞腔中,形心,将训练矢量集中的所有矢量分到各个胞腔中,形成成N个区域。个区域。产生新码本:重新计算每个区域新的中心,并以此作为该产生新码本:重新计算每个区域新的中心,并以此作为该区域的新码字。计算所有训练矢量的总失真度。区域的新码字。计算所有训练矢量的总失真度。结束判断:结束判断:判断这一次的总失真测度比上次总失真判断这一次的总失真测度比上次总失真测度下降至是否达到预先设定的某一阈值,如果达到测度下降至是否达到预先设定的某一阈值,如果达到阈值则停止,否则转步骤阈值则停止,否则转步骤2。第24页,共25页,编辑于2022年,星期二改进的RBF算法 1.K-均值法是一种无监督的学习算法,在学均值法是一种无监督的学习算法,在学习过程中并没有充分利用样本给出的信息,习过程中并没有充分利用样本给出的信息,识别效果不理想。所以采用有监督地选取隐识别效果不理想。所以采用有监督地选取隐层各单元的中心层各单元的中心(逐级均值聚类算法逐级均值聚类算法)。2.基于小波神经网络的改进基于小波神经网络的改进第25页,共25页,编辑于2022年,星期二

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁