改进MFCC参数在非特定人语音识别中的研究.docx-淘文阁

资源描述

《改进MFCC参数在非特定人语音识别中的研究.docx》由会员分享，可在线阅读，更多相关《改进MFCC参数在非特定人语音识别中的研究.docx（5页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第29卷第 3期科技通报 Vol.29 No.3 2013 年 3 月 BULLETIN OF SCIENCE AND TECHNOLOGY Mar. 2013 改进 MFCC参数在非特定人语音识别中的研究田莎莎 S唐菀 s佘炜 2 (1.中南民族大学计算机科学学院，武汉 430074;2.中南民族大学数学与统计学院，武汉 430074) 摘要 :随着信息时代的高速发展，人们越来越关注计算机的便携使用方式，以语音输人代替手动输人成为计算机未来发展的一个必然趋势。本文在 MFCC特征参数的基础上，提出了一种改进 MFCC特征参数 -BMFCC特征参数，以提高原 MFCC特征参数在语音识

2、别时的识别率和运算速度。 BMFCC特征参数在进行参数的提取时，分为特征分量加权、特征分量求差分、主成分分析三个步骤。仿真实验结果表明，本文提出的 BMFCC特征参数在识别率和有运算速度上均优于 MFCC特征参数，且更具鲁棒性。关键词 :MFCC参数 ;BMFCC参数 ;语音识别；非特定人中图分类号 :TP391.42 文献标识码 :A 文章编号： 1001-7119(2013)03-0139-04 Research of Improved MFCC Parameters in Signer-independent Speech Recognition Tian ShashaTang

3、Wan1,She Wei2 (l.College of Computer Science, South-Central University for Nationalities, Wuhan 430074, China 2.College of mathematics and statistics, South-Central University for Nationalities,Wuhan 430074, China) Abstract： With the rapid development of the information age, people pay more and more

4、 attention to the portable use of computer, taking voice input instead of manual input will become an inexorable trend of computer development. The paper proposed an improved MFCC feature parameters-BMFCC characteristic parameters on the basis of MFCC feature parameters to improve the recognition ra

5、te and operation speed of original MFCC characteristic parameters in speech recognition. In the extraction of BMFCC characteristic parameters, it was divided into three steps of feature component weight, characteristic component difference algorithm and principal component analysis. The simulation r

6、esults show that the proposed BMFCC characteristic parameter is superior and more robust to the MFCC characteristic parameters in the recognition rate and operation speed. Key words： MFCC parameters; BMFCC parameters; speech recognition; speaker-independent 0 引言随着计算机越来越向便携化方向发展，随着计算环境的日趋复杂化，人们越来越迫

7、切要求摆脱键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输人方式 1。作为交叉学科的一个，语音识别技术具有较深远的科学研究价值吒语音合成和语音识别技术现已经成为现代科学技术发展的重要标志之一，也是现代计算机技术领域发展和研究的重要方向之一 3。语音识别的研究工作大约开始于上世纪 50 年代。1952年 Davis等人在贝尔实验室首次成功研制了能识别 10个不同英语数字的实验装置 14。四年后 Olson和Belar等人采用 8个带通滤波器组提取频谱参数，并将其作为语音的重要特征 , 成功地研制了一台简易的语音打字机到了 20 世纪 60年代中期，如快速傅里叶

8、变换、数字滤波器等方法和技术成为语音信号数字处理的重要收稿日期 :2012-12-07 基金项目：国家自然科学基金资助项目 (61103248);中南民族大学自然科学基金资助项目（ YZQ10004)。作者简介 :田莎莎 (1980-)，女，汉族，河南省焦作市人，讲师，硕士研究生，研究方向 :嵌人式， FPGA。 140 科技通报第 29卷理论和技术基础。至此语音识别形成的一系列的数字信号处理的方法和技术。 20世纪 70年代中期，线性预测技术被用来处理语音信号，在此之后隐马尔可夫的模型法 (HMM)也获得初步成功，该技术后来在语音信号处理的多个方面获得巨大成功

9、在 20世纪 80年代，由于隐马尔可夫模型、矢量量化和人工神经网络等技术被相继应用于处理语音信号，并且经过不断的改进和完善，其中，隐马尔可夫模型作为语音信号的一种统计模型，在处理语音信号的各个领域中获得了广泛的应用 81。虽然有部分语音识别产品面世，其语音识别技术也已经取得了一些成就，但是，目前的大多数语音识别系统远没有达到实用化要求 9，任然局限于实验室内，究其根本原因是识别精度和系统复杂度任然存在较大问题 1 。本文基于存在的问题和现有的 MFCC特征参数提出了一种改进 MFCC参数，并将其应用于非特定人语音识别中，以提高非特定人语音识别的识别率和运算速度。 1

10、 MFCC系数 1.1 MFCC 概述 MFCC着眼于人类的听觉机理，依据人类听觉实验的结果来分析语音的频率谱图，以次来期望能获得更好的噪声鲁棒性。 MFCC分析的听觉机理主要有两个 :第一个是人的主观感知频率领域并不是线性划定的，根据 Volkman和 Stevens 的工作，有如下公式： FTOF11251 g(l+/7700) (1) 公式中的 Fw是感知频率，单位为美 (Mel)， / 是实际频率，单位 SHZ。将语音信号的频谱转换到感知的频域中，使之在处理模拟听觉的过程中达到更好的效果。 1.2 MFCC特征参数的提取 MFCC特征参数的提取原理框图如图 1所示：图

11、1 MFCC特征提取框图 Fig.l MFCC feature extraction block diagram MFCC特征参数的提取过程： (1)预处理 :预处理的步骤包括分帧加窗和预加重。预加重 :预加重可以在高频的共振峰凸现，经过预加重后，声音的特性变得比较尖锐和清脆，但是相比而言音量变小了。分帧处理 :先将 #个采样点集合成一个观测单位，称为一帧（ Frame), iV的值通常是 512或 256,在采样频率为 8 kHz时，采样所占的时间大约为 32 64 mS。为了避免相邻的两帧之间变化过大，所以采样时会让两个相邻帧之间存在一段较小的重叠区域，此重叠区域中包

12、含有 M个采样点，通常情况下 M的值大约是 yv值的一半或者 1/3。哈明窗 :只要将一帧的语音乘以哈明窗，就可增加帧右端和左端的连续性。哈明窗的函数表达式如下所示： wn) =0.54+0.46cos (2) /V 1 快速傅立叶变换 :由于信号的特性在时域上的变化较难被看出，所以在此频域上通常情况下将它转变成能量分布来观察，不同的能量分布代表着不同的语音特性。所以当一帧的语音乘以哈明窗后，其信息必须要再经过 FFT的变换，以此来得到频谱上能量分布的情况。 (3) 三角带通滤波器 :将一组的 16个三角带通滤波器乘以所得的能量谱，在 Mel频率上这 16 个三角带通滤波

13、器的分布是非常平均。 Mel频率和一般频率之间的关系如式 (2 )所示， Mel频率代表着一般人的人耳对于声音频率的感受度，由此也可以观察出人耳对于频率 /的感受是呈对数形式变化的，在低频部分人耳得到的感受是比较敏锐的 :然而在高频部分，人耳的感受就会变得越来越迟钝。 (4) 将对数谱作 DCT(离散余弦变换 )变换 , 求取语音信号得倒谱系数，得到 MFCC特征参数。 2 改进 MFCC参数 MFCC参数相比其它特征参数有很好的识别性能和抗噪性能，但实验表明 MFCC参数各分量对识别率的贡献是不同的。 MFCC参数中对识别 g变换取对数能置 Mel滤波器组 |变换预处理

14、第 3期田莎莎等 .改进 MFCC参数在非特定人语音识别中的研究 141 率贡献小的分量不仅不会提高识别率反到会降低语音的识别率，因此，本文根据 MFCC参数某些部分存在的不足情况，提出了一种改进的 MFCC参数 Better-MFCC，其参数的提取分为特征分量加权、特征分量求差分和主成分分析三个步骤。 2.1特征分量加权通过观察实验中特征参数的各个分量对识别率的产生的影响发现，不同分量对语音的表征能力是不相同的。而且各维分量的均值方差差异相当明显，如果仅仅将各维分量简单地组合起来，这明显是一种比较粗糙的做法，在组合之前应当将各维分量乘以与其相应的加权系数使之最大程度

15、地反映出各维分量对识别率的贡献，从而使识别效果达到最优情况。加权以后的特征系数可以使用 WMFCC来表示。 F比方法是语音特征有效性评价的一种方法，本文所用特征加权的方法就是在 MFCC的特征提取中应用F比方法来估计出各维特征分量对识别率影响的基础上提出来的。如果将 )表示为第 A维分量的 F比，则有： )=一 ,(:、 ) (3) wiAin / 其中，库中任何识别基元的特征参数中第维分量均值的方差都表为 F6e_U)，基本表达式为： N Fbemem( k ) (HlX i)-叫 )2 (4) i = I 其中库中的识别基元存在的个数为 yv，第 i 个识别基元为 /4

16、(0,所有样本的 MFCC参数的第维分量的均值为叫。库中每个识别基元的语音特征参数第 A：维分量的方差之和表示为 )，它的表达式为： F(fc)=X - (5) i = 1 几 i 其中第 i个识别基元的所有样本第维分量的表示为，第 i个识别基元的所有样本的个数表本为 ni0 本文实验利用了汉语数字，并计算各维的 F 比，图 2为计算结果示意图。根据 F比图的特点，我们可以用一种类正弦函数来假定加权系数。表达式如下：图 2 MFCC参数前 13维分置 F比值图 Fig.2 MFCC parameters before the 13-dimensional componen

17、t F ratio Cj=a+6sin(TT Up ) (6) 其中 P为滤波器阶数， i=， l，，； -i。 a为加权系数的静态分量，其目的是保证系数不会完全衰减。同时也保证低维的特征分量的作用要比高维特征分量来的更大，印证了一个事实 :语音能量主要集中在低频。 a和 &在以上公式中可以根据其相应的经验值确定，实验中的模型库能够影响 a和 6的精确程度，其中模型库越大， a和 6的确定来的越精确。本文中 ,a和 6的取值都为 0.5。 MFCC参数加权后的表达式为： C(ra)=li， (m)cos(m0-5) 0.5+0.5sin(7m/M)， 0矣 mM (7) 其中

18、 M代表滤波器阶数。 2.2特征分量求差分语音信号在范围内是连续动态变化的，因此可以对加权后的特征分量求一阶和二阶差分。这样就可以用 A WMfCC来表示特征分量变化的速度，用 A 2FMFCC表示特征分量变化的加速度。将三者组合成一组 39维的 MFCC参数可以较好的体现说话人语音的变化。 2.3主成分分析主成分分析 (PCA)就是在原始数据中舍去一些不重要的数据，并且寻找和保留最有效、最重要的数据，对 39维 MFCC参数进行 PCA分析目的就是舍弃那些表征能力弱和那些增加了语音识别后起反作用的特征分量，选取表征语音特征最有效的部分。这样既为语音识别后续过程减少

19、了计算量，又减少了数据的存储量，同时还对语音特征参数进行了最优化，提高了语音的识别率和识别效率。特别是当识别系统高负荷工作时， 142 科技通报第 29卷通过 PCA的处理，数据量会大幅度地被压缩，存储空间的要求和计算的复杂度会在很大的程度上降低。设 C为 MxW的矩阵 ,M为信号分巾贞后的帧数， W为MFCC参数的维数，则语音信号提取 MFCC参数后可以用CzUnCh ， c； v表示，此处 iV=39。则相关矩阵 r为： N T=rL(crC)(cl-Cy (8) 其中 f是对矩阵 r求其特征值及相应的特征向量，也是均值向量，将特征值从大到小排列。在设定阈值的

20、前提下，取大于阈值的前个特征值所对应的特征向量构成变换矩阵 V。最后，利用 (:-将 :映射到特征空间 ;， , ， ;? 为 Mxp的矩阵， MFCC参数在语音信号流中的第一主分量为 A，在所有分量中对语音的表征能量最强的分量为依次类推。要组成新的 MFCC 参数就必须在新的特征向量 Z中所选取 P维特征向量，新的 MFCC参数称为 BMFCC参数，它的选取步骤如图 3所示。图 3 BMFCC选取过程图 Fig.3 BMFCC extraction process diagram 由此可见， BMFCC参数有效提高语音识别率。 PCA降维处理既减少了数据存储量 ,又降低了计算

21、复杂度，提高了识别效率，加快了训练时间。同时，新的语音特征参数相比 MFCC受噪声环境影响小，所以 BMFCC更具鲁棒性且识别性能得到了优化。 3 实验仿真为了检测本文提出的改进算法的性能，对其进行仿真实验。实验中对 10个发音人 (5男 5女 ) 的语音进行字音 ( 9)的识别实验。每人发音 1 次，共计 1000次发音，其中前 5次为训练样本，后 5次为测试样本。 3.1识别率测试使用 MFCC参数和本文提出的 BMFCC参数进行不同噪声环境下的识别度对比实验，其实验结果如表 1所示。从表 1的数据中可以看出，无论在什么环境下，本文提出的改进算法在识别率上都比原

22、算法高，说明本文提出的算法抗噪性强。表 1识别度对比统计 Table 1 Identification of Statistics 算法无噪声 /% 微弱噪声 /% 强噪声 /% MFCC 72.5 62.1 50.8 BMFCC 91.3 81.2 75.4 3.2训练时间测试在识别率仿真实验的时候，计算两种算法的训练时间，对其进行对比，如下表所示。表 2识别度对比统计 Table 2 Data read test 算法训练样本数 /字训练时间 /s MFCC 50 892.738 BMFCC 50 682.127 从表 2中可以看出，本文提出的 BMFCC特征参数在运算速

23、度上得到了大幅度的提高。原因是本文提出的BMFCC特征参数在训练时间上比原先的 MFCC特征参数少很多。由上面两个实验结果的比较可以看出，本文提出的 BMFCC参数使得 BMFCC能更有效的表征语音特征，拥有更高的语音识别率。原因是本文对原参数进行了一系列有目的的改进如加权处理，运用 PCA进一步处理后的 BMFCC有效去除对语音特征表征能力差的特征分量等。 4 总结本文针对目前非特定人语音识别的现状，对 MFCC特征参数进行改进和优化，仿真实验结果表明 ,本文提出的改进方案在非特定人语音识别的识别率和运算速度上都得到了不错的效果，均优于原先的 MFCC特征提取参数。

24、参考文献： 1 曹洁，余丽珍 .基于 MFCC和运动强度聚类初始化的多说话人识别 J.计算机应用研究 .2012,29(9):3295-3298 2 竺乐庆，张真 .基于 MFCC 和 GMM 的昆虫声音自动识别 J.昆虫学报 .2012,55(4):466-471. (下转第 146瓦） 146 科技通报第 29卷 I mm 一隊一雜薩图 4每次查询操作访问磁盘页面数对比 Fig.4 Contrast of I/O times of visiting disk page U3 S& 9 S6S9 mX 2B35S 38%8 SS23$ 多魏 as/个图 s综合效率对比 Fig

25、. 5 Contrast of overall efficiency 4 结论对矿区环境可持续发展决策支持系统的后台矿区 GIS索引进行优化。对该索引优化主要是消除索引结构中结点之间的重叠 ,如果结点之间的重叠区域太大，就会导致查询效率降低。在该问题中引起结点重叠主要是来自于结点分裂后重插造成的。对矿区环境可持续发展决策支持系统的后台矿区 GIS索引优化研究中，为了保证分裂后结点具有紧凑的几何形态，减少兄弟结点间的重叠，本文在理论上提出一个密集度用来衡量分裂后结点的紧凑程度，为减少分裂重插产生的重叠，采用 Delaunay图和蜂群聚类算法优化分裂算法，从而提高了矿区 G

26、IS的查询性能。参考文献： 1 陈玉华，陈守余 .矿山环境可持续发展决策支持系统空间数据库设计与开发 J.物探与化探， 2003,27(3):230- 231. 2 许江涛等 .基于 GIS的矿井防治水辅助决策系统 J.中国煤炭， 2008,(9):94-97. 3 赵光耀 .基于 GIS的矿井安全管理信息系统的研究 J.煤炭技术 ,2009,28(2): 6-7. .4胡晋山 .基于 GIS的矿区土地复垦信息系统的设计 J.金属矿山， 2010(丨 2):113-116. 5 李海生 .一类基于蜜蜂采集模型的智能算法 .计算机与现代化 ,2010,1:7-11. 6 王永会，李玉

27、梅，宋晓宇 .一种高阶 Delaunay三角网生成算法J.测绘科学 ,2009, 34(4):39-41. m吴敏君，陈天滋 .基于分割聚类技术的 R树结点分裂方案 J.计算机应用与软件， 2007， 24( 10):42-55. (上接第 142页） 3 罗茜，王鸿斌，张真，孔祥波 .基于 MFCC与神经网络的小蠢声音种类自动鉴别 J.北京林业大学学报 .2011， 33(5): 81-85. 4 李勇，李应，余清清 .新型 MFCC和波动模型相结合的二层环境声音识别 J.计算机工程与应用 .2011,47(30): 132-135. 5 宋志章，马丽，刘省非，李奇捕 .混合语音识

28、别模型的设计与仿真研究 J.计算机仿真 .2012,29(5):152-155 6 马仲海 .多噪声环境下声音的身份鉴定技术研究与仿真 J.计算机仿真 .2012,29(5):396-399. m周阿转，俞一彪 .采用特征空间随机映射的鲁棒性语音识别 J.计算机应用 .2012,32(7):2070-2073. 间姜聖 ,俞一彪 .基于语音结构化模型的数字语音识别 J. 计算机工程与设计 .2012,33(4):1482-1490. 9 单煜翔，邓妍，刘加 .一种联合语种识别的新型大词汇量连续语音识别算法 J.自动化学报 .2012,38(3):366-374. 10 韦丽兴张淼 ,钟映春 .采用 PC丽的有噪特定人语音识别系统 J.计算机工程与应用 .2012,48(3):133-136. z5r 11X si

展开阅读全文