改进MFCC参数在非特定人语音识别中的研究.docx

上传人:a**** 文档编号:10691 上传时间:2017-10-22 格式:DOCX 页数:5 大小:47.05KB
返回 下载 相关 举报
改进MFCC参数在非特定人语音识别中的研究.docx_第1页
第1页 / 共5页
改进MFCC参数在非特定人语音识别中的研究.docx_第2页
第2页 / 共5页
点击查看更多>>
资源描述

《改进MFCC参数在非特定人语音识别中的研究.docx》由会员分享,可在线阅读,更多相关《改进MFCC参数在非特定人语音识别中的研究.docx(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、 第29卷第 3期 科技通报 Vol.29 No.3 2013 年 3 月 BULLETIN OF SCIENCE AND TECHNOLOGY Mar. 2013 改进 MFCC参数在非特定人语音识别中的研究 田莎莎 S唐菀 s佘炜 2 (1.中南民族大学计算机科学学院,武汉 430074;2.中南民族大学数学与统计学院,武汉 430074) 摘要 :随着信息时代的高速发展,人们越来越关注计算机的便携使用方式,以语音输人代替手动输人 成为计算机未来发展的一个必然趋势。本文在 MFCC特征参数的基础上,提出了一种改进 MFCC特征 参数 -BMFCC特征参数,以提高原 MFCC特征参数在语音识

2、别时的识别率和运算速度。 BMFCC特征 参数在进行参数的提取时,分为特征分量加权、特征分量求差分、主成分分析三个步骤。仿真实验结果 表明,本文提出的 BMFCC特征参数在识别率和有运算速度上均优于 MFCC特征参数,且更具鲁棒性。 关键词 :MFCC参数 ;BMFCC参数 ;语音识别;非特定人 中图分类号 :TP391.42 文献标识码 :A 文章编号: 1001-7119(2013)03-0139-04 Research of Improved MFCC Parameters in Signer-independent Speech Recognition Tian ShashaTang

3、Wan1,She Wei2 (l.College of Computer Science, South-Central University for Nationalities, Wuhan 430074, China 2.College of mathematics and statistics, South-Central University for Nationalities,Wuhan 430074, China) Abstract: With the rapid development of the information age, people pay more and more

4、 attention to the portable use of computer, taking voice input instead of manual input will become an inexorable trend of computer development. The paper proposed an improved MFCC feature parameters-BMFCC characteristic parameters on the basis of MFCC feature parameters to improve the recognition ra

5、te and operation speed of original MFCC characteristic parameters in speech recognition. In the extraction of BMFCC characteristic parameters, it was divided into three steps of feature component weight, characteristic component difference algorithm and principal component analysis. The simulation r

6、esults show that the proposed BMFCC characteristic parameter is superior and more robust to the MFCC characteristic parameters in the recognition rate and operation speed. Key words: MFCC parameters; BMFCC parameters; speech recognition; speaker-independent 0 引言 随着计算机越来越向便携化方向发展,随着 计算环境的日趋复杂化,人们越来越迫

7、切要求摆 脱 键盘的束缚而代之以语音输入这样便于使用 的、自然的、人性化的输人方式 1。作为交叉学科 的一个,语音识别技术具有较深远的科学研究价 值吒语音合成和语音识别技术现已经成为现代 科学技术发展的重要标志之一,也是现代计算机 技术领域发展和研究的重要方向之一 3。 语音识别的研究工作大约开始于上世纪 50 年代。1952年 Davis等人在贝尔实验室首次成功 研制了能识别 10个不同英语数字的实验装置 14。 四年后 Olson和Belar等人采用 8个带通滤波器 组提取频谱参数,并将其作为语音的重要特征 , 成功地研制了一台简易的语音打字机 到了 20 世纪 60年代中期,如快速傅里叶

8、变换、数字滤波 器等方法和技术成为语音信号数字处理的重要 收稿日期 :2012-12-07 基金项目:国家自然科学基金资助项目 (61103248);中南民族大学自然科学基金资助项目 ( YZQ10004)。 作者简介 :田莎莎 (1980-),女,汉族,河南省焦作市人,讲师,硕士研究生,研究方向 :嵌人式, FPGA。 140 科 技 通 报 第 29卷 理论和技术基础 。至此语音识别形成的一系列 的数字信号处理的方法和技术。 20世纪 70年代 中期,线性预测技术被用来处理语音信号,在此 之后隐马尔可夫的模型法 (HMM)也获得初步成 功,该技术后来在语音信号处理的多个方面获得 巨大成功

9、在 20世纪 80年代,由于隐马尔可夫 模型、矢量量化和人工神经网络等技术被相继应 用于处理语音信号,并且经过不断的改进和完 善,其中,隐马尔可夫模型作为语音信号的一种 统计模型,在处理语音信号的各个领域中获得了 广泛的应用 81。虽然有部分语音识别产品面世,其 语音识别技术也已经取得了一些成就,但是,目 前的大多数语音识 别系统远没有达到实用化要 求 9,任然局限于实验室内,究其根本原因是识别 精度和系统复杂度任然存在较大问题 1 。 本文基于存在的问题和现有的 MFCC特征 参数提出了一种改进 MFCC参数,并将其应用于 非特定人语音识别中,以提高非特定人语音识别 的识别率和运算速度。 1

10、 MFCC系数 1.1 MFCC 概述 MFCC着眼于人类的听觉机理,依据人类听 觉实验的结果来分析语音的频率谱图,以次来期 望能获得更好的噪声鲁棒性。 MFCC分析的听觉 机理主要有两个 :第一个是人的主观感知频率领 域并不是线性划定的,根据 Volkman和 Stevens 的工作,有如下公式: FTOF11251 g(l+/7700) (1) 公式中的 Fw是感知频率,单位为美 (Mel), / 是实际频率,单位 SHZ。将语音信号的频谱转换 到感知的频域中,使之在处理模拟听觉的过程中 达到更好的效果。 1.2 MFCC特征参数的提取 MFCC特征参数的提取原理框图如图 1所 示: 图

11、1 MFCC特征提取框图 Fig.l MFCC feature extraction block diagram MFCC特征参数的提取过程 : (1)预处理 :预处理的步骤包括分帧加窗和预 加重。 预加重 :预加重可以在高频的共振峰凸现,经 过预加重后,声音的特性变得比较尖锐和清脆, 但是相比而言音量变小了。 分帧处理 :先将 #个采样点集合成一个观测 单位,称为一帧 ( Frame), iV的值通常是 512或 256,在采样频率为 8 kHz时,采样所占的时间大 约为 32 64 mS。为了避免相邻的两帧之间变化 过大,所以采样时会让两个相邻帧之间存在一段 较小的重叠区域,此重叠区域中包

12、含有 M个采样 点,通常情况下 M的值大约是 yv值的一半或者 1/3。 哈明窗 :只 要将一帧的语音乘以哈明窗,就可 增加帧右端和左端的连续性。哈明窗的函数表达 式如下所示: wn) =0.54+0.46cos (2) /V 1 快速傅立叶变换 :由于信号的特性在时域 上的变化较难被看出,所以在此频域上通常情况 下将它转变成能量分布来观察,不同的能量分布 代表着不同的语音特性。所以当一帧的语音乘以 哈明窗后,其信息必须要再经过 FFT的变换,以 此来得到频谱上能量分布的情况。 (3) 三角带通滤波器 :将一组的 16个三角带 通滤波器乘以所得的能量谱,在 Mel频率上这 16 个三角带通滤波

13、器的分布是非常平均。 Mel频率 和一般频率之间的关系如式 (2 )所示, Mel频率代 表着一般人的人耳对于声音频率的感受度,由此 也可以观察出人耳对于频率 /的感受是呈对数形 式变化的,在低频部分人耳得到的感受是比较敏 锐的 :然而在高频部分,人耳的感受就会变得越 来越迟钝。 (4) 将对数谱作 DCT(离散余弦变换 )变换 , 求取语音信号得倒谱系数,得到 MFCC特征参 数。 2 改进 MFCC参数 MFCC参数相比其它特征参数有很好的识别 性能和抗噪性能,但实验表明 MFCC参数各分量 对识别率的贡献是不同的。 MFCC参数中对识别 g变换 取对数能置 Mel滤波器组 |变换 预处理

14、 第 3期 田莎莎等 .改进 MFCC参数在非特定人语音识别中的研究 141 率贡献小的分量不仅不会提高识别率反到会降 低语音的识别率,因此,本文根据 MFCC参数某 些部分存在的不足情况,提出了一种改进的 MFCC参数 Better-MFCC,其参数的提取分为 特征分量加权、特征分量求差分和主成分分析三 个步骤。 2.1特征分量加权 通过观察实验中特征参数的各个分量对识 别率的产生的影响发现,不同分量对语音的表征 能力是不相同的。而且各维分量的均值方差差异 相当明显,如果仅仅将各维分量简单地组合起 来,这明显是一种比较粗糙的做法,在组合之前 应当将各维分量乘以与其相应的加权系数使之 最大程度

15、地反映出各维分量对识别率的贡献,从 而使识别效果达到最优情况。加权以后的特征系 数可以使用 WMFCC来表示。 F比方法是语音特征有效性评价的一种方 法,本文所用特征加权的方法就是在 MFCC的特 征提取中应用F比方法来估计出各维特征分量 对识别率影响的基础上提出来的。如果将 )表 示为第 A维分量的 F比,则有: )=一 ,(:、 ) (3) wiAin / 其中,库中任何识别基元的特征参数中第维 分量均值的方差都表为 F6e_U), 基本表达式 为: N Fbemem( k ) (HlX i)-叫 )2 (4) i = I 其中库中的识别基元存在的个数为 yv, 第 i 个识别基元为 /4

16、(0,所有样本的 MFCC参数的第 维分量的均值为叫。 库中每个识别基元的语音特征参数第 A: 维分 量的方差之和表示为 ),它的表达式为: F(fc)=X - (5) i = 1 几 i 其中第 i个识别基元的所有样本第维分量的表 示 为 ,第 i个识别基元的所有样本的个数表 本为 ni0 本文实验利用了汉语数字,并计算各维的 F 比,图 2为计算结果示意图。 根据 F比图的特点,我们可以用一种类正弦 函数来假定加权系数。表达式如下: 图 2 MFCC参数前 13维分置 F比值图 Fig.2 MFCC parameters before the 13-dimensional componen

17、t F ratio Cj=a+6sin(TT Up ) (6) 其中 P为滤波器阶数, i=, l, , ; -i。 a为加 权系数的静态分量,其目的是保证系数不会完全 衰减。同时也保证低维的特征分量的作用要比高 维特征分量来的更大,印证了一个事实 :语音能 量主要集中在低频。 a和 &在以上公式中可以根 据其相应的经验值确定,实验中的模型库能够影 响 a和 6的精确程度,其中模型库越大, a和 6的 确定来的越精确。本文中 ,a和 6的取值都为 0.5。 MFCC参数加权后的表达式为: C(ra)=li, (m)cos(m0-5) 0.5+0.5sin(7m/M), 0矣 mM (7) 其中

18、 M代表滤波器阶数。 2.2特征分量求差分 语音信号在范围内是连续动态变化的,因此 可以对加权后的特征分量求一阶和二阶差分。 这样就可以用 A WMfCC来表示特征分量变 化的速度,用 A 2FMFCC表示特征分量变化的加 速度 。 将三者组合成一组 39维的 MFCC参数可以 较好的体现说话人语音的变化。 2.3主成分分析 主成分分析 (PCA)就是在原始数据中舍去一 些不重要的数据,并且寻找和保留最有效、最重 要的数据,对 39维 MFCC参数进行 PCA分析目 的就是舍弃那些表征能力弱和那些增加了语音 识别后起反作用的特征分量,选取表征语音特征 最有效的部分。这样既为语音识别后续过程减少

19、 了计算量,又减少了数据的存储量,同时还对语 音特征参数进行了最优化,提高了语音的识别率 和识别效率。特别是当识别系统高负荷工作时, 142 科 技 通 报 第 29卷 通过 PCA的处理,数据量会大幅度地被压缩,存 储空间的要求和计算的复杂度会在很大的程度 上降低。 设 C为 MxW的矩阵 ,M为信号分巾贞后的帧 数, W为MFCC参数的维数,则语音信号提取 MFCC参数后可以用CzUnCh , c; v表示,此处 iV=39。 则相关矩阵 r为: N T=rL(crC)(cl-Cy (8) 其中 f是对矩阵 r求其特征值及相应的特征 向量,也是均值向量,将特征值从大到小排列。在 设定阈值的

20、前提下,取大于阈值的前个特征值 所对应的特征向量构成变换矩阵 V。最后,利用 (:-将 :映射到特征空间 ;, , , ;? 为 Mxp的矩阵, MFCC参数在语音信号流中的 第一主分量为 A,在所有分量中对语音的表征能 量最强的分量为依次类推。要组成新的 MFCC 参数就必须在新的特征向量 Z中所选取 P维特 征向量,新的 MFCC参数称为 BMFCC参数,它的 选取步骤如图 3所示。 图 3 BMFCC选取过程图 Fig.3 BMFCC extraction process diagram 由此可见, BMFCC参数有效提高语音识别 率。 PCA降维处理既减少了数据存储量 ,又降低 了计算

21、复杂度,提高了识别效率,加快了训练时 间。同时,新的语音特征参数相比 MFCC受噪声 环境影响小,所以 BMFCC更具鲁棒性且识别性 能得到了优化。 3 实 验 仿 真 为了检测本文提出的改进算法的性能,对其 进行仿真实验。实验中对 10个发音人 (5男 5女 ) 的语音进行字音 ( 9)的识别实验。每人发音 1 次,共计 1000次发音,其中前 5次为训练样本,后 5次为测试样本。 3.1识别率测试 使用 MFCC参数和本文提出的 BMFCC参数 进行不同噪声 环境下的识别度对比实验,其实验 结果如表 1所示。 从表 1的数据中可以看出,无论在什么环境 下,本文提出的改进算法在识别率上都比原

22、算法 高,说明本文提出的算法抗噪性强。 表 1识别度对比统计 Table 1 Identification of Statistics 算法 无噪声 /% 微弱噪声 /% 强噪声 /% MFCC 72.5 62.1 50.8 BMFCC 91.3 81.2 75.4 3.2训练时间测试 在识别率仿真实验的时候,计算两种算法的 训练时间,对其进行对比,如下表所示。 表 2识别度对比统计 Table 2 Data read test 算法 训练样本数 /字 训练时间 /s MFCC 50 892.738 BMFCC 50 682.127 从表 2中可以看出,本文提出的 BMFCC特 征参数在运算速

23、度上得到了大幅度的提高。原因 是本文提出的BMFCC特征参数在训练时间上比 原先的 MFCC特征参数少很多。 由上面两个实验结果的比较可以看出,本文 提出的 BMFCC参数使得 BMFCC能更有效的表 征语音特征,拥有更高的语音识别率。原因是本 文对原参数进行了一系列有目的的改进如加权 处理,运用 PCA进一步处理后的 BMFCC有效去 除对语音特征表征能力差的特征分量等。 4 总结 本文针对目前非特定人语音识别的现状,对 MFCC特征参数进行改进和优化,仿真实验结果 表明 ,本文提出的改进方案在非特定人语音识别 的识别率和运算速度上都得到了不错的效果,均 优于原先的 MFCC特征提取参数。

24、参考文献: 1 曹洁,余丽珍 .基于 MFCC和运动强度聚类初始化的多说 话人识别 J.计算机应用研究 .2012,29(9):3295-3298 2 竺乐庆,张真 .基于 MFCC 和 GMM 的昆虫声音自 动识别 J.昆虫学报 .2012,55(4):466-471. (下转第 146瓦) 146 科 技 通 报 第 29卷 I mm 一隊一雜薩 图 4每次查询操作访问磁盘页面数对比 Fig.4 Contrast of I/O times of visiting disk page U3 S& 9 S6S9 mX 2B35S 38%8 SS23$ 多魏 as/个 图 s综合效率对比 Fig

25、. 5 Contrast of overall efficiency 4 结论 对矿区环境可持续发展决策支持系统的后 台矿区 GIS索引进行优化。对该索引优化主要是 消除索引结构中结点之间的重叠 ,如果结点之间 的重叠区域太大,就会导致查询效率降低。在该 问题中引起结点重叠主要是来自于结点分裂后 重插造成的。对矿区环境可持续发展决策支持系 统的后台矿区 GIS索引优化研究中,为了保证分 裂后结点具有紧凑的几何形态,减少兄弟结点间 的重叠,本文在理论上提出一个密集度用来衡量 分裂后结点的紧凑程度,为减少分裂重插产生的 重叠,采用 Delaunay图和蜂群聚类算法优化分裂 算法,从而提高了矿区 G

26、IS的查询性能。 参考文献: 1 陈玉华,陈守余 .矿山环境可持续发展决策支持系统空 间数据库设计与开发 J.物探与化探, 2003,27(3):230- 231. 2 许江涛等 .基于 GIS的矿井防治水辅助决策系统 J.中 国煤炭, 2008,(9):94-97. 3 赵光耀 .基于 GIS的矿井安全管理信息系统的研究 J.煤 炭技术 ,2009,28(2): 6-7. .4胡晋山 .基于 GIS的矿区土地复垦信息系统的设计 J.金 属矿山, 2010(丨 2):113-116. 5 李海生 .一类基于蜜蜂采集模型的智能算法 .计算机与 现代化 ,2010,1:7-11. 6 王永会,李玉

27、梅,宋晓宇 .一 种高阶 Delaunay三角网生成 算法J.测绘科学 ,2009, 34(4):39-41. m吴敏君,陈天滋 .基于分割聚类技术的 R树结点分裂方 案 J.计算机应用与软件, 2007, 24( 10):42-55. (上接第 142页) 3 罗茜,王鸿斌,张真,孔祥波 .基于 MFCC与神经网络的小 蠢声音种类自动鉴别 J.北京林业大学学报 .2011, 33(5): 81-85. 4 李勇,李应,余清清 .新型 MFCC和波动模型相结合的二 层环境声音识别 J.计算机工程与应用 .2011,47(30): 132-135. 5 宋志章,马丽,刘省非,李奇捕 .混合语音识

28、别模型的设计 与仿真研究 J.计算机仿真 .2012,29(5):152-155 6 马仲海 .多噪声环境下声音的身份鉴定技术研究与仿真 J.计算机仿真 .2012,29(5):396-399. m周阿转,俞一彪 .采用特征空间随机映射的鲁棒性语音识 别 J.计算机应用 .2012,32(7):2070-2073. 间姜聖 ,俞一彪 .基于语音结构化模型的数字语音识别 J. 计算机工程与设计 .2012,33(4):1482-1490. 9 单煜翔,邓妍,刘加 .一种联合语种识别的新型大词汇量 连续语音识别算法 J.自动化学报 .2012,38(3):366-374. 10 韦丽兴张淼 ,钟映春 .采用 PC丽的有噪特定人语音识 别系统 J.计算机工程与应用 .2012,48(3):133-136. z5r 11X si

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 毕业论文

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁