《基于仿生模式识别的语音识别研究.pdf》由会员分享,可在线阅读,更多相关《基于仿生模式识别的语音识别研究.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 1994-2010 China Academic Journal Electronic Publishing House.All rights reserved.http:/ 第10卷 第2期2007年6月上 海 电 机 学 院 学 报JOURNAL OF SHANGHAI DIANJ I UNIVERSITYVol.10 No.2Jun.2007收稿日期:2006210220基金项目:上海市教委会科学基金资助项目(04DC33)作者简介:徐 毅(19832),男,硕士研究生,专业方向:语音处理和识别等。文章编号 167122730(2007)0220127204基于仿生模式识别的语音识别研
2、究徐 毅,殷 业,王 沛(上海师范大学 数理信息学院,上海200234)摘 要:与传统模式识别的方法相比,仿生模式识别能识别单模板,并大大减小误识率。基于这两个优点,将仿生模式识别应用于语音信号处理中,进行2次识别。第1次使用传统模式识别方法,第2次为单模板识别。对小词汇量的关键词识别实验结果表明能够大大降低误识率。关键词:语音识别;模式识别;仿生模式识别;关键词识别;误识率 中图分类号:TP 15 文献标识码:AThe Speech Signal Recognition Based on Bionic Pattern RecognitionXU Yi,YIN Ye,WA N G Pei(Ma
3、thematics and Sciences College,Shanghai Normal University,Shanghai 200234,China)Abstract:Compared with the traditional pattern recognition,bionic pattern recognition can recog2nize single template and reduce error rate.Based on the two merits,the bionic pattern recognition isapplied to speech signal
4、 processing with the use of secondary identification.Firstly,it uses traditionalmethods of pattern recognition,secondly,it uses single template recognition.Small vocabulary key2word spotting experimental results show a significantly lower error rate.Key words:speech recognition;pattern recognition;b
5、ionic pattern recognition;keyword spot2ting;error rate 语音识别本质上是一种模式识别,因此,识别算法的好坏对识别效果影响巨大。在半个多世纪的发展中,各种算法层出不穷,如滤波器模型法、线性预测技术(LP)、动态时间规整算法(DTW)、隐马尔科夫模型(HMM)、矢量量化技术(VQ)、人工神经网络(ANN)和支持向量机(SVM)等。但现有的这些方法只侧重于“区别”,即一类样本于有限类已知样本的区分,而忽视了“认识”的概念。这与人类对事物的识别功能恰恰相反,人类认识事物是以类类样本的“认识”过程,即一类样本与无限类未知样本的区分,侧重于“认识”,只
6、有在细微处才重视“区别”。正是由于这些模式识别方法忽略了“认识”的概念,必然会带来2个缺点:首次遇到未学习过的新事物时容易误认为是某一种学习过的旧事物,造成误识;在对未学习过的新事物进行新的学习时,往往会打乱旧知识,即破坏对学习过的旧事物的识 1994-2010 China Academic Journal Electronic Publishing House.All rights reserved.http:/别1。王守觉院士提出的仿生模式识别(拓扑模式识别)就是强调用“认识”模式取代传统的“分类”模式,因而,比传统模式识别方法会有较大优势,已经在人脸识别、波达方向(Direction o
7、f Arrival,DOA)估计等领域获得了成功。笔者将此方法引入语音识别领域,利用仿生模式识别的基本原理进行语音识别。1 仿生模式识别原理以往,人们在研究模式识别问题时,考虑的出发点都是怎样利用统计决策理论对若干有限类别的样本进行最优分类划分。而仿生模式识别是利用高维空间几何分析方法对一类一类样本进行“认识”。图1为仿生模式识别与传统模式识别的比较2。图1 仿生模式识别与传统模式识别的区别Fig.1Difference between bionic pattern recognition andtraditional pattern recognition 仿生模式识别是以一类样本在特征空间
8、中分布的最佳覆盖为目标的,不同于传统模式识别以不同类样本在特征空间中的最佳划分为目标。现以二维空间为例说明,如图2所示,三角形为要识别的样本,圆形、菱形为与三角形不同类的两类样本,折线为BP网络的划分方式,大圆为径向基函数(RadialBasis Function,RBF)网络的划分方式,细长椭圆代表仿生模式识别的“认识”方式。图2 划分方式与认识方式的区别Fig.2Difference between partition and cognition 基于特征空间中同类样本分布的连续性规律,对一类事物的“认识”,实质上就是对这类事物的全体在特征空间中形成合的无穷点集合的“形状”的分析和“认识”
9、。仿生模式识别就是利用点集拓扑学中关于高维流形的理论,研究特征空间中同类样本集的拓扑属性,从而对这类样本在特征空间中的分布状况加以合理覆盖3,4。2 基于仿生模式识别的语音识别2.1 语音识别的基本原理 语音识别主要包括语音信号预处理、特征提取、特征建模(建立参考模式库)、模式匹配和后处理几个功能模块,其中后处理为可选部分,如图3所示。图3 基于仿生模式识别的语音识别原理框图Fig.3The functional block diagram of speech recognitionbased on bionic pattern recognition 一个语音识别系统主要包括训练和识别两个阶
10、段。无论是训练还是识别,都需要首先对输入的语音进行预处理,并进行特征提取。下面具体说明各个模块的功能。(1)预处理:对输入的原始语音信号进行处理,滤除背景噪声等,进行语音信号的断点检测5,并进行语音分帧以及预加重等处理工作。(2)特征提取:负责计算语音的声学参数,并进行特征的计算,提取关键特征参数。为了减小计算量,本文采用一种新的特征提取方法,在传统的能量、过零率、倒谱等特征的基础上,提取每个字能量、过零率和倒谱的最大值的位置在字中所占的比例作为改进的特征量。(3)识别阶段:将输入语音的特征量和参考模式库中的模式进行比较,将相似度最高的模式所属的类别作为识别的中间候选结果输出。(4)训练阶段:
11、输入若干次训练语音,用上述提取得到一组特征参数,建立训练语音的参考模式库。(5)后处理:对上述得到的候选识别结果继续处理,通过更多知识的约束,得到最终的结果67。2.2 仿生模式识别算法实现在仿生模式识别中,任何一类事物全体连续映射到特征空间Rn中的“像”所组成的点都被视为一个闭集A,根据仿生模式识别的具体应用对象不同,集合A可以是不同维数的流形。识别过程就是判断某一被识别事物映射到特征空间Rn中的“像”是821上 海 电 机 学 院 学 报2007年第2期 1994-2010 China Academic Journal Electronic Publishing House.All rig
12、hts reserved.http:/否属于集合A。这就必须在特征空间Rn中构筑一个能覆盖A的n维空间几何形体。因此,算法的实质就是在特征空间中作一个合适的超椭球面。2.2.1 确定椭圆的半长轴或半短轴 在二维空间中,该超椭球面为椭圆。要确定椭圆的方程,需要知道椭圆的参数a、b和,其中,a、b为椭圆的半长轴和半短轴,为旋转角。而关键就在于如何确定椭圆的一条半长轴或半短轴。(1)先使用最小二乘法进行曲线拟合,采用一次直线拟合。现假定二维空间有m个样本,它们可用XOY平面上的m个点(x1,y1),(x2,y2),(xm,ym)来表示。假设y与x之间近似为一线性关系:y=kx+d(1)式中,k,d为
13、待定系数。一般来说,这m个点不可能位于同一直线上。现记i=yi-(kxi+d)i1,2,m(2)它反映了用直线(式(1)来描述点(xi,yi)时,计算值y与真实值yi之间的误差。根据最小均方误差准则,应使F(k,d)=6mi=12i=6mi=1(yi-kxi-d)2最小。由极值原理,最小值时应满足5F5k=5F5d=0,即:5F5k=-26mi=1xi(yi-kxi-d)=05F5d=-26mi=1(yi-kxi-d)=0解此联立方程组得k=m6mi=1xiyi-6mi=1xi6mi=1yim6mi=1x2i-6mi=1xi2d=6i=1x2i6mi=1yi-6mi=1xi6mi=1xiyim
14、6mi=1x2i-6mi=1xi2=arctank(2)根据已知的m个样本点,在样本空间中虚构两个新的点P(max(xi),max(yi)、Q(min(xi),min(yi),并求出它们在所拟合直线上的垂足M(xM,yM),N(xN,yN),而椭圆必有一条轴在所拟合的直线上,可令a=(xN-xM)2+(yN-yM)22椭圆的圆心坐标则为(x0,y0)=xM+xN2,yM+yN2接下来确定b,分别计算每个样本点到所拟合直线的距离,取其中最大值,即b=max|kxi-yi+d|k2+d2 至此,椭圆的所有参数都已确定,椭圆方程可表示为(x-x0)2a2+(y-y0)2b2=1(3)式中,xy=co
15、s-sinsincosxy。图4所示为4类样本在二维特征空间的分布及用仿生模式识别方法进行划分后的情形,颜色深浅不同的点表示不同类的样本。图4 二维样本空间Fig.4The two2dimensional specimen space 识别时的判别函数为(x,y)=(x-x0)2a2+(y-y0)2b2如 1,表示输入量(x,y)落入椭圆所覆盖的区域内8。2.2.2 确定椭球的3个轴的长度和其方向向量 对于三维空间,算法的目标就是在其中作出一个椭球。关键就是确定椭球的3个轴的长度和其方向向量。仿照一维直线拟合的方法,设有一平面z=k1x+k2y+k3,同样根据最小均方误差准则,令F=6mi=1
16、(zi-k1xi-k2yi-k3)2,有5F5k1=5F5k2=5F5k3=0解之得k1,k2,k3,则该平面的法向量为L=(k1,k2,-1),L同时也是椭圆某一个轴的方向向量。取所9212007年第2期徐毅,等:基于仿生模式识别的语音识别研究 1994-2010 China Academic Journal Electronic Publishing House.All rights reserved.http:/有样本点到该平面的距离最大值为此轴的半轴长,再将所有样本点投影到所确定的平面上,在此平面内再确定一个椭圆即可,方法与二维空间确定椭圆完全一样。至此椭球的3个轴都已确定。2.2.3
17、 确定n维超椭球的n个轴 如果是n维空间,则关键是确定某个n维超椭球的n个轴。方法与三维空间一样:根据最小均方误差准则求出一个n-1维超平面,其法向量即为一个轴的方向向量,再将所有样本点投影到此超平面上,则投影点可视为n-1维空间内的样本点,这样就实现了n维空间到n-1维空间的降维。重复这样的投影过程,最后将n维空间降为三维空间9。3 实验仿真结果仿真平台MATLA T6.5,采样频率为8 kHz。实验所选关键词为汉字“一、二、四、五、六、七、八、九、十”,每个字训练20次,提取能量、过零率以及短时倒谱包络的特征。识别时每个字读10遍,共100个待识别样本。采用传统模式识别时,误识率为31%,
18、采用仿生模式识别后,误识率降为25%,拒识率为8%,这样导致识别率降低了2个百分点,对于这一点可以通过多次识别来解决。4 结 语实验表明,将仿生模式识别应用于语音识别中是一次很好的尝试,它能较好地克服传统模式识别误识率过高的缺点,虽然实验效果距实用化还有很大差距,但随着特征维数的增加,相信其效果将会得到改善。参考文献:1 王志海,赵占强,王守觉.仿生模式识别在单镜头人脸识别中的应用J.模式识别与人工智能,2004,17(1):98-103.2 王守觉.仿生模式识别(拓扑模式识别)一种模式识别新模型的理论与应用J.电子学报,2002,30(10):1417-1420.3 安 冬,王守觉.基于仿生
19、模式识别和PCA/ICA的DOA估计方法J.电子学报,2004,32(9):1448-1451.4 安 冬,王守觉.基于仿生模式识别的DOA估计方法J.电子与信息学报,2004,26(9):1468-1473.5 高瑞华,朱君波,王守觉.一种基于能频积实现连续语音端点检测的方法J.计算技术与自动化,2003,22(4):75-77.6 蔡莲红,黄德智,蔡 锐.现代语音技术基础与应用M.北京:清华大学出版社,2003.7 赵 力.语音信号处理M.北京:机械工业出版社,2003.8 茹海峰.基于语音识别的旅游用语言检索翻译系统研究D.上海:上海师范大学,2006.9 王守觉,王柏南.人工神经网络的
20、多维空间几何分析及其理论J.电子学报,2002,30(1):1-4.(上接第126页)用,机器人越来越走进人们的日常生活,在国内,尽管越来越多的人开始对这种基于Internet的机器人产生兴趣,但还没有建立一个真正完善的系统。本文在这方面做出了积极的尝试。在国内机器人研究人才和IT技术人才越来越多的今天,有理由相信,在不久的将来,我们一定会拿出具有世界先进水平的产品,为Internet机器人添上浓墨重彩的一笔6。参考文献:1 李 成,梁 斌.空间机器人的遥操作J.宇航学报,2001(1):22-26.2 姜大志,孙 闵.数码相机标定方法研究J.南京航空航天大学学报,2001,33(1):5-7
21、.3Delta Tau Data Systems Inc.PMAC2 User ManualR.Delta Tau Data Systems Inc,2003.4Delta Tau Data Systems Inc.PMAC Reference GuideR.Delta Tau Data Systems Inc,2002.5 张永平,郑南宁.基于视觉模型的图像边缘检测算法J.电子学报,2000,28(1):101-103.6Lenz R K,Tsai R Y.Techniques for Calibration of theScale Factor and Image Center for High Accuracy 3DMachine Vision MetrologyJ.IEEE Transactions onPattern Analysis and Machine Intelligence,1998,10(5):713-720.031上 海 电 机 学 院 学 报2007年第2期