汽车噪声背景下孤立词语音信号的去噪处理与识别

资源描述

《汽车噪声背景下孤立词语音信号的去噪处理与识别_姜璐璐.docx》由会员分享，可在线阅读，更多相关《汽车噪声背景下孤立词语音信号的去噪处理与识别_姜璐璐.docx（64页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、语音识别技术的研究是当今时代的一大热点，语音识别系统已经广泛的进入到人们的生活之中，例如车载仪器仪表的语音识别系统，给人们带来了极大的便捷。实现人机用语音进行交流一直是人们迫切想要实现的愿望。语音识别系统分为前端处理，模式匹配和识别三大部分。本文从语音识别系统的构成出发，首先大致介绍了信号的预处理过程，利用传统的汉明窗对信号进行分帧以及描述最常用的 Mel倒谱系数的提取流程。然后介绍模型匹配技术中常用的四个模型，重点是动态时间归整模型和隐马尔可夫模型的基本原理和结构，对隐马尔可夫模型的三个问题及解决方法做了详细的介绍。随后针对在汽车噪声下的传统双门限端点检测法的弊端提出了改进

2、措施，在抗噪语音识别技术中有五个方法，对功率谱相减法做了一个修正。最后通过实验室实验在特定的汽车噪声下取样，利用 matlab 仿真给出了一个满意的结果，为车载语音识别系统打下一个理论基础。关键词：汽车噪声；语音识别； HMM;双门限端点检测；谱相减法 Abstract The research on speech recognition technology is a hot topic in todays era. Speech recognition systems such as a car voice recognition systems have been widely

3、used in peoples life.They make peoples life become convenient.People are eager to achieve the aspiration that we can communicate with the machines by voice. Speech recognition system is divided into three parts:front-end processing, pattern matching and recognition. This paper commence the constitut

4、es of speech recognition system, first, give a general introduction of the signals7 pretreatment processing. Use the traditional Hamming window function to fram the signals and describe the most commonly used extraction process of Mel Frequency Cepatral Coefficients. Then introduce the four commonly

5、 used models in model-matching techniques,focuse on the basic principles and structure of the Dynamic Time Warping and Hidden Markov Model.Give a detailed introduction of the HMMs three problems and the the solutions of them.Then improve the drawbacks of the traditional dual-threshold endpoint detec

6、tion method under the vehicle noise. There are five ways in anti-noise speech recognition technology, the paper make a correction on the power spectral subtraction. Finally, we make a sampling under the specific vehicle noise in laboratory and give a satisfactory result by the simulation of matlab.l

7、t lay a theoretical foundation for the vehicle speech recognition system. Keywords ： car noise ； speech recognition ； HMM ； Dual-threshold endpoint detection ； Spectral subtractio 目录第一章绪论 . 1 1.1 引言 . 1 1.2 选题的背景及意义 . 1 1.3 国内外语音识别的发展与现状 . 2 1.4 论文的主要结构与安排 . 5 第二章语音识别系统的概述与指标 . 7 2.1语音识别系统的主要组成部分 .

8、 7 2.2语音信号的预处理 . 8 2.2.1语音信号的滤波、采样和量化 . 8 2.2.2预加重 . 8 2.2.3分帧加窗 . 9 2.2.4端点检测 . 11 2.2.5特征参数的提取 . 12 2.3模型匹配技术 . 13 2.3.1动态时间归整算法模型 . 13 2.3.2隐马尔可夫算法模型 . 15 2.3.3矢量量化算法模型 . 20 2.3.4人工神经网络算法模型 . 21 2.4语音识别系统的指标 . 21 第三章车载环境下语音识别方法实现 . 23 3.1车载环境噪声简介 . 23 3.2端点检测法的修正改进 . 23 3.2.1常规双门限端点检测法 . 23 3.2.2

9、双门限检测法的修正 . 26 3.3抗噪声语音识别技术的研究 . 27 3.3.1语音增强技术 . 27 3.3.2模型补偿技术 . 35 3.3.3抗噪声语音特征参数提取技术 . 36 第四章汽车噪声环境下孤立词语音识别的实验设计与分析 . 39 4.1 Volvo噪声坏境下的实验设计 . . 39 4.1.1 Noisex92 噪声库 . 39 4.2.2实验信号源采集 . 39 4.2端点检测 . 39 4.3特征参数提取 . 41 4.4模式匹配 . 43 4.5谱相减法 . 44 第五章总结与展望 . 51 5.1 雜 . 51 5.2展望 . 51 参考文献 . 53 攻读学位期间

10、的研究成果 . 55 mM . 57 学位论文独创性声明、学位论文知识产权权属声明 . 59 第一章绪论第一章绪论 1.1引言随着计算机技术的 R渐成熟，人们踏入了信息时代，开始了信息化智能化的生活。语言是人类最直观简洁也是最常用的交流方式，直接通过语言与计算机进行信息传递代表了人类智慧的巨大飞跃，有着其他方式不可替代的优越性，是人们长期以来迫切想要实现的，因此该研究的发展是当今时代的一大挑战。想要计算机理解人类发出的语言信号，首先要计算机建立一个特有的模型，通过这个模型，计算机可以像人类一样分析理解接收到的人类语言，并做出相应的回应操作，这就是目前炙手可热的语音识别问题，它是

11、集多学科于一身的综合性科学。近几十年来，它不仅在民用为人们带来了巨大的便捷，在军事、交通和工业现代化等方面也有着广泛的应用。在西方发达国家，已经有大量的有关语音识别的产品投放到市场，备受人们青睐。因此，我国语音识别技术的发展不仅仅能推动相关产业链的共同进步，也是我国综国力提高和科技实力雄厚的象征。 1.2 选题的背景及意义上世纪九十年代，我国的经济进入稳步阶段，人们的出行大都以自行车为主。进入二十一世纪，人们的生活 R渐富足，越来越多的家庭过上了小康生活， .人们出行多以汽车代步，并且越来越多的人拥有了私家车，到近几年，我国汽车的数量又达到了一个新的高峰。汽车数量的猛增，随

12、之而来的是交通秩序与交通安全的问题，据了解，我国的交通事故发生率高于发达国家，多年来中国每年因交通事故死亡人数均超过十万人，居世界第一。如何有效的降低交通事故的发生率，除了驾驶员本身的安全意识和驾驶熟练度的提高之外，汽车仪器仪表系统的便利操作也是一个要点。驾驶员在驾驶汽车时，除了经常用到的打转向灯，操作 GPS,听音乐等等之外，在天气不好的情况下，比如遇大雾还需要开雾灯和近光灯，遇下雨天开启雨刷等等，驾驶员需要分散一定的注意力到汽车的仪器仪表上，从而有可能忽略了外部环境，为驾驶带来了极大的安全隐患，威胁到司机和乘客的人身安全 m。如果能够设计一个系统，使驾驶员无需分散注意力，

13、只需通过耳机或者麦克风利用语音向汽车发出指令，汽车就能完成相应的动作并且给驾驶员一个反馈。这种非常便捷的人机对话方式，会给驾驶员带来了极大的便利，使得驾驶变得非常人性化、智能化。但是，在实际生活中，我们的语音掺杂着来自各方面的噪声，例如机器的轰鸣声，热电噪声，物体撞击发声，其他语音干扰等等，因此系统接受到的语音信号是带噪声的语音，如果一个识别系统没有抗噪性能，那么它所得出的结果与我们的指令就相差甚靑岛人学硕士学位论文远 2。因此，抗噪声语音识别系统的研发是应用到现实生活中的一个必须解决的首要问题。随着私家车越来越多的融入到人们的生活，汽车市场变得强大，汽车行业的竞争也越来

14、越激烈，各个汽车生产厂家不断推出创新点来吸引顾客的眼球，各种车载电子设备花样繁多层出不穷，这就大大的增加了驾驶员操作的复杂性，这就与安全驾驶形成了一定的矛盾性。如果能设计一个系统能将所有的操作集成起来，驾驶员仅仅通过语言就能简单的控制车载的电子设备，不仅大大的增加了可控性，也能有效的降低交通事故的发生率。但是目前市面上的语音识別系统还没有一款能很好的适应的汽车噪声，此项技术不仅有着重要的研究价值和广泛的市场需求，也是汽车制造商抓住商机，占领市场，创造巨大经济效益的一个契机。车载语音识别系统的研究在信号处理、模式识别等领域具有深远的意义，它的前景是非常美好的。 1.3 国内外语音

15、识别的发展与现状大半个世纪以前，人们就在实验室中对语音识别开始了研究。五十年代初，美国的 AT&TBell实验室创造了 Audry系统，这是历史上第一个语音识别系统，它可以识别十个英文数字。五十年代末，英国科学家 Fry创造出音素识别器，利用了当时先进的频谱识别技术，仅识别几个元音和辅音。六十年代，计算机理论的发展带动语音识别到一个新的高度。初期 F1本的 NEC公司掌握了滤波器频谱分析仪技术，研发了硬件数字识别器。后期位于美国新泽西州普林斯顿的 RCA实验室的科学家研究出一种端点检测方法克服了语音信号的时变性，同时苏联科学家提出了线性预测分析技术 (LP)和动态规化 (DP)

16、，这对后期语音识别研究问题起了助力作用。到了七十年代，语音识别有了一些突破性进展。这一时期基于线性预测倒谱的孤立词识别发展日渐纯熟，另外引入了线性预测编码技术 (LinearPredictionCoding， LPC)，矢量量化 (VectorQuantization， VQ)和隐马尔可夫模型 (HiddenMarkov Model， HMM)理论，这些基础在现在仍被广泛应用 3。此时期 IBM和 Bell的科学家都取得了骄人的成绩，奠定了 F1后他们在此领域的领先地位。八十年代是语音识别的巅峰时期，国际上掀起一股语音识别的研究热潮，西方科学界 DARPA计划鼓舞了一大批学者，

17、 Bell实验室的科学家们将 HMM模型成功应用到了实践中，这是具有跨时代意义的重大突破，此后该方法风靡所有实验室。此时期亚洲地区的研究也紧跟步伐，也取得了非常可喜的成果。进入九十年代，语音识别技术的发展非常平缓，虽然语音识别界曾产生了许多质疑的声音，但仍有一批学者在孜孜不倦的寻找突破口，在模型的工程设计和特征参数的提取上都有了一定的进展。卡内基梅隆大学 (CMU)推出了 SPHINX系统，此系统针对连续语音的识别率将近 %,剑桥大学的 HTK工具包和 IBM的 ViaVioce软件 4，为后世的研究提供了极大的便利。还有人提出将神经网络第一章绪论应用到语音识别上，也成为一个热

18、点问题，具有一定历史意义。随着数字化信息化生活渐渐的融入人们的 R常生活，语音识别技术不能仅仅是一项实验室研究，它要走进人们生活，因此许多欧美和亚洲发达国家的著名公司都开始着手投资将语音识别系统投入市场。我国的语音识别研究尽管起步比较晚，但是发展速度很迅猛，己经达到国际水准。国家对语音识别的研究工作给予高度的重视和支持，自 1987年提出 863计划以来，由中科院和国内高水平学府组成的研究团队，已经攻克了许多难题。 98年经过专家组的测评，我国清华大学与 IBM公司的技术水平已经在同一台阶上。而中科院自动化所的研究水平也居于高位，系统精准率达到 90%以上，说明中国的语音识别

19、研究水平在国际上也有非常深远的影响力。由于中国的综合国力与国际地位在国际上不断上升，以及中国人口数量众多，又是经济大国，国外也开始研究汉语语音识别系统。 APPLE公司上世纪九十年代推出了第一款针对汉语的语音识别产品，用来识别连接词，随后又有了 IBM的 ViaVoice系统，一直沿用到现在，具有较好的识别度。近几年来中国的市场上出现了许多应用在手机、玩具和生活用品上的语音识别系统，一些公司研发出了语音识别芯片，他们用简单的识别算法结合了 DSP技术，为系统提供了内核。从大方面上来看，军事、医疗、商业和工业等系统都离不开语音识别系统。由此可见，实用语音识别技术有巨大的市场

20、潜力，带来的效益不可小觑。但是，目前人类掌握的语音识别技术远没有达到预期的目标，还有很多问题没有得到良好的解决。比如语音识别系统的鲁棒性不是很好，也就是环境的改变对系统的影响非常大，系统不稳定。再比如像中国这种多民族地域辽阔的泱泱大国，有着上百种方言，并不是所有的人都会讲普通话，并且说话人的语气还有声调不同所要表达的意思也不一样，还有许多同音的字和词有着不同的意思，这些人类通过大脑获取并且判断的信息现在需要计算机来完成，因此需要做的工作还很多。随着生活质量的提高，人们渴望过上安全、便捷又智能化的生活，车载语音识别系统的研发被科学家们密切关注，已经陆续有相关产品问世。 IBM，

21、梅赛德斯和円产等均推出相应的语音控制的导航产品，我国在 2001年也推出了车载手机，通过语音就可以实现拨打电话的功能，并且价格实惠。吉林大学的学者也推出了一款 MCU车载语音识别系统，能初步实现语音识别功能 5。据 IHS Global Insight报道，目前有 95%的新生产的汽车都不同程度的配备了娱乐系统，并且预计将来有更多的新车要搭载路径导航系统。使用苹果手机的人们都知道 Siri，在 2013年举办的美国消费电子展上，雪弗兰、奔驰和本田等各大汽车厂商宣布可通过 Ski语音服务来完成部分娱乐通信系统的操作，支持多国语言，如图 1.1。 3 青岛大学硕士学位论文图 1.1车

22、载 Siri语音服务系统在 2013年， Nuance通讯公司宣布与中国汽车制造商比亚迪合作，在比亚迪的新款思锐系列轿车上使用 Nuance车载语音技术，如图 1.2。 4 第一章绪论图 1.2比亚迪思锐 Nuance车载语音系统但是我国自主研发的车载语音识别系统还没有全面问世，这与西方发达国家相比还是有着一定的差距的。 1.4 论文的主要结构与安排本文着重介绍孤立词语音去噪与识别技术的研究，以及在特定汽车噪声环境 T 的应用，对识别做了一个初步的探索。正文分为五个部分，每个部分是：第一章首先描述了本课题的时代背景和选题意义，介绍了国外和国内语音识别技术的发展情况以及当前的现状

23、，总结了技术上的优越性及尚需要改进之处。第二章是语音识别系统的各部分组成以及各部分的概述，首先介绍语音信号的预处理过程，从开始的滤波到后续的特征参数的提取。随后讲述了模型匹配技术中的常用的四个模型，重点介绍了动态时间归整算法模型和隐马尔可夫算法模型的原理、结构及优缺点。第三部分是本文的重点。首先介绍在驾驶室内的噪声构成有哪些。随后提出语音识别中非常重要的一个环节端点检测法，本文使用的是双门限端点检测法，介绍了双门限端点检测法的原理和优缺点，以及针对性的改进。然后对当今抗噪声语音识别技术三大方向做了描述，详细介绍了谱相减法中的幅度谱相减法和功率谱相减法和它们针对环境噪声的改进

24、措施。第四章是本文的实验部分。介绍了实验前的准备工作以及实验各部分的进行流程和部分结果演示，验证了本文提出的改进的双门限检测法和功率谱相减法的有效 5 青岛人学硕士学位论文效果，为汽车噪声下的语音识别系统奠定了理论基础。最后一章是对本文的总结，提出了一些不足和 R后要努力的地方，对语音识别技术的发展有着美好的愿景。 6 第二章语音识别系统的概述与指标第二章语音识别系统的概述与指标自动语音识别（ ASR)简称语音识别，是一项集合了信号处理、模式识别等十几种学科的综合技术。每一个语音识别系统都有一个特定的硬件平台，有着多种多样的操作系统。语音识别系统有许多种类，是按不同的标准

25、划分的。按词汇量分有小词汇量、中词汇量和大词汇量系统。按识别对象是否连续可分为孤立词 (字 )识别、连续词 (字 )识别、连续语音识别和会话语音识别等。按是否针对特定人可分为特定人系统 (SDS)、非特定人系统 (SIS)16。 2.1语音识别系统的主要组成部分传统的语音识别步骤大致是相同的：前端处理，训练和识别。细化来讲，当信号传来时，要将模拟信号转化成数字信号，即 A/D转换，这样计算机就可以对其进行处理。然后进行预加重和分帧加窗处理，使信号的频谱变的平滑以及便于频谱分析。为了辨别信号的起止位置，还要进行端点检测，最后提取出该信号的特征序列，该序列随时间的变化而变化，称之

26、为特征参数，这样就完成了前端处理部分 7。前端处理过后，语音信号变成了特征矢量序列，对它进行一系列的处理，便可以得出一个参考模板，这个参考模板具有识别单元的共性，将这些模板集合起来，称作模板库，这就是训练过程。最后是进行匹配识别，将处理过后的语音与模板库中的模板匹配，即将声学模型进行模式识别，最后得出识别结果，具体流程如图 2.1所示。语音信号采释 - A/D转换预加重分帧加窗特征提取端点检测训练模版库前端处理模版匹配识别结果图 2.1语音识别系统的基础构成 7 青岛大学硕士学位论文 2.2语音信号的预处理 2.2.1语音信号的滤波、采样和量化人们发出的语音

27、信号称之为模拟信号，它的时间和幅度都是连续变化的，对语音信号进行一定的处理，使其变成易于计算机处理的离散值。语音信号发生时，经常容易产生混叠，不易于处理，因此首先需要用麦克风将声信号转换成电信号，再滤除不必要的高频信号，只保留需要的部分。采样是对模拟信号进行取样，相邻两次采样的时间必须是相同的，这个相同的时间间隔即称为采样周期。根据采样定理，采样后的信号为能完全 “ 恢复 ” 出原始信号，采样频率要大于等于两倍的信号最高频率，称这个 “ 恢复 ” 叫做重构。此时信号己经变成时域离散信号，还需将信号进行量化。这里将采用概率论的原理，将对象分成有限的几个区间，这里的对象是指信号幅度

28、，量化值是根据区间来划分，落入同一个区间的样本点的量化值是相同的。此时对信号的滤波、采样和量化就完成了。 2.2.2预加重预加重是频谱分析前很有必要的一个步骤。山于人类特殊的生理结构，语音信号从口腔中发出的时候会产生声门激励和来自于 n鼻的辐射，这样信号的平均功率就不稳定，高频段会产生一个跌落，大约在 800Hz以上，速率为 -6db。预加重的数字滤波器是一个能提升高频特性的一阶有限响应的高通滤波器，预加重处理使得这些跌落过的信号频谱变的舒缓，以便频谱分析 112。其频率响应为： H(z) = -azi 2 -(1) a是预加重系数，取值为 0.94 0.97，原始语音序列 x

29、(n)与处理后的序列 y(n) 的关系是： y(n) = x(7) - ax(n -1) 2 -(2) 将语音 “ r进行预加重的实例如图 2.2所示。 8 第二章语音识别系统的概述与指标预力卩重前的语音波形预加重后的语音波形预加重前语音频谱预加重后语音频谙 200 150 100 50 0 _ 0 2000 4000 6000 8000 0 2000 4000 6000 8000 图 2.2语音 “1” 预加重后的波形图 2.2.3分帧加窗语音信号是随着时间变化的，它的特性是不稳定的。人类发出不同的声音，是由肌肉与发音器官不同的协调作用产生的，但是器官的运动频率是十分缓慢的，相

30、比语音信号的振动速率来说可以忽略不计，因此可以将语音信号看成一个准稳态过程，是短时平稳的，这个短时大约控制在 30ms以内 8,9。由此将语音信号进行分中贞，取 30ms内的某个时间作为间隔，即为顿长，将分成一段一段的信号叫做短时信号。利用加窗操作准确的获取短时信号，首先选一个特定的窗函数，为了保持帧与中贞之间的连贯性，将每两个巾贞之间保持一部分重叠，重叠部分一般为 0 1/2的巾贞长，称之为帧移。根据这个准则让窗函数平缓的在信号上作用即可得到短时语音信号。窗函数又称截断函数，有许多种，只介绍常用的三种。 ()矩形窗 con)= 0n) wn 1) 2-(13) 引入参量

31、相当于 w()中的参数取值满足上述的边界条件和连续条件。 DTW算法主要有两种模板训练，一是偶然训练法，另一种是多模板平均法，而后者比较常用 15。DTW算法主要有三个缺点，首先是计算量太大，增加系统识别的复杂度。二是容易忽略语音信号的时序性，三是受限于端点检测，如果端点检测准确度不高，则该算法失效。对于这些缺陷后来人们提出了一些针对性的修正，其中有端点放宽法，使信号端点处有自由帧的移动。还有非线性取样法，顾名思义，测试模板和参考模板间有着不均匀的帧间隔，对于信号相对平稳的间隔大，相对激烈的地方间隔小。这些方法均有效的改善了上述的缺点。 2.3.2隐马尔可夫算法模型隐

32、马尔可夫模型是在 DTW模型之后提出来的，由 Baum在上世纪七十年代建立，推广于贝尔实验室，它是由马尔科夫链的启发得来的。它是一种具有良好性能的统计模型，语音信号既有随机性，又有稳定性，而 HMM对语音信号有着非常形象的描述。 HMM模型按照随机函数可以分为许多种，主要有离散隐马尔柯夫模型 (DHMM)和连续隐马尔柯夫模型 (CHMM)，它们由参数来表示，是基于概率论的一种模型。隐形马尔可夫模型不是一个单一的跳转过程，它既可以统计信号的短时平稳阶段，又可以描述信号阶段之间的跳转，人类的语音信号跟此过程很类似，因此，隐马尔可夫模型可以很好的应用到语音信号的识别当中。 (1)

33、HMM 定义：将 HMM定义为： 0=(A,B,TT)，假设 N表示 HMM模型中有多少个状态，每个状态记为化以各 ,.,，是一个集合，单独的 t时刻记为 $。 M表示 HMM中单个状态的可见的符号数该集合为乂山观测序列是丁表示帧数。状态转移矩阵为乂 = ，、 = 尸分 , +1=/ 丨孓 = 小观察值概率矩阵 5 b= 尸 , = h丨仏 =y; ;r为初始状态概率， =尸 % =，则概率分布为 ?r=r, =HMM的状态描述可以总结为：由概率 ;r选择 =/，设置 f = 1 为一个观测时间，假设 B为当前状态的符号分布概率，则令然后根据矩阵 15 青岛大学硕士学位论

34、文 A，将状态跳转到 g,+,=y。然后令 / = / + 】，当其大于观测时间丁时过程完毕，否则继续 ,=Vi步骤 1161。隐马尔可夫模型的组成如图 2.9。马尔可夫链 (71， A ) qi.q2.qT _ i _ 随机过程 B 01， 2. T 图 2.9隐马尔可夫模型的组成 (2) HMM的模型结构及训练在实验中，选用的隐马尔可夫模型是从左到右没有跳转型的，一般情况下状态数都选择为 5,但有国内外的实验证明，在汉语识别中大都选择状态数为 6,因为此时系统的识别结果是最准确的。把语音信号和 HMM都假设成一个随机信号发生器 , 可以通过这两个发生器的匹配度来观测 HMM

35、的准确性，选择状态数为多少，关键看语音信号是一个怎样的过程，而且在保证识别率的情况下，减少系统的计算量，因此选取状态数为 5。如图 2.10是状态数为 5模型示意图。图 2.10状态为 5的 HMM模型 (3) 三个基本问题：在前人的使用和总结中，要使叫隐形马尔科夫模型，定要解决三个问题 1 16 第二章语音识别系统的概述与指标 a. 要使 HMM达到良好的效果，必须要产生最优的观测序列概率 P(1 = i 0,) 2 - (23) 当为零值时，是不合理的，这些状态序列是不存在的。上式的缺陷是忽略了全局结构和观测长度等一系列的问题，只是一个理想的状态。人们找出一种方法来改善这个问

36、题，即找一种最优的准则来进行整体约束并得出最优的状态序列。通常使用 Viterbi算法。 Viterbi算法的最佳准则描述为： 3,(i)= max Pqqv.q,A,ovo1,.,o, 2-(24) (lLh 屮 -、它的意义是概率最大的观测序列是状态序列产生的。下一个状态如式 2-(25): ,+, (7) = maxJ, (i)ay * bs ( ,+1) 如果某一时刻的最佳状态是 j，则它前一时刻的最佳状态为： ,+1(7) = argmax0*| = max(/) 1) P( ) P ) 已知和，假设 /,(/)为某时刻状态 i的概率， /,(0 P(0,q,=i) 以 (，

37、/) = .H ( A( 2-(31) 2-(32) 参数重估法就是在现有模型的观测概率不大于新模型的观测概率的前提下，估计出新的模型参数，然后不断的在满足条件的前提下进行重复估计，直到得到最大似然估计模型。假设X是某个状态， Y是该状态下的观测数据，则由 Bayes定理得 : 则有 : P(X = xj = y) = P(X = xY = yJ)P(Y = y) 2-(33) 取期望可得 : logP(F = |) =i gP(x = x， y =少 | ) i gP(x = x | y = 2-(34) & log 尸 (7 = = (P(X = x Y = y)ogP(Y = y (

38、/) 2 - (35) = logP(y = y(t) 进一步可得出： log尸 (F =少 |妁 =EogPXJ = | ).Vl)v - EogPX | 7 = 2-(36) Q() = E,ogPXJx,_v = X | r = yJ)ogP(X = x,Y = y ) 2-(37) 19 青岛大学硕十学位论文 = EogPX I r = y， i)X I r = = YJiPX = xY = y,(/)ogPX = xY = y4) X 已知少），贝 1 J: A A A A P0,q0,不同的情形确定不同的常熟。由于 /(/) = 1 S(f) I I Xf) I ，则上上式可

39、以改写为 : 规定后验信噪比为 : 则频谱增益改写为 : I S(f) H Hf) I X(f) I (/) 陳 )l2 L(/) 3-(30) 3-(31) 3-(32) 上式表明了功率谱相减法的物理意义，即将接收到的完整信号进行频谱分析，将每一个分量都乘以 /(/)，再观察信噪比的大小。当信噪比减小时，衰减比较大 , 则该语音段含噪声较多；当信噪比增大时，衰减比较小，该语音段含语音的可能性较大 28。在应用功率谱相减择时，需要在无声段求噪声的功率谱，进行语音和噪声分离的时候必须要有鲁棒性。另外语音的功率谱不可能为负值，而在实际的应用中经常需要进行半波调整，这样容易产生音乐噪声 2

40、93()。噪声信号的功率谱变化范围很大，在频域中的极值相差太大，因而产生音乐噪声。为了改善这一情况，对功率谱相减法进行一个参数可以调整的修正，类似于幅度谱相减法，如式 3-(33): l(/)N|X(/)r 3 - (33) 即： H(f) = (1 P ， (/) 3-(34) 同样，参数 a和是可以调整的。先令一个参数为 1,改变另外一个的值，如图 3.8和 3.9是两个参数分别与 /(7(/)和扒 /)的关系。 32 第三章车载环境下语音识别方法实现 GaindB 参数 Q 0 10 20 30 40 tldB 图 3.9 p与 ;/(/)的关系加入参数调整以后，谱相减法去除音乐噪声的能力明显增强了许多，除此之外，还有方法使用保留噪声本底和谱平滑算法，这里不做赘述。 (2) 噪声相消法噪声相消法是通过几个麦克风采集信号来完成的。具体方法是用一个麦克风来

展开阅读全文