《基于时域特征的语音自动分割算法实现本科本科毕业论文.doc》由会员分享,可在线阅读,更多相关《基于时域特征的语音自动分割算法实现本科本科毕业论文.doc(26页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1 引言众所周知,语言是人们之间彼此交流沟通的最方便最快捷的手段之一。在如今这个信息时代中用数字化的方式来实施语音的传输、储存、识别、合成、增强是整个数字通信系统中最为关键的要素之一Error! Reference source not found.。连续语音的自动分割是我们在进行语音信号处理的过程中遇到的首个需要解决的复杂难点。之所以要进行语音的自动分割,就是为了减少语音识别的计算量并提高语音识别系统的识别精度。我们在对语音进行过分割之后就可以将语音段和噪声段分离开来,这样后续再进行语音识别的时候识别系统只需要对语音段进行检测。如果语音自动分割出现错误,那么语音信号的识别也就无法实现。这在许
2、多语音处理领域中是一个十分基本的问题。特别是在进行独立的单个文字自动识别的时候,能否准确的找到每个单字的语音信号范围,以及能否将声母、韵母分割开都是十分重要的。语音信号分割的准确与否对于一个完整的语音识别系统具有重要意义,不仅算法会影响其最终实现和使用效果,最终结果在很大程度上受外界环境的影响是非常大的。因为输入信号的时候基本不可能是纯粹的语音输入,多多少少都会带有一定的背景噪声。研究人员通过实验对比发现,语音自动分割的准确性会直接影响到语音识别的结果,因为如果分割算法对于语音和噪声的判断出现错误那么之后对所谓语音段进行的识别也就变得毫无意义。因此一个优秀的语音自动分割结果就意味着语音识别过程
3、的一个好的开始。进行自动分割为了达成的目的就是,在各种各样的应用环境下的信号流中将人声段和噪声段分开,并进一步确定语音信号的起始点及结束点Error! Reference source not found.。1948年香农(C.E.Shannon)把关于熵的概念引入到信息论中,把熵看作是一个随机事件的不确定性的度量Error! Reference source not found.。熵的大小和一个系统的有序度直接相关,有序度越高,熵就越低;反之,一个系统随机性越高,其熵就越高。本课题是要提出一种相对简便并具有一定准确率的语音自动分割算法。综合对比各类算法后决定采用一种子带谱熵的改良算法来进行语
4、音分割。算法的总体流程主要包括输入语音文件、进行预处理、选择合适参数、分析确定阈值、检测语音信号端点。该算法在传统谱熵法的基础上进行了改进,提出了一些经验性的约束,设定了归一化谱概率密度的上限,并引入了子带谱熵的思想从而进一步提高了语音自动分割的准确性Error! Reference source not found.。262 概述2.1 课题背景语音自动分割技术在语音识别系统中占有重要地位,是整个系统的重要组成部分。所谓语音自动分割技术,就是通过计算机的智能识别将人说话的音节部分和说话人所处的背景噪声相分离,从而为下一步进行的语音识别打好基础。如果对于语音的分割不准确,语音信号识别就会因为音
5、节错误而无法实现或出现大量错误。在实际工程应用中,我们需要在进行语音内容识别之前先对输入系统的连续语音信号进行预处理,将每个音节的起始点和终止点划分出来。这样识别系统才能有效的针对每个音节分别进行识别操作,不会盲目识别噪声信号的内容,使得语音识别系统能够尽可能的做到对语音信号实时、准确的判断。随着数字信号处理技术和计算机性能的不断发展,一些具有自适应、人工智能特性的语音识别系统已经可以在不是特别复杂的环境下对语音信号做出较为精确的判断。随着市场需求的不断增加,各研发机构在相关硬件和软件配套设施的投入上越来越大,各类高鲁棒性的新型算法正不断走进我们的日常生活。虽然我们在日常使用中会发现内置于各类
6、终端中的语音识别功能并不是十分好用,很多时候都会出现错误,但我们仍然应该对语音识别技术为我们生活提供的方便表示感谢,并对该领域技术的发展持有乐观态度。语音识别技术的市场应用还处于初期阶段,为了使该技术的市场化应用更为便利,目前需要为语音输入通道硬件和软件的基本引擎和平台建立相应的规范和标准,这样一来语音识别技术就可以通过统一规范的结构集成到各种各样需要语音功能的软件、操作系统中去,从而改变电子产品传统的人机交互模式,实现大量的语音控制。随着语音电子产品的不断发展,语音识别技术为了适应市场的现实需求,其在研究和开发中还有着大量的工作要做。2.2 语音信号简述通过对人们讲话语音在时域和频域两个方面
7、进行研究分析,发现无论人们的年龄处于哪个阶段,语音的频率分布都是相对密集的,大部分都集中分布在3003400Hz的频率范围内。基于这一特征,研究人员可以在对语音进行识别之前先将其通过一个带通滤波器,将处于3003400Hz的语音信号分离出来得到所需要的频谱,这样的初步筛选将有利于提高语音自动分割算法和语音识别系统的准确性以及运行效率。然后我们需要对选定频谱范围内的连续语音信号进行采样,使其变成计算机能够处理的离散时域的语音信号,采样率通常取8kHz左右,也可以根据具体情况进行相应的调节。当实验或应用对采样出来的信号有更为苛刻的要求时,我们就可以通过提高语音信号的采样率或者扩大语音信号的采样范围
8、等手段提供更为精确、更为全面的采样结果。由于为了适应实际应用的要求,实现在低信噪比条件下的准确语音自动分割,现在的语音自动分割算法多采用自适应的采样率而不再是传统的系统指定的采样率。由于人体的发声特性使得语音信号是一个非稳态的、时变的信号。众所周知,计算机和人耳不同,对于这类信号是无法进行处理的,研究人员为了解决这个问题就发现了可以利用“短时特性”来进行语音信号处理。所谓短时特性之所以存在就是因为人的口腔在发出各种声音的时候需要进行缓慢的肌肉运动,和肌肉运动的时间相比几十毫秒就相当于是一个短时间,在这个短时间内我们就可以认为语音信号是稳定的、时不变的。语音信号必须要保持它的短时特点才能进行语音
9、信号处理,所有的语音信号处理系统都是根据这种短时特性开发出来的。根据这种短时特性就相应的产生了一系列的语音信号处理的参数,如短时能量、短时过零率、短时频谱以及短时自相关函数等,根据这些参数我们才能对语音信号实施有效的处理。对整段信号进行分帧处理后我们就可以得到这些短时参数特征,整个信号中的每一段叫作“一帧”,帧长一般取1030ms,通常情况下我们可以将这段短时间内的语音信号看作是相对平稳的。这样一来从整个语音的角度来看,每一帧的特征参数就共同组合成了特征参数的时间序列。从另一个方面看,语音信号另有一个相对较为简单的分类方式,就是根据人们发声的音素进行分类。根据这种分类方法,无论语音的发声者使用
10、何种语言、带有何种音调,从声学上来看都可以按照清音和浊音来进行分类。我们对这两种类型语音的短时特性进行分析就可以发现这种分类方式的依据。清音的短时能量要远高于浊音,浊音的短时过零率则远高于清音。在进行语音自动分割时,噪声一般具有较小的能量和较低的过零率,我们只需要结合这两个参数就可以在信噪比条件不是很差的条件下对语音信号做出较为准确的分割。2.3 语音自动分割现状对语音自动分割算法的研究最初能够上溯到上世纪50年代。那个时候为了能够将语音段和噪声段区分开来,从而实现一个实时语音翻译系统,该算法应运而生,并把该算法定名为VAD (voice Activity Detection),指的是将语音段
11、和背景噪声段分离开来的处理过程Error! Reference source not found.。要想实现一次高准确性、高可靠性的语音自动分割或者语音识别,影响其结果的因素不仅仅局限于所采用的算法。除了语音识别外,还有语音自动分割,他们对于大部分整体系统最终结果的影响都是非常大的。语音识别以及语音自动分割应用的领域是很广的,除了用于实验、商业还有一些高精度的检测或者识别需要用到他们,在识别过程中产生的一些误差也许对于实验的影响不是很大,但是对于那些要求很高的高精度检测来说这些误差将是不能接受的。为了实现高精度的检测,我们需要根据识别系统对性能要求的不同而采用专门的算法,否则语音识别的准确性将
12、无法得到保证Error! Reference source not found.。在21世纪,电子信息技术伴随着摩尔定律飞速发展,各类语音数字信号处理技术也取得了日新月异的成就,尤其是语音识别技术在手机和电脑上的应用实践最为出众,让人们真正体会到了科学技术的进步为生活带来的便利。但是,由于人们的语音输入经常伴有较大的背景噪音,在这些噪声的干扰下语音识别的准确性就会大大降低,在一些专业领域的语音识别同样面临着严峻的问题。而语音信号处理是为了识别纯净的人声设计出来的,或者通过各种手段将没有用处的噪声信号去除。为了实现这一目标,语音自动分割技术就是一个有效的手段。语音自动分割就是指通过设计好的算法,
13、将一段连续的语音信号分割为有用的语音(人声等)和无用的噪声,并且将每个语音音节的起始点和终止点进行标记处理。语音自动分割是各类语音信号处理的应用中不可缺少的环节。一段混杂着噪声的语音信号经过自动分割以后会极大的改善识别系统的整体性能和识别精度Error! Reference source not found.。随着应用前景的日渐广阔,语音自动分割技术已经日益成为众多学者研究的热点方向,研究人员提出了很多新型语音自动分割算法,如:基于混淆网络、基于仿生识别、基于短时分形维数、基于神经网络等的算法。不仅有许多新型、先进的分割算法,而且每种算法的具体实现也是多种多样的。2.4 本文内容和章节安排论文
14、要做的内容主要是综合评估了各种语音分割算法的优缺点后,采用改进后的谱熵法来进行语音信号自动分割。算法分析语音的时频域特性,选取合适的参数,计算出当前语音文件的参数值,再用合适的算法确定阈值,最后实现语音自动分割。第1章引言主要介绍语音自动分割算法的概况。 第2章简要概述了语音自动分割算法的课题背景、研究现状等。第3章语音信号的基本处理方法和经典语音自动分割算法。前者从时域和频域两个角度介绍了语音信号分析的基本模式。后者详细分析、介绍了几种具代表性的语音自动分割算法。第4章基于语音熵的自动分割方法的分析与研究深入介绍了熵的概念以及谱熵法在语音自动分割中的应用,并最终确定了本文的语音分割方案。第5
15、章算法实现与仿真主要介绍了算法的具体实现过程以及仿真结果。第6章结论主要是对实验结果的总结分析以及对算法发展的展望。3 经典语音自动分割算法所谓语音自动分割就是在一段连续语音中,把有用的语音音节和构成干扰的背景噪声区分开来,明确每个音节的起始点和终止点。随着语音信号处理技术的不断发展,语音自动分割方法越来越多,每种算法都有各自的特点和应用场景。比较经典的语音自动分割算法包括短时能量检测法、自相关函数法、倒谱距离检测法等。本章将对各类算法进行详细的分析总结,进而引出一种鲁棒性较好的语音自动分割算法。3.1 语音信号的时域分析语音信号是时域信号,时域在对语音信号进行分析时是最直观的,通常来说语音信
16、号处理的仿真结果都是以时间为横坐标的。所谓时域分析一般就是指基于短时能量、短时过零率、短时功率谱等参数,来对语音信号进行相应的分析。通过对这些短时参数的提取、利用,我们就能够实现语音信号的时域分析。再对任何一种数字信号进行分析处理时,时域波形总是我们最早了解到的而且是最直观的语音状态描述。时域分析方法的特点有:(1)能够直接观察语音信号的波形;(2)不需要进行复杂的计算就能够实现;(3)能获得重要的短时特征;(4)信号特征能够直观体现出来,减小理解难度。3.1.1 连续信号数字化语音信号之所以要进行预滤波的主要原因有二:(1)抑制系统输入的语音信号中高于二分之一采样频率fs的频域分量;(2)
17、抑制50Hz的电源工频干扰。因此只有带通滤波器才能符合预滤波器的使用要求。设其上截止频率为fh,下截止频率为fl。一般情况下,众多语音编译码器上截止频率和下截止频率都设定为=3400Hz、=60100Hz、采样率为=8kHz。而对于语音识别系统来说,当应用的场景不一样的时候,选用的参数也是不同的。当用于电话用户时,指标通常采用fh=3400Hz、fl=60100Hz、采样率为fs=8kHz。当用于对语音识别系统要求很高的场所时,通常就要采用更狂的频谱范围、更高的采样率。语音信号通过预处理之后就会转化为二进制数字码。模拟信号需要通过采样量化转化为数字信号,在这个过程中,由于量化过程的基本原理导致
18、其必然会有一定的误差出现。当语音信号波形的变化幅度特别大或者量化间隔特别小时,可以发现量化噪声与输入信号是不存在相关关系的,根据这个特点就可以实现相关法的语音自动分割。数模变换又可以称作数字化的反过程,他的核心意思就是指从已经进行过数字化的语音信号中重新构建起模拟的语音信号波形。在进行了A/D、D/A转换之后语音信号会产生高次谐波失真,为了有效地避免这种情况的发生,我们必须在数模转换之后加一个平滑滤波器。这个平滑滤波器将对语音波形的高次谐波起到平滑作用,从而有效消除高次谐波失真。3.1.2 预加重处理根据人的发声原理可以得知,声门激励和口鼻辐射等因素都将对语音信号的平均功率谱产生较为明显的影响
19、。这种影响主要体现在,输入的语音信号会因此在高频端产生较为严重信号衰减,这就有可能导致信号高频端的信噪比居高不下,不能满足语音信号识别的要求,与低频段产生鲜明的对比。当衰减到达一定程度时就会出现高频部分的语音频谱求不出来的问题。怎么才能减小高频端的信号低落程度,或者能够通过某种方式抵消信号衰减带来的影响成为了研究人员需要解决的问题。目前,较为行之有效的一种方式就是对语音信号进行预加重处理。预加重成功的利用语音信号与噪声信号具有不同特性的特点,对输入信号高于800Hz的高频分量进行人为的加重处理。这样一来高频部分的信噪比就会得到相应的提高,使其满足系统要求,这样将有助于之后进行的频谱分析或声道参
20、数分析过程。在进行预加重的同时,为了有效地提高语音信号信噪比,压缩信号的动态范围,我们可以在语音信号数字化时在反混叠滤波器之前进行预加重处理。但大多数情况下,预加重处理是放在语音信号数字化之后进行,常有 6dB/器Error! Reference source not found.: (3-1)式中值接近于1Error! Reference source not found.。在进行信号处理的过程中,我们不仅需要对信号进行预加重处理,很多时候我们也需要将信号恢复成原始信号,这个时候就要使用去加重。去加重技术的思想和预加重基本相同,只不过实现方式不同。3.1.3 分帧加窗处理对语音信号实施过预加
21、重之后,下一步就是要对其实施分帧加窗处理。通过实验,我们发现语音信号在30100ms的范围内,其频谱特征以及一些物理特征基本保持不变。为了方便计算机的处理,只要将语音信号按此长度进行分帧处理,就可以将平稳过程的处理方法和理论引入到语音短时处理中。在进行分帧处理时,如果帧与帧之间是连续分段的,则有可能发生帧与帧之间的信号发生突变的情况,为了避免这种情况的发生,在分帧时通常使用如图3.1所示的交叠分段法。图3.1中两帧之间的重叠部分称为帧移。我们大多数情况下都将帧移与帧长的比设为01/2。所谓分帧其实就是用选定的窗函数乘以,类似于一个滤波器,在窗以外的语音信号都会被抑制掉,只有窗内的信号可以通过,
22、这样就得到了加窗语音信号。图3.1 帧长与帧移的示例矩形窗和海明窗是我们经常使用的两种窗函数,它们的表达式如式(3-2)、(3-3)所示:矩形窗: (3-2)海明窗: (3-3)其中N为帧长。我们对语音信号进行加窗分帧处理就是为了得到对之后的语音识别有用的各项短时参数,短时参数会受到多方面因素的影响,窗函数的选择是否正确就是其中的一个重要因素。为了解决这个问题,我们接下来就从窗函数的形状和长度来仔细讨论这个问题。1窗口形状通常情况下,窗函数应该能够尽量减小语音帧的截断效应(波形峰起值趋于总跳变值的9%),为了实现这一目标我们需要尽量减小时间窗两端的坡度;在频域上3dB带宽要尽量宽,而边带最大值
23、则要做的尽量小。虽然基于时域、频域、倒谱域等不同的短时分析方法对于窗函数的要求各有不同,但该标准还是适用于大多数一般情况的。本文只以最为典型的矩形窗和海明窗(Hamming)为例进行比较:矩形窗: (3-4) 数字滤波器的频率响应为: (3-5)它具有线性的相位,其频率响应为: (3-6)这里,fs为采样频率,为采样周期。海明窗: (3-7)通过窗函数可以发现海明窗频率响应的带宽以及通带外衰减都远大于矩形窗。矩形窗与海明窗的对比见表3.1中。表3.1 矩形窗与海明窗的对比窗函数类型旁瓣峰值主瓣宽度最小阻带衰减矩形窗-134/N-21海明窗-418/N-532窗口长度频率分辨率可表示为: (3-
24、8)式(3-8)中,为采样周期(采样频率的倒数),N为窗长。通过式(3-8)可知,在采样周期一定的情况下,频率分辨率与窗口宽度成反比例,当窗口宽度N增加时频率分辨率会随之减小;由此可见这两者之间是矛盾的,如果窗口取得短,则会减小,而时间分辨率则会提高。所以需要根据实际应用场景来进行衡量,因此,窗口的长度选择应合适。而有时基音周期也会对窗口长度的选择产生至关重要的影响。语音信号的数字化和预处理过程对于整个系统来说是十分关键的一个环节,正因为如此在对一整个系统进行性能评定的时候,必须要详细交代系统的采样频率、精度、预加重方法、窗函数、帧长以及帧移等语音参数。综上所述,通过对以上处理过程的详细介绍,
25、语音信号就从一整段连续的信号被分割为以帧为单位的短时信号了,之后再将每个短时语音帧看成是近似平稳的随机信号,再来提取出其中的语音特征参数。在处理过程中,将以帧为单位从整段数据中逐帧取出数据,逐帧处理,全部帧都处理完成后进行汇总Error! Reference source not found.。3.2 语音信号的频域分析频域分析是从另一个方面对信号进行分析,虽然频域分析方法没有时域分析形象、直观,但它却有着更为简练、剖析问题更加深刻等时域分析无法比拟的优势。两者共同组成了语音信号分析。目前,。然而,它们是互相联系,缺一不可,相辅相成的。3.2.1 傅立叶变换法傅里叶变换(Fourier Tra
26、nsform,FT)不仅仅在数学上广泛应用,同时也应用于工学的各个领域,语音信号频域分析就是其中之一,是对线性系统进行分析时最有效的手段。要想得到语音信号相应的功率谱、频谱、倒谱距离、谱熵等特征,我们可以将加窗分帧后的语音信号做傅氏变变换再做傅氏反变换。如上文所述,因为语音信号的特性是时变的,为了便于计算机处理所以采用短时傅氏变换,由此得出的为短时频域特征,窗函数均选取Hamming。 (1)短时频谱和短时功率谱 假设信号经傅氏变换后在频域记为,则与的关系如公式(4-1):(3-9)语音的频谱为的幅度,则有:(3-10)语音信号的短时功率谱取值实际上就是幅度的平方,公式为:(3-11) (2)
27、倒谱距离 在低信噪比条件下,可以使用倒谱系数求得倒谱距离,并以此为参数进行语音自动分割。语音信号的倒谱可定义为:(3-12)为语音信号能量谱密度函数,为倒谱系数,通过可得到倒谱距离为:(3-13) (3)熵 熵是一个用来描述物质的概率程度的物理量。熵是用来表示的信息量的,当的分布概率相同时,熵取最大值,也就是说,的随机性越高,其所包含的信息量就越大,熵值越高。取的概率函数可以表示为: (3-14)则的熵为:(3-15)3.2.2 线性预测法由于语音信号各个样点之间存在着一定的联系,所以在进行信号分帧采样之后,我们可以根据样点之间的联系预测当前帧或者之后几帧的样点值。也就是说可以通过线性组合用先
28、前帧的参数值近似估计出后面帧的采样值。语音信号前后帧之间的联系可以总结为一组参数特征,而噪声信号则因为前后不存在相关性所以没有这种参数特征。这样一来我们就找到了语音段和噪声段之间的区别,这种区别能够为后续的语音信号处理工作提供相关依据。线性预测分析的重要性不是其预测功能,而是它能够提供一组简洁的语音信号模型参数。该方法的有效运用能够提高语音识别率并减少计算时间。3.3 经典语音自动分割算法的分析所谓的语音自动分割,就是讲人说话的有用的语音信号段从带有背景噪声的整段音频信号中分离出来,将语音段和噪声段通过算法自动分离。目前这种自动分割技术的准确性还会受到很多因素的影响,分割效果普遍没有人工分割准
29、确,但这种技术有巨大的市场需求,随着相关领域的研发投入日益加大,各类能够在低信噪比条件下对语音进行准确分割的新型算法不断涌现。不过这些算法还是以最为经典的语音自动分割算法为基础发展而来的,本章就先来详细介绍一下包括短时能量、短时过零率、倒谱距离在内的几种经典算法。在下一章则会对MATLAB仿真实验所采用的改进后的谱熵法做详细介绍。3.3.1 语音自动分割(1) 简述可靠性、自适应性、实时性、鲁棒性和精确性是有效的自动分割算法应当具备的几个基本要素。当语音音节端点被准确的检测出来以后,才有可能实现语音识别系统的基本功能,实现高效、准确的语音识别,还能够减小系统计算量,排除无声段干扰。实验发现,无
30、论在什么环境下,语音端点分割错误都会对整体的语音识别准确性产生巨大的影响。不仅如此,在语音合成、编码等各种各样的语音信号处理系统中,语音自动分割算法的准确性、鲁棒性等性能指标都对整体系统发挥着至关重要的作用,因此不断研究语音自动分割算法并对其进行改进具有重大意义。(2) 语音自动分割原理语音自动分割所依据的原理就是:通过对各种特征参数的提取可以发现,语音段和噪声段的参数值具有一定的差异,越为优秀的算法其两部分特征参数所体现出来的差异就会越大,这样语音自动分割才会更加精准。而且这种差异要尽量不会因为外界背景噪声的影响而产生大幅变化,如果容易受到背景噪声的影响则说明算法的鲁棒性不是很好。为了便于提
31、取所说的特征参数并对其进行有效地分析,每个语音信号段进入系统后都需要先对其进行预处理。需要进行预加重,这样才能使语音信号的低频段和高频段的信噪比参数表现的平滑。需要进行分窗加帧,这样语音信号才能具有短时性。在进行分帧的时候,为了保证信号的连续变化、防止突变,我们通常会在两帧之间设置好帧移,使起短时特性能够表现的更加平滑,易于分析。预处理完成后就可以对信号提取特征参数,并根据语音段和噪声段特征参数的差异来对其进行分割。根据特征参数差异的大小,以及使用的参数的个数,可以分为单参数或者双参数、单门限或者双门限。一般来说,用于判断的参数越多自动分割的准确性也越高,但同时我们也要考虑到计算量大小的问题,
32、不能盲目的增加算法中的特征参数个数。参数提取是对语音和噪声信号进行提取的参数。声音是人体的声音,人体发声的原理是来自人体器官声带的振动。而噪声信号的出现,多是由大自然、完结物体碰撞等因素引起的,在频率和能量上有很大的不同。本文基于能量差分,对该算法的短时能量和短时过零率进行了分析,并根据其它特征参数进行频谱和频谱熵的研究。语音可分为两类:清音和浊音。,度比较低,而浊音正好与之相反。短时幅度这项参数适合在信噪比较高的环境中使用,但当背景噪声较大、较为复杂的时候,短时平均过零率就可以发挥出它的优势,获得较好的判断结果。由此可见,参数提取的是否正确,该参数能否真正有效的反映出人声和背景噪声之间的区别
33、对于整个系统最终效果有着十分重要的作用。语音自动分割流程如图3.2所示:图3.2 语音自动分割流程图说话人的语音信号和噪声信号在特征参数上有明显的差异,不同环境下的噪声信号特征参数也有差异,自动分割系统就根据这些提取出来的各不相同的特征参数来设置相应的门限,在满足一定的规则后就会被判定为语音开始或者语音结束。门限值设定好之后,当信号超过预先设定的门限值时,语音信号有可能已经开始,但是这里还需要对其持续时间做一个判决。若信号连续超过设定的门限几帧都没有衰落回去,则说明信号进入了语音段。对于结束点的判断与起始点基本类似。当检测到语音信号低于预先设定的门限值且连续几帧均低于该门限时,则说明语音信号结
34、束。由于单门限、单参数的语音自动分割算法准确性有限,所以各类新型算法层出不穷,实际应用中基本上不再会看到机遇单门限、单参数的自动分割算法。3.3.2 基于短时能量和短时过零率的语音自动分割在常用的短时能量和过零率相结合的语音自动分割算法中,浊音通常使用短时能量来进行检测、清音则使用短时过零率,当背景噪声较为复杂时则通常采用两者相配合以便实现语音信号自动分割的准确性。这个算法在进行输入语音信号的检测过程中短时能量和短时过零率是分步开展的。根据人声的发音特征,可以把语音信号划分为浊音、清音和无声三类音。由于清音所携带的能量相对较小,会比较容易将其与无声区混淆,但过零率检测恰好能够弥补能量检测的不足
35、之处,它能够清晰的分辨出清音和无声。综合两种特征参数的特点可知,在信噪比良好的条件下将它们结合起来进行自动分割能够得到较为准确的结果。(1) 短时平均能量首先,从能量大小的角度上来看,语音信号的能量在一般情况下是远大于噪声能量的,这样一来就可以通过能量值来区分噪声和语音或者进行语音自动分割。由于人的发声方式的物理原因,未经处理的人声信号是时变的,为了能够应用平稳状态下的各种研究方法,我们需要对语音信号进行加窗分帧,从而使一整段语音信号分成以几十ms为一帧的众多语音帧,在每个语音帧内我们认为语音信号是相对平稳的。之后,我们就可以对每帧的能量幅度做集合运算,从而得到我们需要的短时特征参数短时能量。
36、对短时能量进行分析可以发现,浊音、清音、静音的短时能量依次递减,我们可以以此为依据,设置相应的门限进行自动分割。语音信号x(n)在n时刻的为:(3-16)式(3-16)中,为Hamming。令,则有:(3-17)式中,为窗函数,语音信号一般取1030ms,我们可以把每帧语音信号看成是近似平稳的。通过分帧加窗处理,我们就可以对原来无法进行处理的一整段语音信号进行逐帧处理了。每次只对一帧内的短时信号进行分析,得出相应的短时参数。短时能量可作为清音和浊音的区分标准进行使用。短时平均幅度可以定义为:(3-18)通常情况下,信噪比较高的语音信号只需要依据短时能量就能够较为准确的检测出语音端点,但如果语音
37、不是十分的纯净,带有一定的背景噪声,结果就很容易出现错误。因为清音的能量远远小于浊音,但是清音和静音的能量比起来就相差不多了,如果有一定的背景噪声存在,则清音和噪声的判断很容易发生错误。根据这点,为了提高自动分割算法的准确性,便提出两种参数相结合的方法。可以通过以下几种算法实现:(3-19)(3-20)(3-21)在计算机上进行仿真出图时,波形的高度就代表着语音信号的幅度,能量越高的信号波峰越高,而能量较小的信号波峰也比较低,在进行语音自动分割的时候,涉及到具体的门限就需要依据语音信号波峰的高度来进行设置。双门限是指需要设定两个阈值,先设定一个低一点的幅度值对语音信号实施第一次判决,再选择一个
38、高一点的值实施第二次判决。(2) 短时过零率短时过零率就是指每帧信号改变符号次数。根据输入系统语音信号的最大值与最小值之间的变化,对语音信号实施归一化处理。这样就能将语音信号波峰波谷的变化转换为穿过坐标横轴的次数。将语音信号的定义为:(3-22)式(3-22)中,即: (3-23)短时过零率可以通过比较语音信号和噪声信号之间频率的差别来进行自动分割。当发清音时,频率较高,而频率高就意味着平均过零率高。这和平均过零率很低的噪声信号形成鲜明对比,这样在短时能量很难准确判别的清音和噪声问题上,短时过零率却能够做出有效的识别。可以得知,这两个特征参数如果一同使用的话自动分割的准确率就能大幅提高。(3)
39、 基于短时能量和短时过零率的双门限自动分割图3.3 双门限自动分割程序流程图图3.3所示的方法是将短时能量和短时过零率结合起来进行语音分割的方法,在信噪比良好的情况下,能对语音信号实现较为准确的自动分割。与之前介绍的单门限的判断流程不同,双门限检测对于每个特征参数都设定有两个门限。当语音信号参数值高于设定的第一个较低的门限时,说明有一定可能进入人声段,此时判决继续。当语音信号在此基础上超过了预先设置好的第二个较高的门限,并且持续有几帧的时长时,我们就认为语音信号进入了人声段。对人声段终止点的判决大体上就是它的逆过程。当语音信号的参数值低于设定的第一个较高的门限时,说明人声段有可能结束,算法继续
40、对其进行检测,若参数值又低于了设定好的第二个较低的门限并持续了几帧的时长则说明语音信号进入了背景噪声段。这里所说的“几帧”就是指算法预先设定好的最短语音和最短静音两个参数。因为有些噪声可能是突发性的、大功率的,这类噪声很有可能同时满足双门限的条件,为了防止此类噪声对语音自动分割的准确性产生不利影响才设置了这两个参数。一旦语音信号超过了较高的判决门限,检测系统就会认为语音信号已经进入了语音阶段,但是判定还没有结束。系统会继续判断当前的状态是否能够满足最短语音和最短静音的条件,如果不满足则会被认定为噪声信号,所有参数值归零,算法重新开始判断Error! Reference source not f
41、ound.。3.3.3 基于倒谱特征的语音自动分割(1) 倒谱特征在语音识别系统中,很多时候短时能量和短时过零率所包含的信息并不能进行准确的语音自动分割,尤其是在说话人所处环境较为复杂、信噪比较低的情形下,基于短时能量和短时过零率的自动分割算法通常都会出现很多错误,不能准确识别出语音音节的起始点和终止点。而倒谱特征所包含的信息量要远远大于它们,同时由于倒谱的定义方式与其不同,使得基于倒谱特征进行的语音自动分割基本上不用考虑噪声大小的影响。使其能够在低信噪比条件下获得准确的分割结果。(2) 倒谱距离设语音信号为 ,其倒谱变换为。语音信号倒谱的一种定义为: (3-24)式中, 为倒谱系数,且是实数
42、。 S()与S(),利用帕塞瓦尔定理,数:(3-25)式(3-25)中,与分别代表S(w)和S(w)的,两个信号谱的差别大小可以用对数谱的均方距离来进行描述,因此可以采用倒谱距离为特征参数来识别语音音节的区间。基于倒谱距离的语音自动分割算法流程和短时能量作为特征参数的算法十分相似,只不过变换了特征参数而已。由于极少有语音信号从第一帧开始就进入说话人语音段,故将语音前几帧默认为噪声段。通过对这段噪声进行分析可以得出倒谱系数矢量,噪声倒谱矢量的近似值可以根据公式(3-26)所述进行不断更新:(3-26)式(3-26)中,。计算倒谱距离:(3-27)式中,谱。式中处理语音信号所采用的倒谱特征是复倒谱
43、特征,FFT复倒谱就是由语音信号先经过傅里叶变换,然后求其复对数的傅氏变换就可以得到相应信号的复倒谱。此种检测方法相较于短时能量和短时过零率的方法虽然具有很多优点,但它同时也具有计算复杂、运算量大的缺点,将其应用于语音自动分割时实时问题不易解决。4 基于语音熵的自动分割算法设计上文所述的基于短时能量和短时过零率等特征参数的语音自动分割算法,虽然计算简便,且易于实现。但是该算法在低信噪比条件下,对于语音音节起始点和终止点的检测准确程度是无法达到预期效果的,从而导致自动分割准确性低下,整个语音识别系统出现大量错误。如果单从分割准确性的角度来考察,基于模式识别的方法准确性是很高的,但是在实际应用的过
44、程中我们不能仅仅考虑精确性一方面问题,还要考虑诸如实时性、计算量等多方面因素。为了在它们之间寻找一个平衡点,既能保证自动分割的准确性又可以避免大规模的运算,本章介绍一种基于语音熵的语音自动分割算法,并对其进行了一定的改进。4.1 本文设计方案图4.1 改进的谱熵法语音自动分割算法过程框图(1) 首先读入之前录制好的连续语音文件;(2) 对语音信号进行包括预加重、加窗分帧在内的预处理;(3) 为了取得更精确地语音分割结果,人为添加一些经验性约束,如频谱范围设定在2503500Hz,归一化谱概率密度上限设置为0.9;(4) 求出子带能量概率分布密度;(5) 求出子带谱熵;(6) 通过平滑处理设置阈
45、值;(7) 应用双门限端点检测法检测出音节起始点和终止点;(8) 对各个音节起始点和终止点进行标记;(9) 语音自动分割完成。4.2 谱熵的定义4.2.1 熵的定义及概念,最初是热力学,。一个系统混乱度越高,它的信息熵就越高,一个系统越是有一定规律可循,它的信息熵就越低。在语音信号中语音段因为是人发出的声音,帧与帧之间存在着一定的联系,所以语音段的信息熵就低。相反,背景噪声基本上都是随机的,所以信息熵就高。充分利用这个差异,就能实现基于谱熵的语音自动分割算法。,它们独立特征,N ,则为Error! Reference source not found.;(4-1)其中(4-2)需要注意的是,最
46、初输入系统的语音信号是连续的,在计算它的信息熵之前需要对其进行采样量化,将连续信号转化为离散信号,然后才能对其进行求解。4.2.2 谱熵,得到的第,则FFT变换后,其中第kfkYi(k),则每个频率分量的归一化谱概率密度函数为(4-3)式中,pi(k)为第i帧第k个频率分量fk对应的概率密度;N为FFT长度。:(4-4)4.2.3 谱熵的特征设X为离散信源,其概率空间为(4-5)则信源X的熵函数为(4-6)式中,P=(p1,p2,pq)是q维矢量,并且满足和,故常称P为概率矢量。从上述谱熵的定义中可以发现谱熵体现了信源在频域幅值分布中的“无序性”。若熵函数有(4-7)也就是等概分布的时候,语音信号的熵达到最大值,这一特征称为最大离散熵定理。4.3 谱熵法语音自动分割的改进算法基于最基本的谱熵原理在语音信号中的应用,为了提高辨别语音信号和非语音段的能力、消除某些能