《声纹识别分析王姚.doc》由会员分享,可在线阅读,更多相关《声纹识别分析王姚.doc(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、安徽科技学院2014-2015学年第1学期行业标准概论课程论文 姓名:王姚 学号:1665110215 班级:电信112声纹识别的分析王姚(数理与信息工程学院)摘要:本文提出了一种可用于说话人识别的神经阵列网络,以美尔倒谱系数(Mel F requeney Cepstrum Coefficients:MFCC)作为特征参数,采用多层感知器神经网络和BP算法建立了一个与文本相关的说话人辨认系统。同时,算法结合心理声学模型,提取了能表现说话人个性特征的Mel倒谱系数为特征进行说话人识别,可较好地提升系统的抗噪性能。该方法具有快速学习网络权重的能力,并且网络的全局寻优能力强,使得系统的识别率进一步提
2、高。问题一、要求建立代表说话人身份的语音特征模型,通过编程从语音数据中提取说话人特征,本文通过构建声纹特征MFCC系数模型,对语音数据进行提取、预加重、分帧、傅里叶变换等处理提取特征参数。 问题二、要求利用说话人特征建立说话人模型或声纹识别模型。本文利用BP神经网络模型以建成声纹识别模型。通过对特征参数的训练、分类,从而达到多个人说话的语音中分辨出各个人的语音;问题三、要求我们利用语音数据,评价说话人模型或声纹识别模型评价的好坏。本文对语音信号进行了预处理,解决了滤除高频噪音,防止50Hz工频干扰及平滑频域信号等一系列不利于MFCC系数提取的因素,同时,计算出识别的准确率和所用时间,从而判断模
3、型的好坏和实用性;问题四中,我们透彻分析影响准确率的因素,运用遗传算法优化BP神经网络进行优化,进一步提高声纹识别的准确率。关键词:美尔倒谱系数 遗传算法神经网络 声纹识别 BP神经网络 一、问题重述 生物认证是通过人体特征进行人物身份认证的重要手段,包括人脸识别、虹膜识别、指纹识别、体态识别和声纹识别等方法,它们被广泛地应用于国防、军事和民用等诸多领域,推动着信息产业的蓬勃发展。声纹识别又称说话人识别,是通过分析说话人的语音的特点,利用计算机自动识别说话人的身份。声纹识别又分为文本相关和文本无关说话人的识别两大类。文本无关是指说话人的说话内容不受限制,文本相关是指说话人的说话内容必须是指定的
4、内容。评价声纹识别方法或模型的最重要指标是识别准确率,准确率越高越宜于应用于实际。评价的另外一个重要指标就是识别所花的时间,即输入待识别的说话人语音到识别结果的输出说话的时间,该时间越短约好。请试着利用采集到的说话人语音数据(文本相关和文本无关两类),完成以下几点:1)建立代表说话人身份的语音特征模型,通过编程从语音数据中提取说话人特征;2)利用说话人特征建立说话人模型或声纹识别模型;3)利用语音数据评价你的说话人模型或声纹识别模型评价的好坏;4)分析影响准确率的因素,采取措施进一步提高声纹识别的准确率。 二、问题分析2.1 问题一要求建立代表说话人身份的语音特征,并且能够通过编程从语音数据中
5、提取说话人特征。首先,我们要对输入的原始信号进行预处理,过滤其中不重要的信息以及背景噪声等,进行语音信号的端点检测,并进行语音信号的分帧以及预加重等处理工作。对采集到的语音样本的预处理包括预加重、加窗分帧和端点检测。预加重主要是为了消除发声过程中声带和嘴唇的效应,补偿语音信号收到发音系统所压抑的高频部分,将原始语音信号通过一个高通滤波器: 式中u 为预加重系数,通常取值0.95 左右。本系统采用一个窗长为256,窗移是128的汉明窗在语音序列上滑动,对语音进行加窗分帧处理。通过对语音信号的短时能量和短时过零率实现比较精确的端点切分,可以剔除掉静默帧、白噪声帧和清音帧,最后保留对求取MFCC等特
6、征参数非常有用的浊音信号。2.2 问题二是对说话人的语音进行识别,语音特征信号识别是语音识别研究领域中的一个重要方面,我们采用模式匹配的原理解决。语音识别的运算过程为:首先,待识别语音转化为电信号后输入识别系统,经过预处理后用数学方法提取语音特征信号,提取出的语音特征信号可以看成该段语音的模式。然后将该段语音模型同已知参考模式相比较,获得最佳匹配的参考模式为该段语音的识别结果。语音识别流程如图2.2.1所示流程图如下:图2.2.1 说话人识别模型流程图本模型中我们选取了001,002,003,004四类不同音频,用BP 神经网络实现对这四类音频的有效分类。每段音频都用上述倒谱系数法提取500组
7、24维语音特征信号,提取出的语音特征信号。2.3问题三要求利用语音数据评价你的说话人模型或声纹识别模型评价的好坏。通过本文建立BP神经网络模型,我们可运行测试其准确性。2.4问题四要求我们分析影响准确率的因素,并采取措施进一步提高声纹识别的准确率。三、模型假设1. 假设预加重系数u的值为0.93752.假设所用的音频的录音环境为同一环境,为封闭式录音教室;3. 假设录用人员讲的语言为较标准的普通话;4假设录音人员是处于正常说话模式,没有经过特殊仪器进行变音;5假设数据训练量每增加100,训练时长增加1s;6.本模型使用的文本无关的声纹识别文件;7.假设所提供的数据完整、可靠、有效;8.假设我们
8、网络上查阅的资料以及结论真实可靠。四、符号说明1、 预加重系数;2、P(f)短时能量谱;3、P(M) 美尔坐标上的能量谱;4、Hm(K)滤波器组;5、MFCC美尔倒谱系数;6、a隐含层阈值;7、b输出层阈值;8、学习速率;9、e网络预测误差;10、欧式范数;11、高斯函数中心;12、高斯函数方差;13、输入层、隐含层和输出层神经元之间的连接权值;14、隐含层输出;15、BP神经网络预测输出。五、模型建立与求解5.1 问题一 : 5.1.1构建声纹特征MFCC系数模型在语音信号预处理后,接着是特征参数的提取。选取的特征必须能够有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。基于人耳的听
9、觉机理,反映听觉特性,模拟人耳对声音频率感知的特征参数,如美尔倒谱系数等。很多研究证明,由于Mel频率特性反映了人耳的听觉特性,常用于代替人耳来分析语音,其性能和鲁棒性都是最符合实际听音效果的。MFCC参数与线性预测倒谱分析相比,突出的优点是不依赖全极点语音产生模型,因此,在与文本无关的说话人识别系统中,MFCC参数能够更好地提高系统的识别性能。5.1.2模型求解:MFCC参数计算步骤如下:首先,语音信号在经过预处理、分帧加窗后转变为短时信号,经过FFT 变换将x(n)转化为X(m),并计算出其短时能量谱P(f)。在将P(f)在频率轴上的频谱转化为在美尔坐标上的P(M)。接着在美尔频域内将在美
10、尔坐标上加入三角带通滤波器得到滤波器组Hm(K),再计算美尔坐标上的能量谱P(M) 通过该滤波器组的输出值。最后在美尔刻度谱上能够采取修改的离散余弦反变换来求取美尔倒普参数MFCC:式中,p 为MFCC 阶数。5.1问题一5.1.1 BP神经网络模型的建立BP神经网络是一种多层前馈神经网络,该网络的主要特点是信号前向传递,误差反向传播。在前向传递中,输入信号从输入层经隐含层逐层处理,直至输出层。每一层的神经元状态只影响下一层神经元状态。如果输出层得不到期望输出,则转入反向传播,根据预测误差调整网络权值和阈值,从而使BP神经网络预测输出不断逼近期望输出。BP神经网络的拓扑结构如图1-1所示。图1
11、-1中,X1,X2,Xn 是BP神经网络的输入值,Y1,Y2,Ym 是BP神经网络的测值,ij和jk 为BP神经网络权值。从图1 1可以看出,BP神经网络可以看成一个非线性函数,网络输入值和预测值分别为该函数的自变量和因变量。当输入节点数为n,输出节点数为m 时,BP神经网络就表达了从n 个自变量到m 个因变量的函数映射关系。BP神经网络预测前首先要训练网络,通过训练使网络具有联想记忆和预测能力。BP神经网络的训练过程包括以下七个步骤:步骤1:网络初始化。根据系统输入输出序列(X,Y)确定网络输入层节点数你、隐含层节点数,输出层节点数m,初始化输入层、隐含层和输出层神经元之间的连接权值,初始化
12、隐含阈值a,输出层阈值b,给定学习速率和神经元激励函数。步骤2:隐含层输出计算。根据输入向量X,输入层和隐含层间连接权值以及隐含层阈值a,计算隐含层输出H。 (1)式中,为隐含层节点数;f隐含层激励函数,该函数有多种表达形式,本章所选函数为: (2)步骤3:输出层输出计算。根据隐含层输出H,连接权值和阈值b,计算BP神经网络预测输出O。 (3)步骤4:误差计算。根据网络预测输出O和期望输出Y,计算网络预测误差e。 (4)步骤5:权值更新。根据网络预测误差e更新网络连接权值,。 (5) (6)式中,为学习速率。步骤6:阈值更新。根据网络预测误差e更新网络节点阈值a,b。 (7) (8)步骤7:判
13、断算法迭代是否结束,若没有结束,返回步骤2。基于BP神经网络的语音特征信号识别分类算法建模包括BP神经网络构建、BP神经网络训练和BP神经网络分类三步,算法流程如图1-4所示。 图1-4算法流程BP神经网络构建根据系统输入输出数据特点确定BP神经网络的结构,由于语音特征输入信号有24维,待分类的语音信号共有4类,所以BP神经网络的结构为24254,即输入层有24个节点,隐含层有25个节点,输出层有4个节点。BP神经网络训练用训练数据训练BP神经网络。共有2000组语音特征信号,从中随机选择1500组数据作为训练数据训练网络,500组数据作为测试数据测试网络识别分类能力。 BP神经网络分类用训练
14、好的神经网络对测试数据所属语音类别进行识别分类。5.1.2模型求解 5.1.2.1运用数据选择和归一化方法对数据进行处理数据归归一化是神经网络预测前对数据常做的一种处理方法法。数据归一化处理把所有数据都转化为0,1之间的数,其目的是取消各维数据见数量级差别,避免因为输入输出数据数量级差别较大而造成网络预测误差较大。本模型使用的是最大最小法。函数公式为: (9)式中, 为数据序列中的最小数; 为序列中的最大的数。首先,根据倒谱系数法提取四个人的语音特征信号,不同的语音信号分别用1,2,3,4标识,提取出的信号分别存储与不同的数据库文件中,每组数据为25维,第1维为类别标识,后24维为语音特征信号
15、。把四种语音特征信号合为一组,从中随机选择15000组数据作为训练数据,500组数据作为测试数据,并对训练数据进行归一化处理。根据语音种类标识设定每组语音信号的期望输出值,如标识类为1是,期望输出向量为1 0 0 0。用训练好的BP神经网络分类语音特征信号测试数据,预测语音种类和实际语音种类的分类图如图(2)所示图(2)预测语音种类和实际语音种类的分类5.2问题四通过对模型二的数据分析,我们发现建立遗传算法优化BP神经网络基函数中心以及宽度因素受拓扑结构影响较大,其处理还可进一步的优化,但是BP神经网络参数难以确定,根据经验数据归一化全局寻优能力有点欠佳,种种原因影响了说话人识别的准确率,对此
16、我们做以下遗传算法BP神经网络模型进一步优化上述遇到的问题,从而提高说话人识别的准确率。5.2.1 运用遗传算法BP神经网络进行优化BP网络的基本思想是:用BP作为隐单元的“基”构成隐藏层空间,隐含层对输入矢量进行变换,将低维的模式输入变换到高维空间内,使得在低维空间内的线性不可分的问题在高维空间内线性可分。三层网络的BP神经网络结构如图2所示。图2中,三层BP神经网络结构第一层是输人层,由信号源结点组成;第二层为隐藏层,其节点数目根据所描述问题的需要而确定,该层中神经元变换函数即径向基函数是对中心点径向对称且衰减的非负线性函数;第三层为输出层,它对输入模式作出响应。通常RBF的径向基函数采用
17、高斯函数,其激活函数表示为: (3)式中,为欧式范数; 为高斯函数的中心;为高斯函数的方差。由图2所示的RBF网络的结构可得到网络的输出为:其中, 为第P个输入样本;为网络隐含层节点的中心;为隐含层到输出层的连接权值; 为与输入样本对应的网络的第j个输出节点的实际输出。5.2.2 对遗传算法的讲解遗传算法是1962年由美国Michigan大学Holland教授提出的模拟自然界遗传机制和生物进化论而成的一种并行随机搜索最优化方法。它把自然界“优胜劣汰,适者生存”的生物进化原理引入优化参数形成的编码串联群体中,按照所选择的适应度函数并通过遗传中的选择、交叉和变异对个体进行筛选,使适应度值很好地被个
18、体保留。遗传算法的基本操作可分为:选择操作,从旧群体中以一定的概率选择个体到新群体中,个体被选中的概率跟适应度值有关,个体适应度值越好,被选中的概率越大;交叉操作,从个体中选择两个个体,通过两个染色体的交换组合,来产生新的优秀个体;变异操作,从群体中任选一个个体,选择染色体中的一点进行变异以产生更优秀的个体。5.2.3 遗传优化BP神经网络模型建立本系统中遗传优化RBF神经网络结构与参数的训练过程如下:基函数的中心以及隐含层单元的高斯函数的宽度可以通过遗传算法获得,有效地克服了传统RBF网络难以确定基函数的中心和宽度的缺点,同时根据聚类问题的实际情况设计编码、交叉和变异算子,使得算法更快、更有
19、效地收敛于全局最优解。种群初始化个体编码采用实数编码,每个个体均为一个实数串,仅对应RBF隐藏层中一个单元。在每一代中,包含了代表隐藏层单元数中心和宽度的字符串集合。适应度函数根据个体得到的神经网络的初始隐层中心和宽度,用训练数据训练RBF神经网络后预测系统输出,把预测输出和期望输出之间的误差绝对值和E作为个体适应度值F,计算公式为:式中,n为网络输出节点数,Y 为第i个节点的期望输出;0 为第i个节点预测输出,k为系数。这样选取的适应度函数比较直观地反映了每个个体性能的好与差。选择操作遗传算法性能会直接受到选择策略的影响,本系统采用轮盘赌法的选择策略。每个个体i选择的概率P 为:式中, 为适
20、应度值,由于适应度值越小越好,所以在个体选择前对适应度值求倒数,为种群个体数目。交叉和变异操作交叉操作在遗传算法中起核心作用,遗传算法通过交叉操作,其搜索能力得以提高。由于本系统的编码过程中是将BP的中心和宽度编码放在同一个个体中,因此在交叉过程中必须对它们分别进行操作。按照一定的交叉概率随机地从群体中取出两个个体,对两个个体进行交叉,交叉点的位置不是无条件随机产生的,它们必须分别落在宽度和中心的编码中。交叉概率一般在051。0之间取值,因为交叉概率太小会使搜索过程停滞不前。变异算子通过对所有个体随机的确定基因位以变异概率改变该基因值,目的是增强遗传算法的局部搜索能力,同时增加了群体的多样性。
21、如果没有变异,就不会产生新的基因,但变异概率太大,会使遗传算法变成随机搜索,一般变异概率取值在00102之间。六、模型评价与推广6.1 优点:本文对BP神经网络进行了深入分析,运用遗传算法优化BP神经网络对数据量较大时进行处理并将优化后的RBF神经网络用于声纹识别系统,试验结果证明取得了较好的效果。6.2 缺点:在训练的数据量较多时,该方法效果不佳;6.3 模型推广:BP神经网络能运用于短时交通流量预测。本文的研究对其他复杂分类问题的解决也具有普遍的借鉴意义。七、参考文献1、易克初,田斌,付强语音信号处理M,北京:国防工业出版社,2OO02、林道荣、秦志林数学实验与数学建模北京:科学出版社,20113、刘亚丽等 “基于加权Md倒谱系数的说话人识别”,4、MATLAB中文论坛编著MATLAB神经网络30个案例分析,北京:北京航空航天大学出版社 , 2010.04