集成神经网络语音情感识别模型研究.docx-淘文阁

资源描述

《集成神经网络语音情感识别模型研究.docx》由会员分享，可在线阅读，更多相关《集成神经网络语音情感识别模型研究.docx（10页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、集成神经网络语音情感识别模型研究集成神经网络语音情感识别模型研究罗丹青、邹月娴、黄东延导语：语音情感识别是效劳机器人的关键技术之一，具有重要的应用价值。与传统的语音情感识别方法相比，基于深度神经网络的语音情感识别方法已经展示出优越的性能。背景情感识别有助于为提供良好的体验，是将来必备的一项重要才能，因此近年度来语音情感识别已经逐渐成为一个研究热点，并有了大量应用。固然早在20世纪80年度代就出现了语音情感识别的相关研究，该课题对于机器而言确实较为棘手。此外，相比语音识别领域，用于语音情感识别的公开数据库少之又少。语音情感识别系统由两局部构成，即特征提取器和情感识别分类器。语音情感识别任务中使用

2、的声学特征可分为3类：韵律学特征、谱特征和音质特征。其中常用的韵律学特征包括时长、基频、能量等；谱特征一般有LPC、OSALPC等线性谱特征和MFCC、LPCC等倒谱特征；音质特征一般有共振峰频率及其带宽、频率微扰、振幅微扰和声门参数等。以上声学特征由于是从语音帧中提取，表征的是短时音频的特性，也统称为低层描绘子。然而人们对情感的感悟往往蕴藏于某一时间段内情感的波动表达，所以为了在更长的时间范围内对情感进展描绘，通常还计算句子的全局特征。全局特征用于刻画低层描绘子在整句话中的动态变化信息，因此由低层描绘子的统计值组成，常见的统计值有均值、极值、变化范围、丰度、偏度、矩和线性回归相关参数等。特征

3、设计在传统的语音情感识别方法中是重要的一环，决定了情感特征的好坏。然而，寻找最优的特征子集是一项繁琐的任务，也根据不同的数据库而有所不同。到目前为止，对于语音情感识别任务还没有一套公认的最优特征集，研究人员大多在实验中经历性地选择所需特征。根据特征;和分类器训练方法的不同，语音情感识别系统可以在两个层次进展情感的判断：短语音段层次和完好句子层次。对于短语音段的语音情感识别，一个句子被切分为多个语音段，使用语音段的特征训练分类器。低层描绘子在从语音帧提取出来后，被输入到序列分类器以模拟讲话人的情感分布状态，这样的序列分类器通常使用高斯混合模型和隐马尔可夫模型进展建模。在训练时短语音段的情感标签就

4、是所属句子的情感标签；测试时，由于一句话有多个语音段的识别结果，对它们进展大多数投票得到最终的识别结果。对于完好句子层次的语音情感识别，分类器输入的是从整个句子提取的特征。首先由低层描绘子和统计函数计算句子的全局特征，最后全局特征输入到一个判别分类器进展句子情感的识别。这样的判别分类器包括几乎所有的传统分类器，如支持向量机、决策树、K邻近模型等。近年度来，深度神经网络因其具有强大的从原始数据学习层级特征的才能，也被引入了语音情感识别领域。Han等人设计了DNN用于学习短时语音段情感特征，后端使用极限学习机对全局特征进展句子层次的情感分类。Lee等人提出了基于最大似然学习准那么的循环神经网络对随

5、机语音段标签序列进展建模，极大提升了语音情感识别的准确率。Mirsamadi等人针对语音情感识别探究了不同的RNN构造，并提出了注意力机制对不同情感重要程度的语音帧进展加权。Mao等人设计了卷积神经网络来学习语音中显著具有判别性的情感特征。在同一个数据库上比拟以上不同的方法，可以发现它们的混淆矩阵有很大差异。尽管使用一样的低层描绘子，不同分类器在每个情感类别上都获得了不一致的识别率。该现象讲明单一的分类器无法在所有情感类别上都表现良好，例如可能SVM无法有效识别出“快乐而DNN分类器却可以。这样的差异除了与数据不平衡有关，还与分类器自身的建模才能直接相关。从该结论出发，为了进步语音情感识别的准

6、确率，本文提出一种使用两类神经网络作为基分类器的集成学习方法。正如文献所讲，集成系统中的基分类器应该尽可能地具有不同构造来到达更好的泛化性能，本文选择了适于处理序列数据的循环神经网络和在图像分类中性能突出的宽度残差网络作为基分类器。基分类器介绍1.长短时记忆循环神经网络由于本身独特的构造，RNN拥有强大的处理序列数据的才能。隐含层在前后时间步间的连接使上一步的隐含层状态可以传递给当前步的隐含层。如此循环传递下去，序列中第一步的信息就能传递到最后一步，序列相关性得以建模。然而，当输入序列到达一定长度，由于梯度消失问题RNN的性能会急剧下降，长短时记忆模型就是为了克制该问题而设计的。总体来讲，一个

7、LSTM模块包括四个元素：输入门i、遗忘门f、输出门o和记忆单元c，三个门负责调节记忆单元前后时间步状态之间的关系。以某个时间步t为例，RNN的输入是xt，三个门和记忆单元的状态依次是it、ft、ot和ct，该层LSTM的输出是ht，它们之间的关系由下式表示： (1) (2) (3) (4) (5)其中Wx.、Wh.、Wc.分别是输入层、隐含层输出、记忆单元与各个门的连接权重；b.代表各个门的偏置。2.宽度残差网络众所周知，同样是出于梯度消失，CNN层数越多越难训练。为了训练深层的卷积网络，残差网络得以提出。实验证明残差网络可以在比传统CNN层数深得多的情况下获得优越的图像识别性能。受残差网络

8、加深层数的启发，文献中提出了宽度残差网络，以更浅层数、更大宽度的网络构造进一步提升了图像识别准确率。残差网络由残差模块顺序堆叠构成，一个残差模块中通常包括两个卷积层，每个卷积层前面分别有一个批归一化层和ReLu激活函数层。比照普通的残差网络，WRN把每层卷积层中的卷积核个数扩展为原来的K倍，加宽了卷积层以进步它们的特征学习才能。研究说明WRN可以用浅得多的层数到达与普通残差网络一样的图像识别率。图1展示了一个残差模块和一个WRN的构造。图1中WRN使用了四类残差模块，它们的卷积核数目分别为16、。连续N个同类残差模块堆叠为一个组，四组残差模块和池化层、softmax层按序堆叠最终构成一个WRN

9、。集成神经网络语音情感识别系统1.RNN语音情感识别子系统RNN子系统的框图如图2所示。其中系统的输入为句子的特征序列s(1),s(2),S(T)，T为句子被分割成的段数，同时也是RNN网络的时间步数，s(t)为句子中第t段语音提取的特征向量。系统计算流程如下：在每一时间步，原始特征向量通过一层全连接层后进入LSTM层；所有时间步的LSTM层输出在随后的池化层进展平均，得到这句输入的全局特征；全局特征输入softmax层计算句子属于每一类情感的概率，据此产生识别结果。由于RNN直接对整个句子进展了处理，训练经过中只需要使用句子的标签作为训练目的，训练中损失函数使用穿插熵。图2RNN子系统RNN

10、输入的语音段特征s(t)由某个时间窗内的帧特征堆叠而成，给定时间窗长w和帧特征f(t)，s(t)可以表示为。本文中，帧特征包括12维MFCC、能量、过零率、基频、声音质量和他们的时间差分，共计32维。2.WRN语音情感识别子系统WRN子系统的框图如图3所示。一句话的频谱在时间轴上被切分为假设干段，频谱段输入WRN得到关于每类情感的概率分布。对这些频谱段的输出计算统计值作为句子的全局特征，全局特征输入一层softmax便得到该句话关于每类情感的概率分布，最终得到识别结果。总的来讲，WRN子系统由两局部构成：一个对频谱段分类的WRN分类器，一个对整个句子分类的softmax分类器。系统训练时，首先

11、所有训练样本被切分为频谱段，每个频谱段被赋予所属句子的情感标签并输入WRN训练，随后训练频谱段在WRN的输出按所属句子聚合并计算全局特征，由此softmax的训练数据变成了以句子为单位并以句子的情感标签为目的进展训练。图3WRN子系统该子系统中全局特征按如下方法计算。以句子i为例，假设任务中需识别K类情感，频谱段s输入WRN后得到属于第k类情感Ek的概率为Ps(Ek)，对，分别计算以下式子，其中U为属于i的频谱段的集合： (6) (7) (8) (9),分别代表i中所有频谱段属于Ek的平均概率、最小概率、最大概率和概率大于0.5的频率，于是i的全局特征可以表示为。3.集成神经网络的语音情感识别

12、系统集成系统由两个基分类器和一层集成层softmax组成，如图4所示。RNN子系统和WRN子系统的输出结果都是关于情感类别的概率分布向量，为了实现集成，本文把两个向量相加作为新的全局变量。详细来讲，给定训练集，其中是语音样本，是对应标签，N是样本数目，首先分别训练RNN和WRN子系统，对样本i，每个子系统都产生一个概率向量，分别记为和。两个向量相加产生新的全局变量： (10)在集成层，就作为训练数据训练softmax分类器。图4集成网络语音情感识别系统测试阶段，测试语音同时进入两个子系统并产生概率分布向量，随后由式(10)计算全局变量，输入集成层产生最终的情感识别结果。完毕语针对语音情感识别任

13、务，本文运用集成方法设计和实现了一种使用循环神经网络和宽度残差网络作为基分类器的集成系统。该方法致力于结合拥有不同架构的深度神经网络的优势，进而进步语音情感识别的准确率。十分地，循环神经网络用于建模序列信息并在句子层次给出识别结果，而宽度残差网络学习频谱段的特征表达并在语音段层次进展识别。实验证明了该集成系统相比于单分类器语音情感识别系统的有效性，也说明由本文首次引入语音情感识别领域的宽度残差网络在这方面有着不逊于主流的基于循环神经网络方法的性能。令人略感遗憾的是本实验中由集成方法带来的性能提升并不突出，可能的原因有两点，一是实验采用的数据库存在数据不平衡的问题，二是集成方法的设计问题。关于这两点，在将来的工作中，我们将会探究数据增强的方法以缓解数据集分布不平衡的问题，也将尝试使用不同的集成方法以增强系统对语音情感的建模才能。

展开阅读全文