《基于机器学习的语音情感识别系统的设计.docx》由会员分享,可在线阅读,更多相关《基于机器学习的语音情感识别系统的设计.docx(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、摘 要语音识别在现实中有着极为重要的应用,现在语音内容的识别技术已日趋成熟。当前语音情感识别是研究热点之一,它可以帮助AI和人更好地互动、可以帮助心理医生临床诊断、帮助随时随地高效测谎等。本文采用了中科院自动化所的CASIA语料库作为样本,先进行预处理,之后对语料库进行语音情感特征函数的提取,再结合二叉树进行SVM支持向量机的分类,最后得到识别准确率。预处理是将语音信号提纯的操作,主要分为数字化、预加重、分帧加窗和端点检测4步,之后来到提取语音情感特征参数的阶段。虽然有许多语音情感特征参数,本文中使用的语音情感特征参数为基音频率、短时能量、共振峰和梅尔倒谱系数(MFCC)四种,再对每一种特征参
2、数进行归一化运算。传统的支持向量机识别语音情感信号为“一对一”模型,若有种情感,算法复杂度为。结合语音情感的分类间有较为相似和不相似两种情况,本文采用将二叉树和支持向量机结合的方法,每一层都遵循相似聚类的准则,逐层二分,从根结点的所有情感,最后分类到叶结点只有一个情感,此时完成识别分类。种情感的算法复杂度为,大大提高了效率。本文最后在完成整个系统后端的架构之后,加入了UI界面,原本运行界面简陋的系统,拥有了更加直观的显示,在面板上就可以方便地调节参数,也可以快速得到对比结果和识别结果。关键词:语音情感识别,机器学习,二叉树,支持向量机- I -本页为“6毕业论文Abstract(1页或2页)”
3、,点击菜单“USTB本科论文各部分”中的本部分菜单进行相应操作。本提示信息为非打印信息,可一直保留,不影响打印。(Speech emotion recognition based on Machine LearningAbstractSpeech recognition has extremely important applications in reality, and now the recognition technology of speech content has become increasingly mature. Current speech emotion recogni
4、tion is one of the research hotspots. It can help AI and people interact better, it can help psychologists make clinical diagnosis, and help to effectively detect lie anytime, anywhere. In this paper, the CASIA corpus of the Institute of Automation of the Chinese Academy of Sciences is used as a sam
5、ple, pre-processed first, and then the speech emotion feature function is extracted from the corpus, and then the binary tree is used to classify the SVM support vector machine.Preprocessing is the operation of purifying speech signals. It is mainly divided into 4 steps: digitization, pre-emphasis,
6、framed windowing, and endpoint detection, and then comes to the stage of extracting emotional feature parameters of speech. Although there are many speech emotion feature parameters, the speech emotion feature parameters used in this article are pitch frequency, short-term energy, formant, and Mel c
7、epstrum coefficient (MFCC), and then each feature parameter is normalized. Traditional support vector machines recognize speech emotion signals as a one-to-one model. If there is a kind of emotion, the algorithm complexity is. There are two similarities and dissimilarities between the classification
8、s of speech emotions. In this paper, the method of combining binary trees and support vector machines is adopted. Each layer follows the similar clustering criterion, and the two layers are divided into two layers. Finally, there is only one emotion classified into the leaf node, and the recognition
9、 classification is completed at this time. The sentiment algorithm complexity is, which greatly improves efficiency.In this article, after completing the architecture of the entire system backend, a UI interface was added. The original system with a simple interface has a more intuitive display. You
10、 can easily adjust parameters on the panel, and you can quickly get comparison results and recognition results.Key Words: speech emotion recognition, machine learning, binary tree, support vector machine- IV -本页为“7毕业论文目录(1页或若干页)”,点击菜单“USTB本科论文各部分”中的本部分菜单进行相应操作。本提示信息为非打印信息,可一直保留,不影响打印。(目 录摘 要IAbstrac
11、tIII1 绪 论11.1 课题背景11.2 研究意义11.3 国内外研究综述31.3.1 研究综述31.3.2 现存问题41.4 内容安排52 语音信号预处理及特征参数72.1 预处理72.1.1 数字化72.1.2 预加重72.1.3 加窗分帧82.1.4 端点检测102.2 语音情感特征参数122.2.1 基音频率122.2.2 短时能量152.2.3 共振峰172.2.4 梅尔频率倒谱系数MFCC183 基于SVM支持向量机的语音情感识别203.1 支持向量机SVM203.1.1 线性SVM213.1.2 非线性SVM233.2 核函数的选取243.3 二叉树SVM分类模型的构建254
12、 实验结果和性能分析294.1 系统界面的设计294.2 实验结果与性能分析304.2.1 准确率304.2.2 识别速度375 结 论39参考文献41在学取得成果47致 谢49- VI -本页为“8毕业论文图表清单页(可选,1页或若干页)”,点击菜单“USTB本科论文各部分”中的本部分菜单进行相应操作。本提示信息为非打印信息,可一直保留,不影响打印。(- VII -本页为“9毕业论文注释说明清单页(可选,1页或若干页)”,点击菜单“USTB本科论文各部分”中的本部分菜单进行相应操作。本提示信息为非打印信息,可一直保留,不影响打印。(- IX -本页为“10毕业论文正文页(若干页)”,点击菜单
13、“USTB本科论文各部分”中的本部分菜单进行相应操作。本提示信息为非打印信息,可一直保留,不影响打印。(1 绪 论当今时代发展潮流下,随着大数据的应用,机器学习已经成为未来研究方向的主流趋势之一。现在,更多的研究员和学者,将机器学习的相关知识和方法运用到语音信息识别方面。其中,提取合适而准确的语音情感特征参数是语音信息识别研究中的关键步骤,而语音情感信息识别就是基于此步骤上的重要应用。但是,语音情感特征参数的提取有一些关卡:1.找到和语音情感识别具有密切关系的;2.语音信息复杂多变,过分依赖于环境、说话人、情感等因素1。1.1 课题背景每个人都有情感,有高兴、愤怒、焦虑、紧张等各种各样,或是正
14、面或是负面的情感,而从科学上来说,情感是一种综合了人类的行为、思想和感觉的精神状态。观察一个人的情感一般有迹可循,无论是比较容易发现的外在还是内在,情感信息大多主要表现在内外两个层面:内在的情感信息是指心率、脉搏、血压等通过外表无法直接观察到,需要借助工具才能发掘的信息;外在的情感信息是指面部表情、声音、姿势等通过外表能直接自然观察到的信息。情感识别是指通过各种算法,利用计算机采集并分析各种情感信息,从而提取出可以一定程度描述情感的特征值,再根据训练集表现,建立特征值与情感的映射关系,依靠分类算法,对情感信息分门别类,最终推断出情感状态。1.2 研究意义计算机的广泛应用和大数据时代的到来,都使
15、得信息技术得到迅猛发展,加上各种智能设备如手机、个人电脑的普及,为了提高生活和工作的效率,语音识别逐渐出现在人们的视野内,给我们带来了莫大的便利。语音识别不仅可以用来日常将声音转化为文字,还可以利用个人声音特征信息进行加密和防伪等工作,具有极高的实用价值。随着语音技术基本应用已经取得广泛应用,我们就开始不仅仅满足于对特定说话人语音中的单一音素和单词语句进行简单的识别,而对诸如远程语音、儿童语音、言语障碍者语音以及语言情感进行有效地识别,未来也可能成为语音识别领域一些新的研究热点。语音是很重要的表达素材,其中不仅包含了说话人所要表达的文本内容,也同时包含了说话人所要表达的情感,所以对语音中情感内
16、容的有效准确识别不仅能够提升语音辨别度,更是提高了语音的可懂度,因此,人工智能和机器学习在这方面的应用和优势便显而易见。一些研发人员希望开发的智能设备,不仅要具有理性的人类思维逻辑,情感则是使这些机器更贴近人类的关键。同时具有理性逻辑和情感的设备可最大限度地理解用户意图,为人类提供更好的服务2。(1) 人机交互随着科技的不断发展,语音人机交互已经渗透进社会的各个方面:生活中不仅有使人愉快带来方便的个人智能语音AI,还有语音导航为每一位行路人带去指引;在医学方面,病患可以通过智能语音机器人做到定时吃药,疑问早解答;在教育领域,语音人机交互更是给学生足不出户的学习体验,同时可以丰富课堂的互动。语音
17、情感识别在人机交互方面依然可以有很出色的拓展应用,在机器分析人的语句内容时,有时候发音相近的词语就会混淆,造成识别的精准度不高。但是语音情感识别可以将情感作为其中一个判断依据,根据人说出的词语的备选词汇和当时情绪状态做出精准的选择,提高识别准确率,同时,做出更恰当的回应,比较冷冰冰的合成语音,更亲切也更生动,给人更好的体验。(2) 心理学医学情感在心理学中一直是研究的重点,结合人在不同情绪下脑部和身体的生理反应,各方面激素的分泌水平和神经反应,可以开发出基于语音情感识别的高精确度情感识别机器,帮助临床研究和教学,更可以帮助医生快速判断患者的精神状态,给予更有效精准的治疗方案,给更多人带来慰藉,
18、提高临床治愈率。(3) 测谎技术测谎技术多用于政府机关、法院和军事单位,现有的测谎技术多基于人的心率和肾上腺素分泌水平等,语音情感识别则是给测谎技术上了一个双保险,根据被测谎人的说话情感,就可以判断他目前的心理状态是从容还是焦虑,继而判断究竟是在说实话还是撒谎。而在人多眼杂的场合,往往无法架起现有测谎仪设备进行对测谎人的测试,但是基于语音情感识别系统的测谎仪则仅仅只需要采集语音样本进行分析,就可以为测试带来较高精准度。1.3 国内外研究综述1.3.1 研究综述国内外的研究者很早就嗅到了语音识别的应用价值。20世纪初,科学家们就开始了以临床精神病学和口语中情感影响的经验研究,当时还没有这么现金的
19、计算机设备和算法。但是在研究的过程中,科学家们本着求知的精神,学习人的发声方式并进行模拟人们对于语音情感识别的依据,探索出来很多可精确比较的量化参数,这些参数就是语音情感特征参数。文献3中,Williams和Stevens的研究表明,某些较为激烈的情绪,如生气、害怕和高兴等的产生,将会激励交感神经系,从而导致一系列生理反应,比如有心跳加速,血压上升,嘴唇变干,面部还偶尔会产生肌肉震颤。语调也就是我们说的频率,在说话时也变高,同时语速加快,导致发出的语音信息具有强烈的高频能量。另一方面来说,一些相对来说较为平静的情绪,如害怕、悲伤等的产生将会激励副交感神经系,产生和激烈情绪完全相反的反应,心跳变
20、缓,血压降低,嘴巴中唾液分泌增多,嘴唇变得更加湿润。所以这个时候说话的音量也相应的变低,速度缓慢,具有很少的高频能量,语音信号的频段。这些生理上的变化,说明当人在不同情绪下的时候,其语音相应的能量,会有高低不同的频率,在频谱上出现不同的分布峰4。20世纪60年代开始,越来越多的科学家,在发现了对于语音信号来说,不仅语义具有重要意义,其中包含的情感信息也是含有很多信息量,所以投入到对语音情感的研究上来,而同时日益先进的技术不仅给这些研究带去了更多可以利用的条件,科学家们对语音情感特征参数的充分了解,也给语音情感识别带来了更多演技切入点5。总的来说,情绪对语音的影响主要体现在三个方面:基因曲线,连
21、续声学特征和语音品质6。随着更多人参与到语音识别的研究上来,我们已经基本解决了两个问题:这句话是谁说的?说的是什么?而语音情感识别就是针对第三个问题:怎样说的。自动语音情感识别系统是指通过训练出情感分类器后,输入需要测试的语音信号,自动得到语音信号中所包含的情感种类,这个过程中不包含人为的干涉。但是即使发展了近60年,现存的研究报告基本都表明,自动语音情感识别的性能同人类识别相比的要差。图1-1 情感信息表达方式国际研究方面,文献7的著者Schuller等人利用隐形马尔可夫模型(Hidden Markov Model,HMM)进行识别。文章共阐述了两种方法,第一种的重点放在语音信号的基因和能量
22、曲线的统计上,再通过高斯混合模型得到结果;第二种则是在隐形马尔可夫模型中引入时间复杂度。Schuller等人在文献8中则是采用了不同的分类算法:线性分类器(Linear classifiers),高斯混合模型(Gaussian Mixture Models,GMM),神经网络(Neural Nets ,NN)和支持向量机(Support Vector Machines,SVM)。再加入语音信息之后,识别率高达90%。Ververidis等人在文献9中采用了前向顺序选择法SFFS(sequential floating forward selection)从87个基音和能量相关的特征参数中得到最
23、好的5个特征。再利用主成分分析法降到二维中来做分析,更是在95%的置信度上有51.6%左右的识别率。而在国内研究者研究的中文语音情感识别方面,蒋丹宁等在文献10中主要研究的是两种特征参数在区分情绪识别中的作用,分别是声学参数的统计特征和时序特征。在从一名女性发出的六种不同情绪的语音库中,提取出韵律特征和频谱特征后,先是用HMM和推荐算法PNN(Product Network)对声学参数进行处理,再计算属于每种情感的比例。文献11中,屈玉涛等人采用支持向量机(Support Vector Machine, SVM)的分类算法,通过最大化不同数据之间边缘距离来提高学习及其各种方面的能力,能够构建出
24、更为精确的分类模型。还有许多国内外针对语音情感识别的文献,其中由于特征参数信息量过大,且数据总量也在不断增长,机器学习已经成为语音情感识别的主要方式。1.3.2 现存问题分析并且学习国内外的论文之后,可以得到的结论是:现在的语音情感识别技术尚处于初级阶段,许多理论知识和分析技术都存在一定缺陷,存在的缺陷主要可以分为三种:1. 现有的语料库中样本数量和质量都远不够要求;2. 语音情感特征参数的选取存在多样性,没有统一的选取标准;3. 识别算法千差万别。(1) 语料库问题语料库是语音情感识别系统的训练集和测试集的来源,可以说,足够的语料库样本数量很大程度上会帮助获得一个更高的识别准确率。抛开采集对
25、设备的要求和环境要求高不说,由于语言的差异和每个人发音的差异,获得一个标准语料库是有很大难度的,在以上几个条件都满足的情况下,语料库的基数问题就更难以满足。(2) 语音情感特征参数问题语音情感特征参数是从语音中提取的可以真正实际用于语音情感识别的参数,虽然现存有很多语音情感特征参数,但是各地研究者使用的参数并没有统一的选择组合。但是可以知道的是现存的几种常被人使用的特征参数有基音频率、短时能量、共振峰和梅尔倒谱系数(MFCC),虽然依靠这些语音情感特征参数都可以获得一定的识别准确率,但是都会受到或多或少的环境和所处背景影响。(3) 识别算法问题现存的文献中出现了各种各样的语音情感识别算法,这些
26、算法在某些方面都各有长处,但是也都存在一定的局限性。比如有些分类算法就对样本量较多的语料库有显著分类效果,但是对于小数量的样本效果不大;有些分类算法对小数量的样本就有极佳的分类效果。同时,有些算法对参数的依赖性很大,但是对数据的依赖性很小;但是也有一些分类算法对于数据的粘合性很高,调整参数并不会带来很大的改变。1.4 内容安排本文的进行是分为三个主要部分:语音信号的处理、分类算法的叙述和UI界面的设计。图1-2 内容安排本文采用了中科院自动化所的CASIA语料库作为样本,共有4位发声人,六种情感,分别是:高兴、生气、悲伤、害怕、平静和惊讶,每个人每种情绪都有50条语义不同的录音样本。在语音信号
27、与处理中会简要介绍一下几种处理步骤和意义,特征参数则是会列举出几种在整个设计中起到重要作用的特征参数来进行分析;分类算法的叙述则是对SVM的原理和核函数的选取进行详细的讲解,并且对我们进行的二叉树创新进行原理说明和实践,最后得出相应优化结论。最后是本文的系统设计和实验结果分析部分,是对我所做过的设计的整个总结和展望,给出了必要的数据。2 语音信号预处理及特征参数语音信号是一种模拟信号,不仅带有噪声,而且没有办法直接用于情感分类;这个时候就需要找到数字化以及提取可用参数的方法,预处理和语音情感特征参数解决了问题,并且有利于开展下一步分类器工作。2.1 预处理在对信号处理的时候,一般来说计算机能识
28、别并处理的信号是平稳信号。但是由于语音信号本质上,是一种非平稳的时变信号,所以对语音信号的预处理就是将非平稳时变非优质信号,转化并提取优质特征参数的必要条件14。在采集语料库的过程中即使做好了隔音和去噪措施,录取的语音信号中噪声和无声空白依然存在,而特征参数的提取需要高质量的语音信号。预处理是对语音信号的一个提纯和均衡,更是整个语音情感识别的第一步,具体包括数字化、预加重和加窗分帧等步骤1213。图2-1 预处理2.1.1 数字化语音信号是一种模拟信号,而根据计算机的工作原理,其可以处理计算的信号,都是数字信号,所以第一步就是数字处理。首先要对语音信号进行带通滤波,因为语音信号中人声所处频带在
29、4kHz以下,而且无声情况可以被滤除,防止混叠干扰。再进行自动增益控制,将语音信号的幅值控制在一个较为平均的范围内,下一步就是A/D转换,最后一步是PCM编码,编码之后就得到数字化成功的信号了。图2-2 数字化流程2.1.2 预加重由于人生理结构的决定性作用,语音信号在中低频段的能量都是比较大的,但是到了高频段,能量则是很有限,在进行一系列操作时,很有可能被衰减至没有,这就导致信息的丢失。衰减的速率是6dB/倍频,而这数字会随着频率的增高变得更大15。预加重就是解决这一现象的操作,首先我们对高频部分的信号进行“加重”,使得语音信号在高频和低频部分都均匀分布,提升了语音信号的可操作性。预加重采用
30、的是一个一阶滤波器,公式如下(2-1)是预加重系数,取值接近于1。最后可以将预加重后的信号表示为:(2-2)2.1.3 加窗分帧分帧其实是一种对语音信号持续细分的操作,将语音信号分为短时的“一段一段”的。分帧的原因是语音信号的不平稳时变特性,让我们在提取平稳信号的时候比较有难度,所以需要将语音信号分为10-30ms的短时平稳信号。分帧通常有两种方式,一是连续分帧,另一种是交叠分帧。由于语段之间采取交叠分帧更加连续,所以一般采用交叠分帧。我们将帧长称为N,而帧移帧与帧之间的交叠也就是重合部分帧长为M,即长为N的帧向右滑动的距离。交叠分帧的原理如下图(图2-3)所示:图2-3 交叠分帧从图中可以看
31、出,帧长为25ms,而帧移为10ms。分帧的具体操作则是需要借助窗函数来完成。分帧后的信号可以由窗函数和语音信号表示为式(2-3)(2-3)刚才说到分帧是截取N长的语音信号,每次移动M长度,直到整个语音信号被分段结束为止。这里截取语音信号的工具就是窗函数,而我们在数字信号处理中常用的窗函数有很多中,这里选取三个窗函数备选,分贝是矩形窗、汉宁窗和汉明窗。矩形窗:(2-4)汉宁窗:(2-5)汉明窗:(2-6)图2-4 矩形窗图2-5 汉宁窗图2-6 汉明窗总的来说,矩形窗的主瓣宽度最小而旁瓣的衰减最慢,汉明窗的主瓣最大而且旁瓣衰减远大于矩形窗,汉宁窗则是介于这两者之间16。截断效应是滤波和分帧之后
32、常常出现的现象,过于陡峭的矩形窗过渡带会频谱泄露,这个时候信号能量就会发生分散不利于分析利用。而窗函数就是为了克服这种现象而设计的特殊滤波器。2.1.4 端点检测端点检测顾名思义就是检测出有用信号的两端,以此为依据摒弃无用信号无声信号、噪声信号和过渡段数据。有用信号的两端就是起点和终点,检测到有用这两个端点后,非端点内的数据就可以去除,我们就可以得到优质的语音信号,这是关键一步。端点检测的难度存在于个体发音差异和环境差异,所以想要准确定位两个端点还是有一定难度。最常用的两种端点检测算法有短时能量算法和双门限检测算法17。本文选用的是双门限检测算法,双门限指代的就是短时能量和短时过零率这两个门限
33、,短时能量可以将无声信号和幅值较小的噪音去除,但是却没有办法将幅值较大的噪音去除,而经研究发现语音信号中噪声的短时过零率比有用信号要低很多18,所以这两种门限结合之后准确率和提纯效率是大大提高的。双门限检测可以分为三个部分:静音、过渡段、语音段。整个过程中设置了一个变量s来记录状态,当短时能量和过零率都超过了门限值,那么s从静音状态改变为过渡状态;处在过渡状态的s是一种不能确定到底是静音状态还是有效信息的状态,所以处在这个状态的s还要继续判断;如果检测到两个参数都低于了门限值,那么再次回到静音状态,但是某一个参数高于了门限值,那么这个时候s状态就可以变为有效信息状态。进入到有效信息状态的s并不
34、能就保证一定是语音信号,有些声音大又清脆的短时噪音也有可能被判断为语音信号从而进入有效信息状态,这个时候就不能将两个参数的门限值仅仅设置为一个数,而是应该结合时间参数进行判别。设置两个门限为带有时间限制的值,如果进入有效信号状态的时间低于门限值,那么返回静音状态,到达设置的时长之后就可以记录这一段语音信号了。端点检测流程图如下所示:图2-7 流程图2.2 语音情感特征参数人的语音中的情感具象量化之后,得到的就是不同的语音情感特征;语音情感特征参数,给我们可以通过计算机机器学习来判断的根据。而每种特征参数在不同情绪的相关表现度方面也有很多不同,而语音情感特征参数又可以分为韵律特征、音质特征和谱特
35、征。韵律特征最主要的两个分析指标是持续时间特征和能量特征。持续时间特征就是针对说话的快慢的特征参数,主要包括:语速,语音段帧数,静音段帧数,语音段区域大小,静音段区域大小和相对发音区域大小等等。人在说话的时候,语速和停顿是随着情感的不同而改变的,例如高兴时语速加快,悲伤时语速减慢,所以持续时间和情感相关性较高1920。能量是对人说话音量大小的概括,一句话的音量较大,能量就越高,信号幅度就越大;而音量较小,能量就越低,信号幅度就较小。而人的情绪和能量特征也有较强的相关性,处在愤怒情绪中的人说的话就具有较高的能量,而悲伤状态下的人说话就没有那么高的能量。语音信号中能量特征转化为标准化的表现方式就是
36、短时能量或短时幅度,而短时幅度会在计算时使小采样值大采样值不会因为平方而差异过大。谱特征一般来说是语音信号的短时表示,而韵律特征则是连续表示。采用短时表示是因为语音信号的产生和胸腔口腔内的多个器官有关,发音器官依赖肌肉控制,所以在短时间内不会发生较大的变化所以特征比较平稳,谱特征变化不大。经典的谱特征有短时傅里叶变换(Short-time Fourier transform,STFT), 线性预测系数(Linear Predictor Coefficients,LPC)21, Mel 倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)22,线谱对参数(
37、Line Spectrum Pair, LSP)23,感知线性预测倒谱系数(Perceptual Linear Predictive Cepstral Coefficients,PLP)24,短时连贯性(Short Time Coherence,SMC)25等。虽然有这么多种语音情感特征参数,但是本文选取的是比较优效果的四个语音情感特征参数:基音频率、共振峰、短时能量和梅尔倒谱系数(MFCC)。2.2.1 基音频率从名字我们就可以看出,基音就是声音的基础,而声音的基础就是声音震动。分析人的发生原理我们可以得知,人在说话的时候的语音信号由清音和浊音构成,而信号中浊音的声带振动频率就是基音频率,也
38、就是基音周期的倒数;因为是人声带基础的震动频率,所以一般来说基音频率和性别有着很大的关系,女性的声音又尖又细,所以有着较高的基音频率,而男性的声音相对来说就要低沉浑厚一些,所以基音频率较低;同样的,孩童和青年人的基音频率较高,老年人的基音频率较低26。从直观上理解,基音频率和人的情感有比较密切的关系;比如当一个人比较愉悦时,他发出的声音就会比较高亢,而将这种感受转化为基音频率的描述就是声音的频率较高;当人情绪比较低沉的时候,比如悲伤的时候,发出的声音也会比较低沉。基音频率的提取主要有三种方法:(1) 时域法,通过语音波行烙直接估计基音周期,平时常用的有:短时自相关法、并行处理发和平均幅度差法等
39、;(2) 频域法,这种方法比时域法要复杂许多,首先将语音信号变换到频域,然后求取基音周期,其中最常用的方法就是倒谱法;(3) 混合法,即混合时域法和频域法,首先提取信号的声道模型参数,在滤波后得到音源序列,最后利用时域法求得基音周期。本文采用的方法是时域方法中的短时自相关。的自相关函数可以定义为:(2-7)公式的直观含义就是一个信号和它单位之后信号的相似程度,也就是自相关程度,而能通过短时自相关函数获得基音周期的原因,是在整数个周期时,自相关函数可以得到最大值。而能量有限的短时自相关函数可以表示为:(2-8)图2-8 短时自相关求取基音频率实例图2-9 基音周期走势图在使用上述方法提取出基音频
40、率后,需要计算基音频率的最大值、最小值、平均值、方差、一阶差分值和变化率,其中变化率是一阶差分值绝对值的平均值。表2-1 基音频率统计特征值基音频率特征数学表达式基音频率最大值基音频率最小值基音频率均值基音频率方差基音频率一阶差分基音频率变化率2.2.2 短时能量短时能量是另外一个比较直观的语音情感特征参数,短时能量是属于韵律特征的一种,可以理解为短时发出的语音信号的幅度。短时能量和人语音情感的关系,直观的解释就是人在高兴或者愤怒的时候,由于情绪激动,发出的声音会大很多,这个时候短时能量就大;然而当人处于悲伤焦虑的情绪中时,给人感受声音就会不自觉的小很多,这个时候短时能量就小。短时能量的公式为
41、:(2-9)其中就是我们要求得的时刻的短时能量,而则是代表了窗函数,就是窗的长度,窗的长度很大程度上决定了短时能量的绝对大小,如果比较大的话,总体上信号的短时能量变化程度并不是很大,但是如果的值比较小的话,信号的变化规律难以解读。由测试时数据可知,高兴和生气时的短时能量远远高于悲伤、害怕和平静;但是到了下一步进行区分的时候就出现了问题:高兴和生气都是人在情绪比较激动的时候发出的语音信号,短时能量相差无几,但是生气的变化稍快一些。图2-10 高兴的短时能量图2-11 生气的短时能量图2-12 悲伤的短时能量图2-13 害怕的短时能量图2-14 平静的短时能量最后是对短时能量进行统计特征值的计算,
42、包括最大值、最小值、平均值、方差、一阶差分和变化率。2.2.3 共振峰共振峰和上述两种不同,它是一种音质特征,而音质特征反映的更多的就是声道的变化,声道在情感不同的时候自然也有不同的表现,那么这个时候提取出来的具有代表性的音质特征就会有相应的改变。同时,共振峰还可以反映声道的物理特征,但是本文中对此类特征并没有特殊用处,故不详细说明。共振峰是在声音中其能量比较集中的区域,所以提取共振峰参数的本质,其实就是去提取语音信号中包络最大值,这个时候怎么去提取整个语音信号的频谱包络就显得尤为重要。提取共振峰的方法比较多,其中我们平时常用的方法有:线性预测法(Linear prediction coeff
43、icient, LPC)、倒谱法和带通滤波器组法。本文采用的是LPC线性预测方法。首先线性预测方法可以避免虚假峰值的现象,在线性预测之前的方法中,出现虚假峰值,抢了“共振峰”的风头是经常出现的差错。再然后,线性预测法可以有效避免高音调,也就是频率较高时候的峰错位,得到更加准确的预测结果。而线性预测法通常可以通过两种方式实现:一是可以通过标准程序来寻找复根,计算同时可以预测误差滤波器的根,这种方法叫做求根法;二是找出由初步预测器筛选得到的频谱包络中的局部峰值,这种方法则称为选峰法。线性预测法的过程可以表示为:(1) 利用公式(2-10)求出预测系数:(2-10)式中的为增益常数,为线性预测常数,
44、这两个常熟均可以通过输入的语音信号直接决定。而则是阶数。(2) 经过FFT变换之后可以求得声道的传递函数功率谱响应曲线:(2-11)式中的代表的是语音信号的采样频率。(3) 最后通过峰值检测得到我们所要的共振峰频率。最后是对共振峰频率进行统计特征值的计算,包括最大值、最小值、平均值、方差、一阶差分和变化率。2.2.4 梅尔频率倒谱系数MFCC梅尔倒谱系数近几年来应用更多一些,主要是应用在深度学习关于语音检测识别方面的应用。这里,我们使用梅尔倒谱系数更多的是为了识别高兴、生气和悲伤、平静、害怕的情感,因为梅尔倒谱系数基于的原理就是人耳听觉系统的实际感知能力,人耳听觉系统对于高频率和低频率的信号感
45、知程度是有很大分别的,而1000Hz其实就是一个分水岭,人耳感知1000Hz以下的语音信号时感应程度是线性分布,而1000Hz以上时则是对数分布。所以这个时候我们就可以根据模拟人耳的感知程度来模拟对高频信号的识别,就像人的耳朵对于害怕和对高兴语音感受到的音量是完全不同的。MFCC和线性频率的转换关系可以用式(2-12)来表示:(2-12)就是线性频率,由公式我们可以看出,MFCC和线性频率其实是正相关,但是由于是对数关系,在线性频率增加较快的时候,MFCC依然是在缓慢地增加。提取MFCC的流程图可以表示为:图2-15 提取MFCC的流程图MFCC 具体的提取过程可以表示为以下几步:(1) 对语
46、音信号进行预处理和FFT 变换,得到频域表达;(2) 对频谱进行谱线能量计算得到能量谱,这个时候再将能量谱送入滤波器:(2-13)其中是滤波器的频域表达式,是三角形滤波器。(3) 对数运算每个滤波器组的能量后送入DCT(离散余弦变换)得到MFCC系数:(2-14)最后是对共振峰频率进行统计特征值的计算,包括最大值、最小值、平均值、方差、一阶差分和变化率。最后以上所有特征值都要进行归一化的操作,因为在分类器,为保证所有特征值都有均等的贡献,所以要将特征值都设为相同的量纲,即归一化操作。3 基于SVM支持向量机的语音情感识别从语音信号中提取了必须的语音情感特征参数之后,下一步就是将这些特征参数应用
47、起来,放入分类算法中,进行真正的分类工作。分类算法的选取直接决定了这个分类系统的好坏,更是对准确率有决定性作用。在选择究竟使用哪种分类算法的时候,本文先是进行了一系列的比较。许多研究者都采用了机器学习这个大范畴内的算法来进行语音情感识别,常见的算法有:线性分类器(Linear classifier,LC)28,隐形马尔可夫模型(Hidden Markov Model,HMM)29,神经网络(Neural network, NN)30,支持向量机(Support Vector Machines,SVM)31,K近邻法(k-Nearest Neighbor,KNN)32等。这里主要介绍三种分类算法:隐形马尔可夫模型,神经网络,支持向量机33。最后选取的支持向量机(Support Vector Machine)作为分类算法,原因主要是支持向量机字各个空间中都有比较好的表现,根据统计学和结构最小的原理,不仅带有机器学习的特性,学习能力很强,而且也兼顾到了模型的复杂性,这样综合平衡之后最综合最优的性能也就得以体现了 34。而且在支持向量机进行分类运算的时候,即使没有办法做到线性分类,也可以将非线性问题通过核函数映射到更高的维度中,转化为线性问题以通过通用解法