一种改进的CGGMM和谱激励联合语音转换技术研究硕士.doc

上传人:豆**** 文档编号:17174016 上传时间:2022-05-21 格式:DOC 页数:55 大小:1.44MB
返回 下载 相关 举报
一种改进的CGGMM和谱激励联合语音转换技术研究硕士.doc_第1页
第1页 / 共55页
一种改进的CGGMM和谱激励联合语音转换技术研究硕士.doc_第2页
第2页 / 共55页
点击查看更多>>
资源描述

《一种改进的CGGMM和谱激励联合语音转换技术研究硕士.doc》由会员分享,可在线阅读,更多相关《一种改进的CGGMM和谱激励联合语音转换技术研究硕士.doc(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流一种改进的CGGMM和谱激励联合语音转换技术研究硕士.精品文档.学科门类: 工学 分 类 号: 论文编号: 硕101 密 级: 硕 士 学 位 论 文论 文 题 目 一种改进的CG-GMM和谱激励联合语音转换技术研究 专 业 名 称 信号与信息处理 研 究 方 向 现代语音通信技术 论文提交日期 2010-3-7 摘 要语音转换是指改变一个人(源说话人)的语音特征,使之具备另一个人(目标说话人)的语音特征,从而使源说话人的语音听起来像目标说话人的语音的一种语音处理技术。该技术无论在商业领域还是在实用领域都有良好的发展前景和巨大的应用价值。本文

2、首先对LPC倒谱和线谱对LSF两种参数的转换性能进行比较;然后在现有的基音周期检测方法的基础上,提出一种基于Hilbert变换的残差倒谱基音周期检测方法,该方法能够提高基音检测的准确性。其次重点研究了基于GMM的频谱包络转换方法,并对现有的CG-GMM方法进行改进,通过引入后验概率门限将GMM和VQ很好地结合起来,既避免了VQ的非连续性又减轻了CG-GMM的过平滑性。 最后对谱激励转换方法进行改进:基于MMSE准则,引入一个权重因子,将预测目标激励和残差波形转换这两种方法很好地结合起来,获取比较好的激励信号。本文利用MATLAB仿真,从主、客观两个方面对系统的性能进行评价。仿真结果表明,本文提

3、出的改进方法能够取得较好的效果。关键词:语音转换,谱包络转换,高斯混合模型,谱激励转换,Hilbert变换,基音标注,后验概率门限ABSTRACTVoice conversion is a technology about that changes one persons (source speaker) voice character into another speakers (target speaker) voice character, so that the source speakers voice sounds like the target speakers voice. T

4、he technology has good prospects in business and practical areas.Firstly, this paper compares LPC cepstral parameter and LSF parameter;Then it proposes a new residual cepstral pitch detection algorithm that based on Hilbert transform,This algorithm can improve the accuracy of pitch detection.Secondl

5、y, this paper proposed a new method based on the existing CG-GMM method which combines the GMM algorithm and the VQ algorithm by introducing posterior probability threshold. This method not only reduces the problem of non-continuity but also relieves the over-smoothing problem.Finally, this paper im

6、proves the traditional spectral excitation conversion method by combining the predicted target residual method and residual waveform conversion method,Simulation results show that the methods proposed in the paper can achieve better effects.Keyword: Voice Conversion, Spectral Envelope Transformation

7、, Gaussian Mixture Model, Spectral Excitation Transformation, Hilbert Transform, Pitch Marking, Posterior Probability Threshold.目 录摘 要IABSTRACTII目录III第一章 绪论11.1语音转换的研究意义11.2语音转换的研究现状21.3语音的特性描述31.3.1语音的产生机理31.3.2语音的数学模型51.4语音转换的评价方法61.4.1客观评价方法61.4.2主观评价方法71.5本文的研究内容和组织结构8第二章 语音转换技术研究102.1语音转换框架102.

8、2语音模型112.3语音预处理122.4线性预测分析142.4.1线性预测分析原理142.4.2两种推演参数的比较162.5频谱包络转换192.5.1矢量码本映射(VQ)192.5.2高斯混合模型(GMM)212.6语音合成232.7本章小结24第三章 基音检测方法研究253.1基音周期转换方法253.2基音周期转换仿真结果263.3基音周期估计273.3.1自相关法(ACF)283.3.2平均幅度差函数法(AMDF/SMDF)303.3.3倒谱法(CEP)313.3.4残差倒谱基音检测法(LP-CEP)323.3.5一种新的基于Hilbert变换的残差倒谱基音检测法343.4语音的基音标注3

9、63.5本章小结36第四章 一种改进的CG-GMM和谱激励联合转换研究374.1基于CG-GMM的语音转换研究374.1.1传统GMM存在的问题374.1.2语音转换的算法研究374.1.3后验概率门限404.1.4 CG-GMM转换方法的研究414.1.5 改进的CG-GMM转换方法研究434.2谱激励转换研究464.2.1声门波激励464.2.2谱激励转换的研究现状474.2.3传统的谱激励转换方法474.2.4改进的谱激励转换方法504.3本章小结52第五章 实验结果及性能研究535.1实验平台和框架535.1.1实验平台535.1.2实验框图535.1.3实验结果555.2客观测试结果

10、605.3主观测试结果615.4本章小结62第六章 总结与展望636.1本文工作总结636.2 今后研究展望63第一章 绪论1.1语音转换的研究意义语音转换(VT, Voice Transformation或VC, Voice Conversion)是指将一个说话人(源说话人, Source Speaker)的语音特征转换成另一说话人(目标说话人,Target Speaker)的语音特征,这就要求在转换过程中改变源语音个性化信息的同时保持语义信息不变,使源说话人的声音听起来像目标说话人的声音。语音转换技术最初属于语音识别的技术范畴,对说话人语音特征的转换主要有两大方面:音段特征的转换和韵律特征

11、的转换。音段特征一般由语音的频谱包络表示;韵律特征(超音段特征)则由基音周期、时长、能量表示。语音转换技术有着良好的发展前景和巨大的应用价值,具体体现在以下几个方面:(1)在文语转换系统中的应用(TTS,Text-To-Speech)。所谓文语转换就是指将文本文件通过一定的软硬件转换后由计算机或者电话语音等系统输出语音的过程,现有的文语转换系统无论采用哪种方法,最终合成的语音的个性特征都是单一的,缺乏个性化的特征,但如果在合成语音的过程中进行相关的语音转换处理,那么合成出来的语音就增加了说话人的个性特征。(2)在保密通信中的应用。例如将说话人的语音特征参数在一定的规则下进行转换,相当于对语音进

12、行“加密”处理。这样在传输过程中即使是被窃听,也很难猜测出接收的语音内容。(3)在医学领域的应用。在医学上可以将语音转换用于恢复受损的声音,提高一些声道受损的人的语音质量,增加受损声音的可懂度。(4)在电影配音中的应用。在很多电影中我们听到的声音是配音演员的声音,而配音演员跟演员本人的语音个性特征差别很大,因此效果不是很好。若是运用语音转换技术使配音的人具有与演员本身相同的语音特征,效果就会好很多。(5)在一些特殊场合的应用。例如潜水员在深海下的氦气里发出的声音清晰度很低,如果不做任何处理,几乎无法听懂。利用语音转换技术可以提高语音的清晰度。 1.2语音转换的研究现状 在过去近二十年中,语音转

13、换引起了人们的重视,一些语音学者相继在这方面做了很多工作。国外的研究状况:Abe提出了基于矢量量化的码本映射进行频谱包络转换的方法,取得了较好的效果,但此方法存在频谱不连续的缺点,造成转换后的语音的音质不佳;Arslan对此进行改进,提出加权矢量量化法;Mizuno则提出了提取共振峰并对各共振峰分别采用线性转换的方法实现谱包络的转换;Narendranath采用BP神经网络来实现共振峰值的转换; Stylianou和Kain采用GMM法对谱包络参数进行建模,克服了矢量量化法在转换时引起的不连续现象;Iwahashi提出了采用说话人语音插值的方法来实现谱包络参数的转换;Valbret提出采用线性

14、多变量回归法(LMR, Linear Multivariate Regression)和动态频率弯折(DFW, Dynamic Frequency Wraping )法进行谱包络的转换;Stylianou提出的GMM法虽然能够克服矢量量化法引起的不连续问题,得到较好的音质,但是会出现共振峰过平滑的问题,对此Toda提出采用DFW法和GMM法相结合的方法;Lee将语音的LPC倒谱分解为时间变化(time-variant)部分和时间不变(time-invariant)部分,对时间变化部分进行转换;Duxans对GMM频谱包络转换法进行扩展,采用与音素相关的HMM技术进行谱包络转换,以此来实现语音动

15、态特征的转换;Rentzos采用HMM对共振峰的频谱特征进行建模转换;Tamura在基于HMM的语音合成系统中采用MLLR(Maximum likelihood linear regression)技术合成出多样语音;Seneff通过估计频谱包络的方式,将语音信号解卷积,得到语音信号的激励,这一方法避免了提取基频的问题;Kuwabara采用分析-合成的方法进行语音转换,通过线性预测解卷积算法将语音信号分解为嗓音源信号和声道传输函数,通过求解声道传输函数的零点得到共振峰的位置,同时采用线性预测的残差信号作为激励来合成语音;Childers采用基于固定长度帧的非基音同步的方法和信号相关的方法来进行

16、分析,并采用了脉冲信号三角波信号Fant嗓音源信号LF微分声门波信号以及DEGG信号作为激励源,利用线性频谱搬移和分析合成的方法,进行男女音之间的转换,取得了较好的效果。 国内的研究状况:初敏等人采用TD-PSOLA方法进行男女语音转换研究:基音周期的变换采用TD-PSOLA法来实现,而声道响应特性的转换则通过采样的方法来实现;王聪修对噪音源特性进行研究:基于嗓音源模型进行韵律转换,谱包络转换采用线性和非线性频谱搬移的方法实现实现男女语音的转换。1.3语音的特性描述1.3.1语音的产生机理语音就是人类说话的声音,是语言信息的表现形式。人的发音器官(肺、气管、喉、咽、鼻、口)共同形成一条形状复杂

17、的管道,喉的部分称为声门,从声门到嘴唇的呼气通道称为声道(Vocal Tract),声道形状的不断改变发出不同的声音。图1-1 “中央革命根据地”(16KHZ抽样、16bit量化)波形图现将语音的声学参数介绍如下:音色:也叫音质,是一种声音区别于另一种声音的基本特征。音长:声音的长短,取决于发声时间的长短。音调:声音的高低,取决于声波的频率。音强:声音的强弱,由声波的振动幅度决定。音节(syllable):说话时一次发出的、具有一个响亮中心、并被明显感觉到的语音片段叫做音节。音素(phoneme):一个音素或者几个音素构成一个音节,它是语音发声的最小单位,现在很多语音转换的研究都是基于音素的研

18、究。元音(vowel):元音的一个重要特征是共振峰(formant)。共振峰:当元音激励进入声道时会引起共振特性,产生一组共振频率简称共振峰。语音一般由三到五个共振峰表示(如图1-2)。辅音(consonant):辅音只出现在音节的前端或后端,它们的时长和能量与元音相比都很小,发辅音时声带是否振动引起浊音和清音的区别。浊音(voice):当气流通过声门时,如果声带的张力刚好使声带产生较低频率的张弛振荡,形成准周期的空气脉冲,那么这些空气脉冲激励声道就会产生浊音(如图1-3)。清音(unvoice):如果声道中某处面积很小,气流高速冲过此处时产生的湍流就是清音(如图1-4)。基音频率:浊音的声带

19、振动基本频率,一般用表示,的变化轨迹称为声调轨迹,反映韵律特性。一般情况下,平均基频随着年龄的增加而降低,女音的平均基频要比男音的平均基频高。基频的分布范围反映发音人的声带振动频率的可调程度,男音的基频范围大约为60200HZ,女音和儿童的基频范围大约为200450HZ。图1-2 语音谱包络的共振峰特性图1-3浊音(voice)波形图图1-4清音(unvoice)波形图关于各声学参数对语音的个性贡献大小的问题,Matsumoto研究得出:基音频率均值贡献最大,其次是共振峰频率,然后是基音频率的波动和声源频谱倾斜;Takagi研究得出:共振峰频率对说话人个性贡献最大,基音频率和共振峰带宽次之;F

20、urui研究得出:由倒谱系数得到的长时平均谱包络对语音的个性特征贡献最大,特别是2.53.5KHZ频率范围的谱包络,平均基音频率为其次;Nakatsui认为基音频率比声道共振特性对语音的个性贡献大;Itoh等认为频谱包络对语音的个性特征影响最大,其次是基音频率和它们的时间轮廓结构。虽然学者们的观点各不相同,但可以肯定,无论哪个声学参数都无法包含所有的语音个性信息,语音的个性特征是许多声学参数共同作用的结果。1.3.2语音的数学模型根据发音器官和语音产生机理的分析,语音的数学模型可以用激励模型、声道模型和辐射模型三个模型串联表示。图1-5给出语音发声的数学模型,其中是激励信号,浊音时是声门脉冲,

21、清音时为随机噪声;是声道传输函数,既可用声管模型描述也可用共振峰模型来描述,实际应用中我们常常将其看作全极点模型,其中H(z)的极点对应于共振峰的位置。 (1-1)则是辐射模型函数,一般用一阶高通的形式表示: (1-2)其中为语音的自相关函数,对于浊音,对于清音该值很小。周期脉冲发生器基音频率F0声门脉冲模型G(z)随机噪声发生器声道模型H(z)辐射模型R(z)AvAu激励模型声道模型辐射模型图1-5 语音发声的数学模型1.4语音转换的评价方法 语音转换性能评估也是语音转换的重要组成部分。最后合成的语音的评价指标主要有可懂度、自然度和清晰度等,单纯用一种评估方法很难完全评估语音的质量。一般来说

22、从主观和客观两个方面对转换后的语音进行评价。1.4.1客观评价方法语音转换的客观评价方法一般是建立在语音幅度谱的具体数值上进行的,通过数学计算结果得出。一般从频谱失真度、信噪比、说话人辨识三方面对语音进行客观评价。下面简单介绍这三种评价标准。1、频谱失真度:所谓频谱失真测度(SD: Spectral Distortion)是指采用与源语音、转换语音、目标语音间的频谱失真度SD相关的方法来评估语音,是语音转换领域广泛采用的客观评价方法: (1-3)式中用表示转换后的语音频谱参数,用表示目标语音的频谱参数,表示用来测试的语音帧的数目。也可以使用相对的频谱失真测度表示: (1-4)式中、分别表示目标

23、语音、转换后的语音和源语音的频谱包络,值越小说明转换后的语音越接近于目标语音。2、信噪比:噪音比(SNR)是语音编码和语音增强中最常用的客观评价方法,也可以借用到语音转换的客观性能测评中。 (1-5)式(1-5)中表示转换后语音矢量,表示目标语音矢量,SNR值越大表示转换后的语音效果越好。3、说话人辨识:说话人辨识也可以用来对语音转换效果进行评估,其主要思想是:将转换后的语音作为说话人识别系统的输入,以确定目标说话人辨识的似然性,然后用目标说话人和源说话人的对数似然比作为说话人决策的置信度测量。1.4.2主观评价方法主观评价方法是根据人的主观听觉按照一定评价标准给出被测试语音的判断结果得一种方

24、法,主要有ABX测试和MOS分测试:1、ABX测试:这是应用比较多的一种方法。测试中的X表示语音转换系统转换后的语音,A和B分别表示源说话人的语音和目标说话人的语音。测试时,通过人的主观判断转换后的语音X是像源说话人的语音A,还是像目标说话人的语音B。ABX的测试可以表示为: (1-6)其中表示第个测试人员对第个语句的打分情况,的取值为1或者0。2、MOS分测试:MOS分评价方法是指参与评价的人从语音的可懂度、自然度和清晰度等角度出发,给出综合衡量语音的分数。将MOS分评分标准用于语音转换系统时评分标准分为从5分到1分共五个等级,5分表示转换的语音效果最好,最能逼近目标说话人的语音,1分则表示

25、转换的语音效果最差。表1-1 MOS判分标准得分质量评价失真程度5优察觉不到失真4良稍微能察觉到失真但无不舒适感3中能察觉到失真且有不舒适感2差有不舒适感但能忍受1劣很不舒适且不能忍受 (1-7)其中是总共的票数,是得某种分的票数,是其中的某个分值,其值为。1.5本文的研究内容和组织结构语音转换是语音处理领域一个比较新的研究课题,本文首先对语音的两种推演参数LPC倒谱和LSF参数的转换性能进行比较;接着在现有的基音周期检测的基础上,提出一种新的基于Hilbert变换的残差倒谱基音周期检测方法;其次对现有的CG-GMM方法进行改进,通过引入后验概率门限将GMM和VQ很好地结合起来,既避免了VQ的

26、非连续性又减轻了CG-GMM的过平滑;然后对谱激励转换方法进行改进:以MMSE准则为基础,将预测目标激励和残差波形转换两种方法结合起来,获取比较好的激励信号;最后从主、客观两个方面对改进后的性能进行评价。本文的内容安排如下:第一章:绪论,首先简单介绍了语音转换的研究意义与研究现状;其次简要描述语音产生机理和数学模型;最后给出语音转换的主、客观评价标准。第二章:语音转换技术研究,首先给出语音转换的系统框架,其次研究了转换中的各个关键部分:模型的选取、语音的预处理、参数提取涉及到的线性预测分析、训练函数、语音合成;最后对LPC倒谱和LSF参数的转换性能进行比较。第三章:基音检测方法研究,首先对基音

27、周期的转换方法-均值法和高斯转换法进行比较;其次在现有的基音周期检测方法的基础上提出了一种新的基Hilbert变换的残差倒谱基音检测方法,该方法能够提高基音检测的准确性。第四章:一种改进的CG-GMM和谱激励联合转换研究,首先对现有的CG-GMM方法进行改进,通过引入后验概率门限将GMM和VQ很好的结合起来,既避免了VQ的非连续性又减轻了CG-GMM的过平滑; 然后对谱激励转换方法进行改进:以MMSE准则为基础,引入一个权重优化因子,将预测目标激励和残差波形转换这两种结合起来,获取比较好的激励信号。第五章:实验结果及性能研究,本章给出课题的实验平台、实验框图和实验结果,并从主、客观两个方面对转

28、换后的语音进行评价。仿真结果表明,本文提出的改进方法无论在频谱包络方面还是谱激励方面都好于传统的CG-GMM算法。第六章:总结与展望。第二章 语音转换技术研究2.1语音转换框架1.语音的分析-合成框架一般来说整个语音的分析-合成系统框架如图2-1所示:首先对语音进行参数提取;然后对语音的基音、声门波形状、共振峰、增益控制各个部分进行处理;最后合成语音。语音信号参数提取清浊音判断改变波形改变形状改变参数修正波形增加/减少基音抖动合成语音提取浊音增益扰动增益包络基音波形基音周期增益控制声门波形状共 振 峰基音部分增加/减少增加/减少分析阶段修正阶段合成阶段图2-1语音的分析-合成框架下面我们给出具

29、体的语音转换框图即图2-2。一般来说语音转换分为两个阶段:训练阶段和转换阶段。训练阶段:首先提取源、目标说话人的特征参数;其次对这两组特征参数进行对齐;最后训练对齐后的特征参数,得到源、目标说话人之间的转换规则。转换阶段:提取源语音的特征参数,用训练阶段得到的转换规则进行转换,最后合成语音。源说话人语音语音转换规则特征参数提取训练目标说话人语音特征参数提取对齐源语音特征参数提取语音转换语音合成转 换 阶 段训练阶段图2-2 语音的转换框图从图2-2中可以看出,语音转换的关键部分包括:语音模型的选取、语音特征参数的提取、语音训练方法的选择、语音合成。接下来分别介绍这几个部分。2.2语音转换的系统

30、模型语音模型的选取在语音转换中起着关键作用,一个好的模型的标准是最能够描述语音的个性特性,当然模型的选择也受很多因素的影响,例如模型复杂度、计算量大小、训练数据的多少,因此选择一个模型要综合考虑各个因素。声源-滤波模型:语音转换的研究大都基于声源-滤波模型,具体来说,声源-滤波模型主要有LPC分析-合成模型和基于倒谱包络的语音模型。LPC分析-合成模型是应用较多的语音模型,该模型基于线性预测分析原理,符合语音的产生原理,它将语音有效地分解为谱包络和激励两个部分,一般来说,谱包络部分由LPC系数及其推演参数描述,激励部分由LPC残差描述,这样谱包络的转换可以通过对LPC及其推演参数来实现,韵律转

31、换也可以通过对LPC残差的转换来实现,而且该模型简单、方便、计算量小。正弦模型:该模型将语音信号看作是由一系列正弦波叠加而成: (2-1)其中是角频率,是相位,是幅值,是正弦波的个数。在实际应用中一般采用谐波+噪声模型(HNM),这是因为谐波+噪声模型能更准确地反映语音波形信息,更容易实现语音音色转换的合成输出。一些研究表明该方法比LPC方法得到更多的谱包络细节,但是该模型比较复杂,而且计算量比较大。STRAIGHT模型:STRAIGHT(Speech Transformation and Representation using Adaptive Interpolation of weigh

32、ted spectrum)模型是近年来提出的一种新模型,利用该模型进行语音转换有三大优点:(1)在时-频域利用音节自适应重建语音信号;(2)能够可靠且准确地提取参数,在提取参数时一般采用1ms间隔;(3)利用人为的相位全通滤波器来提取源语音的特征参数。同样,该模型比较复杂、计算量大、对语音的建模要求也比较严格。本文采用简单、方便而且计算量小的LPC分析-合成模型,该模型基于线性预测分析,关于线性预测分析在2.4节介绍。由于语音是时变的连续信号,因此在对语音进行分析研究前首先要对语音进行相关的预处理,接下来介绍语音的预处理。2.3语音预处理虽然语音信号具有时变特性,但是在一个短时间范围内(一般认

33、为1030ms),其特性基本保持不变,因此可以将语音看作是一个准稳态过程,即语音信号具有短时平稳性。所以任何语音信号的分析和处理都必须建立在“短时”的基础上,即要进行“短时分析”40。图2-3是语音短时分析的前期处理部分,该部分包括语音的放大滤波、采样量化、预加重和分帧加窗。声音源放大、滤波A/D预加重分帧、加窗端点检测特征提取图2-3 语音预处理过程预处理:语音信号的平均功率谱受声门激励和口鼻辐射的影响,高端在800HZ以上按6dB/倍频程跌落,运用预处理技术可以提升高频分量,使信号的频谱变得平坦,保持在整个频带中能用同样的信噪比求频谱,便于频谱分析或声道参数分析。预处理一般用一阶的数字滤波

34、器表示: ,在本文中我们取。 分帧:一般每秒的帧数约为33100帧,本文所用的语音均采用16KHZ采样、16bit量化,选取的语音帧长为320个采样点(20ms),为了使帧与帧之间平滑过渡,保持连续性,我们采用160个采样点作为帧移实现语音的交叠分段。加窗:在时域,一般是用一个长度有限的窗函数截取一段语音信号来进行分析,并让这个窗滑动以便分析任一时刻附近的信号。一个好的窗函数的标准是:窗口边缘两端不应急剧变化、减小截断效应、频域要有较宽的带宽及较小的边带最大值。在进行语音分析时,用的比较多的窗函数是矩形窗、汉宁(Hanning)窗和汉明(Hamming)窗。分别介绍如下:(为窗长):矩形窗:

35、(2-2)汉宁窗: (2-3)也可以写为: (2-4)汉明窗: (2-5)也可以写为: (2-6)表2-1几种窗函数的性能比较窗函数主瓣宽度旁瓣峰值衰减(dB)阻带最小衰减(dB)矩形窗4/N1321汉宁窗8/N3144汉明窗8/N4153本文的实验均基于移动的汉明窗(Hamming)来实现语音的分帧加窗。端点检测:端点检测的目的是确定一段语音的起始点和终止点。有效的端点检测不但能使处理时间减到最少(分析帧数减少),而且能排除无声段的噪声干扰,提高处理质量。对于前端本文采用双门限(过零率和短时能量)检测算法代替传统的单门限(过零率)检测法;对于后端我们用短时能量进行处理,一般只要短时平均幅度值

36、降低到该音节最大短时平均幅度的1/16左右就可以认为该音节结束。图2-4 端点检测前后语音波形图对比2.4线性预测分析2.4.1线性预测分析原理线性预测分析是用过去的个样点值来预测现在或未来的样点值: (2-7)则预测误差为: (2-8)由1.3.2节介绍的全极点模型可知,语音抽样信号和激励信号之间的关系可以用下列的差分方程来表示: (2-9)从公式(2-9)中可以看出,语音样点间存在相关性,因此可以用过去的样点值来预测未来得样点值。在模型参数估计过程中,把下面的系统称为线性预测器: (2-10)式中称为线性预测系数。这样,阶线性预测器的系统函数具有如下形式: (2-11) (2-12)公式(

37、2-12)中,称为逆滤波器。通常在最小均方误差准则(MMSE)下求预测系数的最佳估值。有关的MMSE准则的内容将在4.1.2节中介绍。在求解线性预测方程时,的选择是非常重要的,应该从频谱估计精度、计算量、存储量等多方面考虑。选取的原则是首先保证有足够的极点来模拟声道特性的谐振结构。图2-5预测误差(纵轴)和阶数(横轴)的关系图从图2-5中可以看出:随着的增加预测误差会有所下降,但是到一定的程度基本趋于平缓。本文取预测阶数。2.4.2两种推演参数的比较1)LPC倒谱LPC倒谱一般通过信号的傅立叶变换,取模的对数,再求反傅立叶变换得到,如图2-9所示:信号DFT取对数IDFT图2-6 LPC倒谱的

38、定义 (2-13)其中为倒谱系数,为LPC系数。 (2-14)公式(2-13)给出倒谱系数和LPC系数的关系式,也可以直接利用公式(2-14)从预测系数中求倒谱系数。2)线谱对LSF参数线谱对参数是线性预测参数的另一种表示形式,首先它是频域参数,所以和信号的谱包络有更紧密的联系;其次它具有良好的量化特性和内插特性,使 LSF在整个频率轴上的稀疏直接对应频谱的峰与谷;最后使用LSF产生的误差只会影响到局部的谱结构,不会扩散到整个频谱上,使得相同质量的合成语音所需的数码率得以降低。图2-7 LPC参数转换的基音频率图(女转男)图2-8 LPC倒谱转换的基音频率图(女转男)图2-9LSF参数转换的基

39、音频率图(女转男)图2-7到2-9为女声转换成男声的基音频率图:实线为源语音的基音频率,虚线为目标语音的基音频率,夹点的虚线为转换后的语音的基音频率。从这几个图中可以看出:用LPC方法转换的效果最差,其次是LPC倒谱方法,效果最好的是线谱对转换,而且LPC倒谱在低频处的谱包络不准确,得到的激励谱的包络不够平坦,合成的语音质量也不高。本文采用有序有界、抗干扰、误差相对独立、保证合成滤波器稳定量化、与频谱包络的共振峰和带宽很好地对应的LSF参数进行语音转换。图2-10是用LSF参数得到的频谱包络图。图2-13 FFT频谱图和LSF频谱包络2.5频谱包络转换在语音转换中,频谱包络的转换是一个重要方面

40、,语音频谱承载了说话人特征的重要信息,语音频谱的转换是当前语音转换技术的首要内容。一般情况下,在对源说话人和目标说话人的语音特征参数训练之前,首先需要对源说话人和目标说话人的特征矢量用DTW(动态时间规整)进行时间对齐;接着采用某种训练方法得到源、目标说话人的转换函数;最后对源说话人的频谱进行转换。频谱包络转换的主要方法有矢量量化法(VQ)、高斯混合模型法(GMM)、隐马尔可夫模型法(HMM)、人工神经网络(ANN)、说话人插值法、线性多变量回归法(LMR)和动态频率规整(DFW)等。下面主要介绍VQ和GMM方法。2.5.1矢量码本映射(VQ)矢量码本映射方法(VQ)是语音转换中早期采用的一种

41、方法,其主要思想为:将矢量量化法非特定人的语音识别应用于说话人自适应。Abe较早采用基于矢量量化的码书映射方法进行频谱包络的转换,Arslan也采用这种方法。其实现过程如下:首先对源说话人和目标说话人的语音频谱参数空间进行量化,使源语音和目标语音的码向量一一对应,分别得到个源语音的码向量和个目标语音的码向量;然后通过训练得到由每一个源说话人语音码向量到个目标说话人的语音码向量的映射码书,为的矩阵。映射码书的建立过程如下:(1)由源和目标说话人产生学习单词集,然后对所有的单词逐帧进行量化。(2)用动态时间规整技术(DTW)对两个说话人的相同的单词向量进行对齐。(3)将两说话人之间的向量对应关系累

42、积成柱状图,用柱状图作为加权系数,映射码书就是目标语音向量线性合成时的加权系数。在转换阶段,先将源语音的谱包络系数量化为源语音向量空间的个码向量,然后用训练阶段得到的映射码本对源语音的个码向量进行,则转换后的码向量为: (2-15)其中,为映射码书中的元素,满足公式(2-16) (2-16) 无论是模糊矢量量化技术还是分量矢量量化技术,或者是之后Arslan提出的基于音素码本和过滤器思想的转换算法,虽然都较好地改善了转换后的信号的连续语音帧之间的过渡性能,但是依旧存在频谱不连续的现象,其原因在于-矢量量化建立的映射码本始终是基于语音特征参数的“硬分类”,一类特征参数要么全部分到类,要么全部分到

43、类,这样割舍了各类间的联系性,导致转换后的语音频谱特征参数局限在一个离散的矢量集中,合成出来的语音质量严重下降,系统性能不好。2.5.2高斯混合模型(GMM)由2.5.1节可知,基于VQ的语音转换由于采用了 “硬分类”(每类数据仅仅对应一个转换规则),导致转换后的频谱包络不连续,合成的语音质量下降。虽然之后的研究对该方法进行了改进,但是仍然无法解决参数离散性的问题。Stylianou提出的GMM法虽然能够克服矢量量化法引起的不连续问题,得到较好的音质,但是会出现共振峰过平滑的问题,这是因为GMM方法基于“软分类”,每一个特征参数以不同的概率隶属于多个类,这样就可以在相同的分类数下利用概率加权组

44、合成远大于类别数的转换规则。高斯混合模型(Gaussian Mixture Model,简写为GMM)可以看作是一种状态数为1的连续分布马尔可夫模型,它具有快速、准确且用很少特征参数就能得到很好的转换效果的优点。一个阶混合高斯模型的概率密度函数是由个高斯概率密度函数加权求和得到: (2-17)其中为维随机矢量,为混合权重,且满足,为每个子分布的维的联合高斯概率分布,表示如下: (2-18)式(2-18)中是均值矢量,是协方差矩阵,表示矩阵的转置。通常情况下完整的混合高斯模型参数由均值向量、协方差矩阵和混合权重组成,这样,一个GMM模型的参数可以表示成如下的三元式: (2-19)用GMM对由个维观察数据矢量组成的序列进行建模之后, GMM模型训练数据常使用最大似然估计(4.1.2节)求一组最优,似然函数表示为: (2-20) 为计算方便,似然函数通常采取对数形式,即: (2-21)根据最大似然估计准则,最优的模型参数可以表示为: (2-22)接下来用EM(4.1.2节)迭代算法求解这个非线性函

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁