《第六章-智能机器人的语音合成与识别ppt课件.ppt》由会员分享,可在线阅读,更多相关《第六章-智能机器人的语音合成与识别ppt课件.ppt(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物第6章 智能机器人的语音合成与识别 语言是人类最重要的交流工具,自然方便、准确高效。让机器与人之间进行自然语言交流是智能机器人领域的一个重要研究方向。语音识别和语音合成技术、自然语言理解是建立一个能听会讲的口语系统,从而实现人机语音通信所必需的关键技术。 语音合成与识别技术涉及语音声学、数字信号处理、人工智能、微机原理、模式识别、语言学和认知科学等众多前沿科学,是一个涉及面很广的综合性科学,其研究成果对人类的应用领域和学术领域都具有重要的价值。近年来,语音合成
2、与识别取得显著进步,逐渐从实验室走向市场,应用于工业、消费电子产品、医疗、家庭服务、机器人等各个领域。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物图6.1 语音合成技术原理示意图6.1 语音合成的基础理论语音合成的基础理论 语音合成是指由人工通过一定的机器设备产生出语音。具体方法是利用计算机将任意组合的文本转化为声音文件,并通过声卡等多媒体设备将声音输出。简单的说,就是让机器把文本资料“读”出来。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测
3、没有错:表里边有一个活的生物 由图6.1可知,语音合成系统完成文本到语音数据的转化过程中可以简单分为两个步骤: (1) 文本经过前端的语法分析,通过词典和规则的处理,得到格式规范,携带语法层次的信息,传送到后端。 (2) 后端在前端分析的结果基础上,经过韵律方面的分析处理,得到语音的时长、音高等韵律信息,再根据这些信息在音库中挑选最合适的语音单元,语音单元再经过调整和拼接,就能得到最终的语音数据。6.6.1 1.1 .1 语音合成分类语音合成分类 1. 1. 波形合成法波形合成法 波形合成法是一种相对简单的语音合成技术,它把人发音的语音数据直接存储或进行波形编码后存储,根据需要进行编辑组合输出
4、。这种语音合成系统只是语音存储和重放的器件,往往需要大容量的存储空间来存储语音数据。波形合成法适用于小词汇量的语音合成应用场合,如自动报时、报站和报警等。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 2. 2. 参数合成法参数合成法 参数合成法也称为分析合成法,只在谱特性的基础上来模拟声道的输出语音,而不考虑内部发音器官是如何运动的。参数合成方法采用声码器技术,以高效的编码来减少存储空间,是以牺牲音质为代价的,合成的音质欠佳。 3. 3. 规则合成方法规则合成方法 规则合成方法通过语音学规则产生语音,可
5、以合成无限词汇的语句。合成的词汇表不是事先确定,系统中存储的是最小的语音单位的声学参数,以及由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重音等韵律的各种规则。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物6.1.2 常用语音合成技术常用语音合成技术 1、共振峰合成法、共振峰合成法 习惯上,把声道传输频率响应上的极点称之为共振峰。语音的共振峰频率(极点频率)的分布特性决定着语音的音色。 共振峰合成涉及共振峰的频率、带宽、幅度参数和基音周期等相关参数。要产生可理解的语音信号,至少要三个共振峰;要产
6、生高质量合成语音信号,至少要由五个共振峰。 基于共振峰合成方法主要有以下三种实用模型: 1)级联型共振峰模型)级联型共振峰模型 在该模型中,声道被认为是一组串联的二阶谐振器,共振峰滤波器首尾相接,其传递函数为各个共振峰的传递函数相乘的结果。五个极点的共振峰级联模型传递函数为:我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物(6.1)即: (6.2) 式中,G为增益因子。一个五个极点的共振峰级联模型如图6.2所示:图6.2 共振峰级联模型我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界
7、里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物2)并联型共振峰模型)并联型共振峰模型 在并联型模型中,输入信号先分别进行幅度调节,再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。其传递函数为: (6.3) 上式可分解成以下部分分式之和 (6.4)其中, 为各路的增益因子。1A我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物下图就是一个M=5的并联型共振峰模型。 图6.3 并联型共振峰模型 3 3)混合型共振峰模型)混合型共振峰模型 比较以上两种模型,对于大多数的元音,级联型合乎语音产
8、生的声学理论,并且无需为每一个滤波器分设幅度调节;而对于大多数清擦音和塞音,并联型则比较合适,但是其幅度调节很复杂。如下图所示,混和型共振峰模型将两者进行了结合。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物图6.4 混和型共振峰模型 对于共振峰合成器的激励,简单地将其分为浊音和清音两种类型是有缺陷的,为了得到高质量的合成语音,激励源应具备多种选择,以适应不同的发音情况。混和型共振峰模型中激励源有三种类型:合成浊音语音时用周期冲激序列;合成清音语音时用伪随机噪声;合成浊擦音语音时用周期冲激调制的噪声。 我
9、吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 2 2、LPC(LPC(线性预测线性预测) )参数合成参数合成 LPC合成技术本质上是一种时间波形的编码技术,目的是为了降低时间域信号的传输速率。LPC合成技术的优点是简单直观,其合成过程实质上只是一种简单的译码和拼接的过程。另外,由于波形拼接技术的合成基元是语音的波形资料,保存了语音的全部信息,因而对于单个合成基元来说能够获得较高的自然度。 3 3、PSOLA PSOLA 算法合成语音算法合成语音 早期的波形编辑技术只能回放音库中保存的东西。然而,任何一个语
10、言单元在实际语流中都会随着语言环境的变化而变化。20世纪80年代末,F. Charpentier和E.Moulines 等提出了基音同步叠加技术(PSOLA)。PSOLA算法和早期波形编辑有原则性的差别,它既能保持原始语音的主要音段特征,又能在音节拼接时灵活调整其基音、能量和音长等韵律特征,因而很适合于汉语语音的规则合成。由于韵律修改所针对的侧面不同,PSOLA算法的实现目前有3种方式: (1)时域基音同步叠加TD-PSOLA; (2)线性预测基音同步叠加LPC-PSOLA; (3) 频域基音同步叠加FD-PSOLA。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢
11、?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 其中TD-PSOLA算法计算效率较高,已被广泛应用,是一种经典算法,这里只介绍TD-PSOLA算法原理。信号x(n)的短时傅里叶变换为: (6.5) 其中w(n)是长度为N的窗序列,Z表示全体整数集合。 是变量n和的二维时频函数,对于n的每个取值都对应有一个连续的频谱函数,显然存在较大的信息冗余,所以可以在时域每隔若干个(例如R个)样本取一个频谱函数来重构原信号x(n)。 令 (6.6)jj(e )( ) ()e mnmXx m w nmnZ()jnXe()()|,jjrnn rRY eXer nZ我吓了一跳,蝎子是多么丑恶和恐怖的
12、东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 其傅里叶逆变换为: (6.7) 然后将叠接相加便可得到: (6.8) 通常选w(n)是对称的窗函数,所以有 (6.9)1( )()2jj mrry mY eedmZ ( )( )( ) ()( )()rrrry my mx m w rRmx mw rRmmZ()()w rRnw nrR我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 可以证明,对于汉明窗来说,当时,无论m为何值都有 (6.10) 所以 (
13、6.11) 其中 为w(n)的傅里叶变换。上式说明,用叠接相加法重构的信号y(n)与原信号x(n)只相差一个常数因子。 这里采用原始信号谱与合成信号谱均方误差最小的叠接相加合成公式。定义两信号x(n)和y(n)之间谱距离测度:0()()jrW ew rRmR0()( )( )jW ey nx nR()jW e我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 (6.12) 上式可改写为: (6.13) 要求合成信号y(n)满足谱距离最小,可以令: (6.14)21 ( ), ( )|()()|2mggjjtt
14、tD x n y nXeYed212212 ( ), ( )() ()() ()() ()() ( )ggmmmgggtnggmgtnD x ny nw tntx ntw tnty ntw ntx nttw nty n ( ), ( )0( )D x ny ny n我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 解得 (6.15) 窗函数 和 可以是两种不同的窗函数,长度也可以不相等。上式就是在谱均方误差最小意义下的时域基音同步叠接相加合成公式。 实际合成时 和 可以用完全相同的窗,分母可视为常数,而且可
15、以加一个短时幅度因子来调整短时能量,即: (6.16)1222()() ()( )()gggggmtgtw ntw ntx ntty nwnt1( )w n1( )w n2( )w n2( )w n1222()() ()( )()gggtgggmtgtw tn w tn x ntty nw tn我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 概括起来说,用PSOLA算法实现语音合成时主要有三个步骤: 1) 基音同步分析基音同步分析同步标记是与合成单元浊音段的基音保持同步的一系列位置点,用它们来准确反映各基
16、音周期的起始位置。同步分析的功能主要是对语音合成单元进行同步标记设置。PSOLA技术中,短时信号的截取和叠加,时间长度的选择,均是依据同步标记进行的。对于浊音段有基音周期,而清音段信号则属于白噪声,所以这两种类型需要区别对待。 2)基音同步修改基音同步修改 同步修改通过对合成单元同步标记的插入、删除来改变合成语音的时长;通过对合成单元标记间隔的增加、减小来改变合成语音的基频等。 若短时分析信号为 ,短时合成信号为 ,则有:( ( ), )ax ts n( ( ), )sx t s n我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有
17、错:表里边有一个活的生物 (6.17) 式中 为分析基音标记, 为合成基音标记。 3)基音同步合成基音同步合成 基音同步合成是利用短时合成信号进行叠加合成。如果合成信号仅仅在时长上有变化,则增加或减少相应的短时合成信号;如果是基频上有变化,则首先将短时合成信号变换成符合要求的短时合成信号再进行合成。 ( ( ), )( ( ), )asx t s nx t s n( )ats( )st s我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物6.2 语音识别的基础理论语音识别的基础理论 6.2.1语音识别基本原理
18、语音识别基本原理 语音识别系统本质上是一个模式识别系统,其原理如图6.5所示。图6.5 语音识别结构图我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 外界的模拟语音信号经由麦克风输入到计算机,计算机平台利用其A/D转换器将模拟信号转换成计算机能处理的语音信号。然后将该语音信号送入语音识别系统前端进行预处理。 预处理会过滤语音信息中不重要的信息与背景噪声等,以方便后期的特征提取与训练识别。预处理主要包括语音信号的预加重,分帧加窗和端点检测等工作。 特征提取主要是为了提取语音信号中反映语音特征的声学参数,除掉
19、相对无用的信息。语音识别中常用的特征参数有短时平均能量或幅度、短时自相关函数、短时平均过零率、线性预测系数(LPC)、线性预测倒谱系数(LPCC)等。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 (1)(1)语音训练语音训练 语音训练是在语音识别之前进行的,用户将训练语音多次从系统前端输入,系统的前端语音处理部分会对训练语音进行预处理和特征提取,在此之后利用特征提取得到的特征参数可以组建起一个训练语音的参考模型库,或者是对此模型库中的己经存在的参考模型作适当的修改。 (2) (2) 语音识别语音识别 语
20、音识别是指将待识别语音经过特征提取后的特征参数与参考模型库中的各个模式一一进行比较,将相似度最高的模式作为识别的结果输出,完成模式的匹配过程。模式匹配是整个语音识别系统的核心。6.2.2 6.2.2 语音识别预处理语音识别预处理 一般而言,语音信号在进行分析和处理之前,首先要将语音信号进行预处理。语音信号预处理包括:采样量化、分帧加窗和端点检测等。1 1采样量化采样量化 采样就是在时间域上,等间隔地抽取模拟信号,得到序列模拟音频后,并将其转化成数字音频的过程,实际上就是将模拟音频的电信号转换成二进制码0和1。0和1便构成了数字音频文件,采样频率越大音质越有保证。我吓了一跳,蝎子是多么丑恶和恐怖
21、的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 如图6.6所示,采样过程可表达如下:如图6.6所示,采样过程可表达如下: (6.18) 其中n为整数,T为采样周期, 为采样频率。( )()nX nXnT1sFT图6.6 语音信号采样示意图我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 根据采样定理:如果n信号 的频谱是带宽有限的,即: (6.19) 当采样频率大于信号的两倍带宽时,采样过程就不会信息丢失,即: (6.20) 从 可精确重构原始波形,
22、即 能够唯一从样本序列重构为: (6.21)()0aXj2aF12saFFT)(nx)(txa()sin()aannXXaTtTT我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 当 时为Nyquist频率。量化实际上是将时间上离散、幅度依然连续的波形幅度值进行离散化。量化时先将整个幅度值分割成有限个区间,然后把落入同一区间的样本赋予相同的幅度值,这个过程取决于采样精度。量化决定了声音的动态范围,以位为单位,例如8位可以把声波分成256级。 (6.22)汉明窗 (6.23)2saFF1,(01)( )0,(
23、0,1)nNW nnnN2( )0.540.46cos()(01)( )10,(0,1)nw nnNW nNnnN我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 3. 端点检测端点检测 端点检测就是通过准确地判断输入语音段的起点和终点,来减少运算量、数据量以及时间,进而得到真正的语音数据。资料表明在安静环境下,语音识别错误原因的一半来自端点检测。 比较常用的端点检测方法有两种:多门限端点检测法和双门限端点检测法。由于在语音信号检测过程中多门限检测算法有较长的时间延时,不利于进行语音过程实时控制,所以大多采
24、用双门限端点检测方法。 双门限端点检测方法是通过利用语音信号的短时能量和平均过零率的性质来进行端点检测的,其步骤为:(1) 设定阈值。预先设定高能量阈值EH,低能量阈值EL及过零率阈值Zth。由于最初采集的语音信号中短时段大多数是无声或背景噪声,因此采用已知的最初几帧(一般取 10 帧)是“静态”的语音信号计算其高、低能量阈值和及过零率阈值。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 (2) 寻找语音信号端点检测的起点。假设第n帧的语音能量为若E(n),若E(n) EH,则进入语音段。之后在0到n间再
25、次继续寻找准确语音起点。则精确起点A为: (6.24) (3) 寻找语音信号端点检测的终点。 假设第m帧的语音能量为Em,若EmEH (mn),确定检测点还在语音段中。则在m帧到该语音段的总帧数N间寻找终点B。 (4) 语音端点结果检测。首先设语音长度为L=A-B,若L很小,则为噪声,那么继续对下一个语音段进行检测。此外,语音的端点检测中门限值设置都比较高,对实际采集的语音信号的位置可能存在一定的偏后性,因此为弥补这些不足,在得到检测位置以后,对数据进行追朔。argmin ( )|( )0lthAE iEZ iZin 我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢
26、?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物6.2.3 6.2.3 语音识别的特征参数提取语音识别的特征参数提取 在语音识别中,我们不能将原始波形直接用于识别,必须通过一定的变换,提取语音特征参数来进行识别,而提取的特征必须满足特征参数应当反映语音的本质特征。特征参数各分量之间的耦合应尽可能地小。特征参数要计算方便。 语音特征参数可以是共振峰值、基本频率、能量等语音参数,目前在语音识别中比较有效的特征参数为线性预测倒谱系数(LPCC)与Mel倒谱系数(MFCC ) 。 1. 1.线性预测系数线性预测系数 线性预测分析的基本思想是:每个语音信号采样值,都可以用它过去取样值的加权和
27、来表示,各加权系数应使实际语音采样值与线性预测采样值之间的误差的平方和达到最小,即进行最小均方误差的逼近。这里的加权系数就是线性预测系数。线性预测是将被分析信号用一个模型来表示,即将语音信号看作是某一模型的输出。因此,它可以用简单的模型参数来描述。如图6.7所示。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 图6.7 信号模型图 表示模型的输入, 表示模型的输出。模型的系统函数可以表示为: (6.25) 式中: 系数; 预测模型的阶数。 和 的关系可用差分方程表示: (6.26)1( )1PiiiGH
28、za ziaP( )s n( )u n1( )()( )pkks ns nkGu n我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 即用信号的前 个样本预测当前样本,定义预测器: (6.27) 由于线性预测系数a在预测过程中可看作常数,所以它是一种线性预测器。此线性预测器的系统函数可表示为: (6.28) 短时平均误差能量定义为: (6.29) 式中, 宽度为N的语音数据帧。1( )()pkks ns nk1( )pkkkp zz1( )()pnnkmkEs ma s mk( )ns m我吓了一跳,蝎子是
29、多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 使 到达最小值的 必定满足 ,可得 (6.30) 2.线性预测倒谱系数线性预测倒谱系数(LPCC) 线性预测倒谱系数(LPCC)是线性预测系数在倒谱中的表示。该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。LPCC参数的优点是计算量小,易于实现,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。倒谱系数是利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变量IDFT就可以得到。基于LPC分析的倒谱在获得线性预测系数后
30、,可以用一个递推公式计算得出:nE ka0(1,2,. )niEipa1(|)( )pknnkRikR i我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 (6.31) 公式中: 倒谱系数; 预测系数; n倒谱系数的阶数(n=1,2, ,p) p预测系数的阶数。111,11,1nkn knknkn knk n pkc aanpnkc aanpn ncna我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 3. Mel倒谱系
31、数倒谱系数(MFCC) 基于语音信号产生模型的特征参数强烈地依赖于模型的精度,模型所假设的语音信号的平稳性并不能随时满足。现在常用的另一个语音特征参数为基于人的听觉模型的特征参数。 Mel倒谱系数MFCC是受人的听觉系统研究成果推动而导出的声学特征,采用Mel频率倒谱参数(Mel Frequency Cepstrum Coefficients ,MFCC)运算特征提取方法,己经在语音识别中得到广泛的应用。人耳所听到的声音的高低与声音的频率并不成线形正比关系,与普通实际频率倒谱分析不同,MFCC的分析着眼于人耳的听觉特性。MFCC的具体步骤: 运用下式将实际频率尺度转化为Mel频率尺度: (6.
32、32)( )2595lg(1)700fMel f我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 在Mel频率轴上配置L个通道的三角形滤波器组,每个三角形滤波器的中心频率c(l)在Mel频率轴上等间隔分配。设 , 和 分别是第1个三角形滤波器的上限、中心和下限并满足: (6.33) 根据语音信号幅度谱 求每个三角形滤波器的输出: (6.34) 式中, =1,2,L (6.35)( )(1)(1)c lh lo l|()|X K( )( )( )( )|( )|k llnk o lm lW kXkl( )(
33、)( )( )( )( )( )( )( )( )lko lo lkc lc lo lWh lkc lkh lh lc l我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 对所有滤波器输出进行对数运算,再进一步做离散余弦变换(DCT)即可得到MFCC: (6.36)6.2.4 模型训练和模式匹配 语音识别核心部分的作用是实现参数化的语音特征矢量到语音文字符号的映射,一般包括模型训练和模式匹配技术。模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知
34、模式与模型库中的某一个模型获得最佳匹配。 从本质上讲,语音识别过程就是一个模式匹配的过程,模板训练的好坏直接关系到语音识别系统识别率的高低。为了得到一个好的模板,往往需要有大量的原始语音数据来训练这个语音模型。因此,首先要建立起一个具有代表性的语音数据库,利用语音数据库中的数据来训练模板,训练过程不断调整模板参数,进行参数重估,使系统的性能不断向最佳状态逼近。12( |0.5)log( )cosLmfccllicm lTL我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 近几十年比较成功的识别方法有隐马尔可
35、夫模型(HMM )、动态时间规整(DTW)技术、人工神经网络(ANN)等。 1. 隐马尔可夫模型隐马尔可夫模型 隐马尔可夫模型是20世纪70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术,目前,大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。 HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的随机过程;另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的
36、言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出音素的参数流。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 1) HMM语音模型 HMM语音模型M=( ,A,B)由起始状态概率( )、状态转移概率(A)和观测序列概率(B)三个参数决定。其中, 揭示了HMM的拓扑结构,A描述了语音信号随时间的变化情况,B给出了观测序列的统计特性。 2) HMM语音识别过程 经典HMM语音识别的一般过程是: 首先,用前向后向算法(Forward-B
37、ackward ,F-B)计算当给定一个观察值序列 ,以及一个模型 时,模型M产生的O的概率 。 然后,用维特比算法解决当给定一个观察值序列 和一个模型 时 ,在最佳意义上确定一个状态序列 的问题。这里的最佳意义上的状态序列是指使 最大时确定的状态序列。 最后,用Baum-Welch算法解决当给定一个观察值序列 ,确定一个 ,使得 最大。 3) 几种不同HMM模型 根据随机函数的不同特点,HMM模型分为离散DHMM、连续CHMM和半连续SCHMM以及基于段长分布的DDBHMM等类型。12,.TOo oo( , , )MA B12,.TOo oo( , , )MA B12,.TSs ss( ,|
38、)P S O M12,.TOo oo(|)P O M我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 (1)DHMM识别率略低些,但计算量最小,IBM公司的ViaVoice中文语音识别系统,就是该技术的成功典范。 (2)CHMM的识别率虽高,但计算量大,其典型就是Bell Lab的语音识别系统。 (3)SCHMM的识别率和计算量则居中,其典型产品就是美国著名的Sphinx语音识别系统。 (4)DDBHMM是对上述经典HMM方法的修正,计算量虽大,但识别率最高。 2. 2. 动态时间规整动态时间规整 动态时间
39、规整(DTW)是语音识别中较为经典的一种算法,通过将待识别语音信号的时间轴进行不均匀地弯曲,使其特征与模板特征对齐,并在两者之间不断地进行两个矢量距离最小的匹配路径计算,从而获得这两个矢量匹配时累积距离最小的规整函数。 设测试语音参数共有N帧矢量,而参考模板共有M帧矢量,且NAM。要找时间规整函数j=w(i),使测试矢量的时间轴i非线性地映射到模板的时间轴j上,并满足: 我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 (6.37) 式中: 表示第i帧测试矢量T(i)和第j帧模板矢量R(j)之间的距离测度;
40、D为在最优情况下的两矢量之间的匹配路径。 3. 3. 矢量量化矢量量化 传统的量化方法是标量量化。标量量化中整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入标量信号,量化时落入小区间的值就要用这个代表值代替。随着对数据压缩的要求越来越高,矢量量化迅速发展起来。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。 在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可以分为两类: (1)无记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。 (2)和有记忆的矢量量化。( )1min ( ), ( ( )Mw iiDd T i R w
41、i ( ), ( ( )d T i R w i我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物6.3 智能机器人的语音定向与导航 与视觉一样,听觉是也是智能机器人的重要标志之一,是实现人机交互、与环境交互的重要手段。由于声音具有绕过障碍物的特性,在机器人多信息采集系统中,听觉可以与机器人视觉相配合弥补其视觉有限性及不能穿过非透光障碍物的局限性。 机器人听觉定位跟踪声源的研究主要分为基于麦克风阵列和基于人耳听觉机理的声源定位系统研究。基于麦克风阵列的声源定位系统具有算法多样、技术成熟、历史悠久、定位准确、抗干
42、扰能力强等优点。但是,该方法也具有计算量大,实时性差等不足,尤其是当麦克风数量很大时不足显得更加突出。随着DSP硬件的发展,这些问题逐渐会得到解决。基于人耳听觉机理的声源定位系统研究是当前国际上前沿研究课题。它是从人的听觉生理和心理特性出发,研究人在声音识别过程中的规律,寻找人听觉表达的各种线索,建立数学模型用计算机来实现它,即计算听觉场景分析(CASA)所要研究的内容。该方法符合人的听觉机理,是智能科学研究的成果。由于人耳听觉机理尚未完全被人类认识,所以该系统研究还处在低级阶段。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错
43、:表里边有一个活的生物6.3.1 6.3.1 基于麦克风阵列的声源定位系统基于麦克风阵列的声源定位系统 麦克风阵列声源定位是指用麦克风阵列采集声音信号,通过对多道声音信号进行分析和处理在空间中定出一个或多个声源的平面或空间坐标,得到声源的位置。 现有声源定位技术可分为3类。 (1)基于最大输出功率的可控波束形成技术。它的基本思想是将各阵元采集来的信号进行加权求和形成波束,通过搜索声源的可能位置来引导该波束,修改权值使得麦克风阵列的输出信号功率最大。在传统的波束形成器中,权值取决于各阵元上信号的相位延迟,相位延迟与声达时间延迟有关,因此称为延时求和波束形成器。 (2)基于高分辨率谱估计技术。高分
44、辨率谱估计主要有自回归模型、最大熵法、最小方差估计法和特征值分解方法等方法。该定位的方法一般都具有很高的定位精度,但这类方法的计算量往往都比前类大的多。 (3)基于声达时间差的定位技术。基于麦克风阵列声源定位研究国内外开发出多种不同系统。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物6.3.2 6.3.2 基于人耳听觉机理的声源定位系统基于人耳听觉机理的声源定位系统 人耳听觉系统能够同时定位和分离多个声源,这种特性经常被称作鸡尾酒会效应。通过这一效应,一个人在嘈杂声音的环境中能集中一个特定的声音或语音。一
45、般认为,声音的空间定位主要依靠声源的时相差和强度差确定。 从人类听觉生理和心理特性出发,研究人在声音或语音识别过程中的规律,被称为听觉场景分析,而用计算机模仿人类听觉生理和心理机制建立听觉模型的研究范畴称为计算听觉场景析。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物6.4 智能机器人的语音系统实例 安徽科大讯飞信息科技股份有限公司是一所专业从事智能语音及语言技术研究,软件及芯片产品开发公司。也是作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在语音合成、语音识别、口语评测等多项
46、技术上拥有国际领先的成果,其语音合成核心技术实现了人机语音交互,使人与机器之间沟通变得像人与人沟通一样简单。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物6.4.1 Inter Phonic 6.5语音合成系统 Inter Phonic语音合成系统是由安徽科大讯飞信息科技股份有限公司自主研发的中英文语音合成系统,以先进的大语料和Trainable TTS这两种语音合成技术为基础,能提供可比拟真人发音的高自然度、高流畅性、面向任意文本篇章的连续合成语音合成系统。Inter Phonic 6.5语音合成系统致
47、力于建立和改善人机语音界面,为大容量语音服务提供高效稳定的语音合成功能,并提供从电信级、企业级到桌面级的全套应用解决方案,是新概念声讯服务、语音网站、多媒体办公教学的核心动力。 1主要功能 Inter Phonic 语音合成系统具有的主要功能有: (1) 高质量语音; (2)多语种服务; (3)多音色服务; (4)高精度文本分析技术;我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 (5)多字符集支持; (6)多种数据输出格式; (7)提供预录音合成模板; (8)灵活的接口; (9)语音调整功能; (10)
48、配置和管理工具; (11)效果优化; (12)一致的访问方式; (13)背景音和预录音。 2. 2. 产品特点产品特点 (1)独创的语料信息统计模型; (2)前后端一致性的语料库设计方法、和语料库的自动构建方法; (3)听感量化思想指导下,以变长韵律模板为基础的高精度韵律模型;我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物 (4)高鲁棒性的智能化文本分析处理技术; (5)基于听感损失最小的语料库裁减技术; (6)特定语种知识和系统建模方法分离的多语种语音合成系统框架; (7)面向特定领域应用的定制语音合成
49、技术; (8)Hmm-based波形拼接技术。 3. 3. 产品应用产品应用语音合成技术是一种能够在任何时间、任何地点向任何人提供语音信息服务的高效便捷手段,非常符合信息时代海量数据、动态更新和个性化查询的需求。 Inter Phonic6.5 语音合成系统提供高效、灵活的服务,可以在多种领域内使用,如:PC语音互动式娱乐和教学;电信级、企业级呼叫中心平台United Message Service (UMS)和Voice Portal 等新兴语音服务系统。我吓了一跳,蝎子是多么丑恶和恐怖的东西,为什么把它放在这样一个美丽的世界里呢?但是我也感到愉快,证实我的猜测没有错:表里边有一个活的生物6
50、.4.26.4.2嵌入式语音合成解决方案嵌入式语音合成解决方案 目前,科大讯飞推出的一款高性价比的中文语音合成芯片已成功应用于车载调度仪、信息机、气象预警机、考勤机、排队机、手持智能仪表、税控机等各类信息终端产品上,极大满足了各行业服务需求,在为客户创造了巨大价值的同时,赢得了广大用户的高度评价和极佳的市场口碑。中文语音合成芯片XFS3031CNP 、XFS5152CE、XFS4243C、 XF-S4240等。 下面以入门级语音合成芯片XFS3031CNP进行介绍: 1 1主要功能主要功能 XFS3031CNP讯飞公司新推出的一款单芯片语音合成芯片,如图6.8所示,是业界最好的入门级语音合成芯