《为残疾人提供的语音识别医学心理学康复医学_高等教育-大学课件.pdf》由会员分享,可在线阅读,更多相关《为残疾人提供的语音识别医学心理学康复医学_高等教育-大学课件.pdf(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、为残疾人提供的语音识别 摘要 在过去的几年里多亏了数据处理的演变,我们经历了一个语音识别系统很重要的 演,变。所开发的系统 取决于应用程序,它具有孤立词识别和系统的连续语音识别系统。孤立词的识别 的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐 听写。对于残疾人士缺少数据基础和多样性的发声障碍是建立可靠的语音识别系统的 重大障碍,这也说明为残疾人建立的语音识别系统在市场上所遇到困境。这项工作发展在于适应一些现有语音识别系统为那些有发声障碍的人。对于孤立词识别系统,我们使用动态方法的培训,这使得该系统有可能逐步适应 用户在他的使用过程中。这种方法有可能使残疾用户使用该系统,不
2、用通过长时间的培训,而这培训一般 是沉重,对这些人是痛苦的。在同等测试条件它还允许识别系统使用一个训练基 地。对于连续识别系统,我们使用两种方法:一个为残疾人士动态适应的连续语音识别系统的模型。这种方法使我们能够让 1-用户适应的识别系统并可以像正常人一样说话。为识别使用一个独立的语言分割()。这种方法包括使用之间的对应关系 ALISP-2 分割和语音和模型的段,以建立识别系统。ALISPALISP 对于字识别系统,我 们使用了的动态培训。DTW 关键词:言语;认知;适应;充满活力;残疾;培 训1绪论 在非特定人语音识别系统,培训令扬声器变化要求发言者广泛的人参与。这个令 扬 声器变化更重要的
3、是当发言者有发音障碍。特别是,残疾人很难有独立的扬声器 电话模型。在这项工作中,我们使用的手机模型都是从独立扬声器训练有素的数据库中 BREF选取适应每次系统识别正确的句子模型。我们第一次提出的方法被运用于最大似然线性回归()和动态时间规整(DTWMLLR的),然后我们提出了实验结果和结论。动态时间规整2 在这种类型的语音识别技术测试数据被转换为模板。识别过程,然后由语音输入 与匹配存储的模板。从输入模式模板中最低的距离测量模板是已识别的词。最佳 匹配(最低距离度量),是基于在动态规划。这就是所谓的动态时间规整(的)文字识别DTW者。为了了解,需要两个概念被处理 DTW特点:在每个信号信息必须
4、以某种方式表 示。*距离:一些度量形式已被用于为了获得匹配的路径。*有两种类型:地方:在一个信号特征及其他特点之间计算差异。o全球:整体计算整个信号 之间的区别和另一个信号可能不同的长度。o由于特征向量可能有多个元素,一种计算局部距离的方法是需要的。两个特征向量之间的距离测量采用的是欧氏 距离度量来测量。因此,特征向量之间的信号特征信号 1局部的距离,的和给 出了向量2YX算法:言语是随时间变化的过程。因此,对同一个词会有不同 的发音周期,与具有相同的周期同一个词在话语中会有所不同,这是由于不同地 区的话,人们讲的时候速度不同。要获得两个全球距离的话语模式(作为一个向 量序列为代表)一个时间序
5、列必须执行。这个问题可以参考下图,在这种时候,时间“矩阵是用于可视化的路线。对于所 0有的时间序列例子参考模式(模板)上升侧面和底部的输入模式去。在本图中 输入2。“是一个噪音的模板版本讲话”SsPEEhH这个想法是,是一个更接近匹配的比 其他任何模板中。输入“将在所 SsPEEhHHh有模板进行匹配该系统的信息库。最佳匹配的模板的其中之一是最低的距离有路径调整到模板输入模式。给一个路 径一个简单的总体远程评分是简单的去弥补局部路径距离的总和。上图显示了测试和训练模式的时间一致。为了推出公式和减少过度的计算,我们在传播方向上作出了一定的约束。下面给 出了这个约束。匹配路径不能及时向后*输入的每
6、一个框架必须用在匹配路径上*通过增大总 体范围,现代远程教育重要性被凸显了。*o)该算法被称为动态规划(DP是 保的)。当应用到基于模板的语音识别,它常常被称为动态时间规整(DPDTW 证找到通过矩阵的最低距离路径,而最大限度地减少计算量。动态规划算法工作 在时间(相动态规划算法工作在时间同步的方式:每个时间被考虑为连续时间矩 阵同步的方式:的模板,最大数量的路径在任何时当于列处理输入帧逐帧),因 所开发的系统取决于应用程序它具有孤立词识别和系统的连续语音识别系统孤立词的识别的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐听写对于残疾人士缺少数据基础和多样性的发声障碍是建立
7、可靠些现有语音识别系统为那些有发声障碍的人对于孤立词识别系统我们使用动态方法的培训这使得该系统有可能逐步适应用户在他的使用过程中这种方法有可能使残疾用户使用该系统不用通过长时间的培训而这培训一般是沉重对这些士动态适应的连续语音识别系统的模型这种方法使我们能够让用户适应的识别系统并可以像正常人一样说话为识别使用一个独立的语言分割这种方法包括使用之间的对应关系分割和语音和模型的段以建立识别系统对于字识别系统我此,对于一个长度为 n候被认为是n)。()和在()地方距离,是用(如果)是总体距离可达(ijijdDijij)的递(,(这是初始条件),给出(),我们有一个 有效的计算j,iDD(1,1)=d
8、11)为我们提供了模板的整体比对分数与输入。归算法 的基础上。最后全球距离(,Ndn输入单词,然后确认为这个词所对应的最低得 分匹配模板。3 最大似然线性回归3 最初是为适应扬声器,但同样可以应用于环境不匹配的情况。高斯为HMMMLLR 的参数设置转换矩阵估计这最大限度地适应数据的可能性。本集的转换相对比较 小的系统中高斯总数等多项共享相同的高斯变换矩阵数字。这意味着,转换参数 稳健估计可从只有一数量有限的数据,这使所有的高斯模型中的设置进行更新。对于少量的数HMM据(或非常稳健转型的估计)只有使用单一的总体性转变。随着越来越多的数据可以利用,更加特别的转换能够进行估计。最初变化的平均 估计只
9、有参数,但最近的做法已得到扩展,使高斯变换也可以更新。本节给出了 基本理论概述、平均参数和方差。MLLR均值和方差是适应于两个不同的阶段。最初发现新的方式被发现。然后,鉴于这些新的方式,差异被更新了。因此,模 型被修改了。例如,其中是原来的模型集,MHMM模型有集合刚刚更新的平均 参数(,)以及模型集既有的手段和方差 M卩卩1.MM刀刀更新和O为适应数 据O0(),,0()11,TMTT=MLLR适应方式3.1 该的目的是为了获得一个变换矩阵集最大化适应数据的可能性。转换矩阵是 MLLR用来给均值的,在新的估计yZ和是转换矩阵(对于维数据)和 nWmm=Wmn*(n+1)Z是扩展的平均向量Zy
10、y为了确保转换参数稳健估计,转 换矩阵高n,m1,m=1,斯并列横跨数,根据回归类树。这种树包含所有系统中的高斯,与统计的叶子(可 能每个包含高斯数)聚集。最具体的变换,可以适应稳健估计使用产生的所有系 统中的高斯。一个特定的转换是被束缚在高斯对于输出概率密度函数高,m1Wm.RmR.-刁 r,丫斯认为,二 I_L 可能是通过求解其中和 q II I T在时间上表 示高斯对于整个案件的协方差矩阵计算的解决方案代价是很高的。mr.)(每个转 换可以是一个完整的矩阵或约束为分块对角或对角线。适应的差异MLLR3.2 式达方以可换一种表的使斯矩差方协方差或阵高向量,用下面转换般一 的反。是线性变换的
11、估计和因素,是刀 CholeskiHmBm 所开发的系统取决于应用程序它具有孤立词识别和系统的连续语音识别系统孤立词的识别的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐听写对于残疾人士缺少数据基础和多样性的发声障碍是建立可靠些现有语音识别系统为那些有发声障碍的人对于孤立词识别系统我们使用动态方法的培训这使得该系统有可能逐步适应用户在他的使用过程中这种方法有可能使残疾用户使用该系统不用通过长时间的培训而这培训一般是沉重对这些士动态适应的连续语音识别系统的模型这种方法使我们能够让用户适应的识别系统并可以像正常人一样说话为识别使用一个独立的语言分割这种方法包括使用之间的对应关系
12、分割和语音和模型的段以建立识别系统对于字识别系统我二 和所以。以同样的方式的手段,方差变换是在一个共同的高斯数 之前计算的方卩它是简单的表明,最大似然估计,给出了.mR.ml 一 1 1 一|1 ,|1 1 s s P E i-1 t 1 i 1 _ tM Mt 法 可以看出,方差变换矩阵将满时,产生的每个高斯完整协方差矩阵。对角线为差 异转化可能是通过简单归零非对角线上。4 识别试验 4 该实验的对象是从获得帕金森的人群数据库中抽取的 录音都是由法国国家科学研究中心研究工程师文字和 罗旺斯大学语言实验室的议员伯纳德特斯顿记录的。200续时间不同完整残缺程度也不同,从记录秒到分钟。每一位发言者
13、是应该记 录的449 一句“”。对于字识别系统,我们用了字的 2MONSIEUR SEGUIN40LA CHEVRE DE 个扬声器数据库。这个数据库是为了一个指挥家创立的。系统描述4.1 对于字识别系统,我们使用动态培训。一开始我们在测试中使用的每一个字一个 登记,如果系统识别好词,这个词将在字典中,如果不是它被拒绝。我们使用了 一个6.4万字字典连续语音识别系统。我们用这个词的简表数据库模型训练的手机型号。对于单扬声器系统,将其分为 4组各扬声器的数据库:套为适应和一个测试集。我们分析后,连续的为每一个 说话人3识别系统的适应性能来适应数据库。对于非特定人识别系统,我们用每 个残疾程度为1
14、0适应扬声器和测试扬声器。我们用个扬声器来适应以及每一级 障碍程度运用个6406扬声器作为连续独立扬声器识别系统的测试,该测试是为 了那些遭受帕金森的病人的。结果4.2对于字识别系统,我们用了一个个字的系统来指挥例如开门关门。下表 阐述了 40识别结果,该结果运用了经典的算法且这个结果用了我的方法来获得。DTW表:第一个人的文字识别率与动态演变培训 1 m B m tri 句子经典DTW 我们的方法 20 60 1 90 30 2 该数据库记录在医院这些.AIX-EN-PROVENCE 普 这个数据库包括例,每例持 所开发的系统取决于应用程序它具有孤立词识别和系统的连续语音识别系统孤立词的识别
15、的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐听写对于残疾人士缺少数据基础和多样性的发声障碍是建立可靠些现有语音识别系统为那些有发声障碍的人对于孤立词识别系统我们使用动态方法的培训这使得该系统有可能逐步适应用户在他的使用过程中这种方法有可能使残疾用户使用该系统不用通过长时间的培训而这培训一般是沉重对这些士动态适应的连续语音识别系统的模型这种方法使我们能够让用户适应的识别系统并可以像正常人一样说话为识别使用一个独立的语言分割这种方法包括使用之间的对应关系分割和语音和模型的段以建立识别系统对于字识别系统我90 3 30 7020 4:第二个人的文字识别率与动态演变培训表 2
16、T R T R 工工人(“打0(几 工丫厶町 r=l r=l r=l 尸=1 人)二 p Md)句子我们的方法DTW 经典50 100 1 90 40 2 90 30 3 100504 随着我们的方法在识别率迅速增加,所以在实际的用户,可以提高识别率时,它 所采用的方法多次鼓励用户使用该系统。对于连续语音系统,我们开始了对病人 的语音识别系统的性能通过使用总体模型。下表说明了结果:5 表:模型的患者的识别率 BRIEF1 发言者 残疾程度的识别率()%0 1 2 3 1 1 5.12 2.56 5.12 2 2 7.69 5.12 2.56 3 3 5.12 5.12 7.69 2.56 2.
17、56 4 2.56 4 5 5 5.12 00 5.12 6 5.12 7.69 5.12 6 所取得的成果表明,古典连续识别系统不产生令人满意的结果。得到的结果表明,这个词的质量下降。下表说明了在每个发言者适应基地连续提高识别率的演变 发言者 改编后的识别率()%0 1 2 3 7.69 5.12 1 1 5.12 10.25 10.25 2 7.69 2 10.25 5.12 3 3 7.69 5.12 5.12 4 4 2.56 7.69 5.12 7.69 5.12 5 12.82 10.25 6 5.12 12.82 所开发的系统取决于应用程序它具有孤立词识别和系统的连续语音识别系统
18、孤立词的识别的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐听写对于残疾人士缺少数据基础和多样性的发声障碍是建立可靠些现有语音识别系统为那些有发声障碍的人对于孤立词识别系统我们使用动态方法的培训这使得该系统有可能逐步适应用户在他的使用过程中这种方法有可能使残疾用户使用该系统不用通过长时间的培训而这培训一般是沉重对这些士动态适应的连续语音识别系统的模型这种方法使我们能够让用户适应的识别系统并可以像正常人一样说话为识别使用一个独立的语言分割这种方法包括使用之间的对应关系分割和语音和模型的段以建立识别系统对于字识别系统我)改编后的识别率(发言者%0 3 1 2 1 0 2 3 1
19、0.25 5.12 7.69 7.691 7.69 7.69 2.56 5.122 12.82 7.69 12.82 3 10.25 5.12 5.12 2.56 2.564 5.12 5 10.25 7.69 10.25)改编后的识别率(发言者%0 2 3 1 2.56 5.12 5.127.69 1 5.12 7.69 7.6910.25 2 5.12 3 5.12 7.6910.25 7.69 5.12 4 7.69 2.56 7.69 5.12 2.56 5 00 12.827.69 10.25 7.69 6)改编后的识别率(发言者%0 1 3 2 7.69 5.12 2.56 5.1
20、2 1 7.69 2.56 2 5.12 2.56 6 3)识别率(%发言者盘口 模型模型 BREF15.38 1 5.12 00 6 2.56 5.12 2.56 10.25 5.12 4 5.12 7.69 10.25 10.25 5 2.56 7.69 10.25 10.25 6 5.12 7.69 7.69 10.25 基础设置的增加而提高了识别系统的性能。这种方法使我们能够逐步适应识别系 在这个实验但因缺乏充足的数据统。在一定数量的适应后这个系统的表现将趋于 稳定,中我们不能验证这个事实。现在我们分析每个障碍等级特定人语音识别系 统的表现。下列表格说明与适应障碍的同样程度的发言者的某
21、些型号的识别率演 所开发的系统取决于应用程序它具有孤立词识别和系统的连续语音识别系统孤立词的识别的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐听写对于残疾人士缺少数据基础和多样性的发声障碍是建立可靠些现有语音识别系统为那些有发声障碍的人对于孤立词识别系统我们使用动态方法的培训这使得该系统有可能逐步适应用户在他的使用过程中这种方法有可能使残疾用户使用该系统不用通过长时间的培训而这培训一般是沉重对这些士动态适应的连续语音识别系统的模型这种方法使我们能够让用户适应的识别系统并可以像正常人一样说话为识别使用一个独立的语言分割这种方法包括使用之间的对应关系分割和语音和模型的段以建立
22、识别系统对于字识别系统我化的扬声器。)识别率(发言者 盘口模型模型 BREF12.82 5.12 1 12.82 7.69 2 15.38 3 5.12 10.25 2.56 4 10.25 5.12 5 12.825.12 6 )识别率(发言者 盘口模型模型 BREF1 5.12 10.25 2 7.69 2.56 3 12.82 7.69 4 2.56 7.69 5 5.12 10.25 6 10.255.12 )识别率(发言者 盘口模型模型 BREF1 2.56 10.25 2 5.12 10.25 3 5.12 12.82 4 2.56 10.25 5 00 7.69 所开发的系统取决
23、于应用程序它具有孤立词识别和系统的连续语音识别系统孤立词的识别的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐听写对于残疾人士缺少数据基础和多样性的发声障碍是建立可靠些现有语音识别系统为那些有发声障碍的人对于孤立词识别系统我们使用动态方法的培训这使得该系统有可能逐步适应用户在他的使用过程中这种方法有可能使残疾用户使用该系统不用通过长时间的培训而这培训一般是沉重对这些士动态适应的连续语音识别系统的模型这种方法使我们能够让用户适应的识别系统并可以像正常人一样说话为识别使用一个独立的语言分割这种方法包括使用之间的对应关系分割和语音和模型的段以建立识别系统对于字识别系统我6 7.6
24、9 12.82 )识别率(发言者 盘口模型模型 BREF1 2.56 7.69 2 2.56 10.25 3 00 5.12 4 5.12 10.25 5 7.69 2.56 7.现同等障碍程度的人的字模型的适应使这类扬声器有这样一个识别系统成为可 能。而该系统是针对的说话者是遭受帕金森疾在我们将分析一个非特定人识别系 统的表现,病的人。结果被统计在下表中。所开发的系统取决于应用程序它具有孤立词识别和系统的连续语音识别系统孤立词的识别的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐听写对于残疾人士缺少数据基础和多样性的发声障碍是建立可靠些现有语音识别系统为那些有发声障碍的人
25、对于孤立词识别系统我们使用动态方法的培训这使得该系统有可能逐步适应用户在他的使用过程中这种方法有可能使残疾用户使用该系统不用通过长时间的培训而这培训一般是沉重对这些士动态适应的连续语音识别系统的模型这种方法使我们能够让用户适应的识别系统并可以像正常人一样说话为识别使用一个独立的语言分割这种方法包括使用之间的对应关系分割和语音和模型的段以建立识别系统对于字识别系统我 15.38 2 7.69 15.383 5.12 12.82 2.56 4 12.82 5 5.12 20.516 5.12 )识别率(发言者 盘口模型模型 BREF1 5.12 12.82 2 2.56 10.25 3 7.69
26、17.97 4 2.56 12.82 5 12.82 5.12 6 5.12 15.38 所开发的系统取决于应用程序它具有孤立词识别和系统的连续语音识别系统孤立词的识别的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐听写对于残疾人士缺少数据基础和多样性的发声障碍是建立可靠些现有语音识别系统为那些有发声障碍的人对于孤立词识别系统我们使用动态方法的培训这使得该系统有可能逐步适应用户在他的使用过程中这种方法有可能使残疾用户使用该系统不用通过长时间的培训而这培训一般是沉重对这些士动态适应的连续语音识别系统的模型这种方法使我们能够让用户适应的识别系统并可以像正常人一样说话为识别使用一
27、个独立的语言分割这种方法包括使用之间的对应关系分割和语音和模型的段以建立识别系统对于字识别系统我)识别率(发言者 盘口模型模型 BREF1 2.56 12.82 2 15.38 5.12 3 5.12 17.94 4 2.56 12.82 5 00 10.25 6 7.69 15.38 )识别率(发言者 盘口模型模型 BREF1 10.25 2.56 2 2.56 12.82 3 10.25 00 4 5.12 15.38 5 2.56 10.25 6 5.12 12.82 帕金森病人有同种类型的发生障碍,但这些比重取决这个障碍程度。产生,不影响所有音素。8 结论5 声学适应动态解决方案模型的
28、给出对帕金森病人很重要。我们可以给那些又发生 障碍的人一个连续语音识别系统 由于干扰的 所开发的系统取决于应用程序它具有孤立词识别和系统的连续语音识别系统孤立词的识别的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐听写对于残疾人士缺少数据基础和多样性的发声障碍是建立可靠些现有语音识别系统为那些有发声障碍的人对于孤立词识别系统我们使用动态方法的培训这使得该系统有可能逐步适应用户在他的使用过程中这种方法有可能使残疾用户使用该系统不用通过长时间的培训而这培训一般是沉重对这些士动态适应的连续语音识别系统的模型这种方法使我们能够让用户适应的识别系统并可以像正常人一样说话为识别使用一个独立的语言分割这种方法包括使用之间的对应关系分割和语音和模型的段以建立识别系统对于字识别系统我