2022年2022年汉语连续语音识别系统与知识导引的搜索策略研究 .pdf

上传人:C****o 文档编号:32074662 上传时间:2022-08-08 格式:PDF 页数:8 大小:434.22KB
返回 下载 相关 举报
2022年2022年汉语连续语音识别系统与知识导引的搜索策略研究 .pdf_第1页
第1页 / 共8页
2022年2022年汉语连续语音识别系统与知识导引的搜索策略研究 .pdf_第2页
第2页 / 共8页
点击查看更多>>
资源描述

《2022年2022年汉语连续语音识别系统与知识导引的搜索策略研究 .pdf》由会员分享,可在线阅读,更多相关《2022年2022年汉语连续语音识别系统与知识导引的搜索策略研究 .pdf(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第26卷第4期2000年7月自动化学报A CTAAU TOM A T ICA SIN ICAV o l126,N o14Jul. , 2000汉语连续语音识别系统与知识导引的搜索策略研究1)宋战江郑方徐明星武健吴文虎(清华大学计算机科学与技术系语音实验室北京100084)(E2m ail:szjsp. cs . tsinghua. edu. cn)摘要 从整体上介绍了汉语连续语音识别系统的基本原理,并重点对声学和语言两个层面的建模与搜索策略进行了分析.在对传统帧同步搜索算法进行研究的基础上,提出了基于统计知识的帧同步搜索算法SKB2FSS.它包含了三个主要的功能层次:基于归并的音节切分自动机产

2、生确定的搜索边界点,由统计得到的差分状态驻留信息控制搜索过程中的状态转移,利用词搜索树控制音节候选的扩展规模并根据动态前向预测的方法进行合理而及时的路径剪枝.实验结果验证了该搜索策略的有效性.关键词 连续语音识别,基于统计知识的帧同步搜索,差分状态驻留分布.1)本文的部分内容曾在第五届(1998年)全国人机语音通讯学术会议上宣读.收稿日期1998211209收修改稿日期1999212230RESEARCH ON CH INESE CONT INUOUS SPEECH RECOGN IT IONS Y STEM AND KNOWL EDGE BASED SEARCH STRATEGIESSONG

3、 Zhan jiangZHENG FangXU M ingx ingWU JianWU W enhu(Sp eechL ab,D ept.of Comp u ter Science&T echnology,T sing hua U niversity,B eij ing100084 )AbstractIn this paper , the p rincip le of a Ch inese continuousspeech recogniti onsystem is introduced , the modelingand search strategies of its acoustic l

4、ayer andlanguage layer are also discussed in detail.O n the basis of the research on thetraditi onal fram e synch ronoussearch algorithm ,the statisticalknow ledge basedfram e synchronous search(SKB2FSS)algorithmis p roposed .It containsth reeprinci pal functi onal modules , generatingdefinitesearch

5、 boundariesby a m ergingbased syllabledetection autom aton, contro llingstate transiti ons by the statisticaldifferentialstate dwell info rmation,and restrictingthe syllableexpansions by awo rd search tree and pruning unprom ising path s by the dynam ic forward predicti on.The experim ental results

6、show the validityof the novel search strategies.Key wordsContinuousspeech recogniti on,statisticalknow ledge based fram esynchronous search, differentialstate dwell distributi on.名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 8 页 - - - - - - - - - 1引言本文基于清华大学计算

7、机系语音实验室开发的大词汇量、 非特定人 、 连续汉语语音识别系统 (又称听写机 )EasyT alk 1, 研究了连续语音识别的两个最基本部分声学模型和语言模型 . 对于输入的连续语音流, EasyT alk 的声学识别层给出由多候选音节串组成的音节网络 , 然后由语言处理层进行组句分析, 得到最终的识别结果.在声学层面上, 用来进行时间对准的搜索策略是一个非常重要的组成部分. 采用HMM 2, 3 拓扑结构时, 搜索算法基本上可以分为两大类: 一类是时间同步的, 如著名的V iterb i 解码算法 4 和帧同步搜索算法 5等;另一类是非时间同步的,如堆栈解码算法和A3搜索算法 6, 7等

8、. 此外还有一些更加复杂的搜索算法, 如双向图搜索 8算法等.堆栈解码算法一般需要一个快速匹配过程来产生候选基元列表, 然后再进行路径扩展;A3搜索算法从理论上可以给出最佳的识别结果, 但是其计算量和存储空间的消耗都非常大 ,而且往往需要一次额外的预搜索来确定A3的启发函数 .传统的 V iterb i 解码算法利用动态规划的原理, 通过搜索识别基元的最佳状态序列来得到近似最优的目标基元序列. 它一般只能给出一个最佳的候选状态序列,当需要多个候选时 , 就需要进行修改以存储多个回溯指针, 而这会使其存储空间和搜索时间成倍增加.帧同步搜索算法不但简洁高效, 而且可以给出多个声学候选, 因此在Ea

9、syT alk中,就采用基于帧同步的搜索算法来产生声学层面的候选音节网络. 为进一步提高搜索效率和识别性能, 我们提出了基于统计知识的帧同步搜索(SKB2FSS, StatisticalKnow ledgeB ased Frame Synch ronou s Search) 算法. 它通过基于归并的音节切分自动机产生若干可靠的音节边界点供搜索过程使用, 利用状态驻留长度的统计分布和词搜索树来约束搜索过程 , 通过动态前向预测来进行路径剪枝. 本文将重点介绍该搜索策略.本文各个部分的组织情况如下: 第二部分介绍EasyT alk 的整体结构 , 包括声学层面的建模和语言层面的处理方法,以及基于归

10、并的切分自动机的实现; 第三部分介绍SKB2FSS 的原理 , 即如何将状态驻留的统计信息应用于搜索过程中,以及对扩展路径的约束和剪枝策略等 ; 第四部分给出实验结果和分析; 第五部分进行了总结.2声学模型 、 语言模型及切分预处理EasyT alk 核心识别引擎的总体功能结构如图1 所示.211声学模型与识别基元对模型之间距离度量的研究和实验表明,HMM中状态转移概率矩阵的作用远不如观测概率矩阵重要 9. 为此 , 我们对标准HMM模型进行修改 1, 去掉了状态转移概率矩阵 , 仅保留其观测概率矩阵. 各状态内部的特征空间采用混合高斯分布进行描述 3 , 其协方差矩阵采用对角形式. 系统以汉

11、语的418 个无调单音节作为识别基元进行建模.训练数据库采用863 汉语普通话连续语音数据库, 它是在安静环境下以16 位精度和16kH z 采样率进行采样的 . 语音特征选为16 阶M el 倒谱系数 10及其自回归分析系数 11 ,帧长 32m s, 帧移 16m s, 回归分析宽度为5 帧. 数据库已进行了单音节的手工初始标注.1744期宋战江等:汉语连续语音识别系统与知识导引的搜索策略研究名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 8 页 - - - - -

12、- - - - 图1EasyT alk核心识别引擎的总体功能结构在模型的训练阶段, 首先采用鲁棒性较高的非线性分段算法 12给出每个单音节内部各个状态的初始分点, 计算出各个状态内特征的初始观测概率密度函数, 然后进行迭代,直到各个模型的状态分点达到稳定; 而在识别阶段 , 采用基于统计知识的帧同步搜索算法SKB 2FSS(将在第三部分介绍)来产生声学候选音节网络.212连续语音流的切分预处理在声学搜索中有两个问题不容忽视,一是搜索路径的组合爆炸问题, 二是解码出的状态序列错位问题 . 事实上 , 由于汉语的连续语音是以词的边界为瞬间间歇的, 若能在声学搜索中加入词边界判决信息, 就可以在一定

13、程度上缓解上面两个问题, 同时部分地解决语言层的分词问题 . 因此我们设计了对动态语音数据流进行预处理的切分引擎 13 , 它充分利用了声学 、 语言等方面的统计知识和规则, 不断地从语音流中分离出一些相对独立和完整的语音段供后续搜索过程进一步处理.图2音节切分自动机的状态转移示意图切分引擎采用 “基于归并的音节切分自动机” 思想. 它充分利用语音的短时能量 、过零率 、 基音周期和傅里叶频谱等多种特征参数及其差分信息, 把特征参数高度相似的相邻多帧语音(它们被 认为属于相同的发音状态) 进行归并, 形 成 归 并 类 似 段 (M SS, M ergedSim ilar Segment).

14、这些 M SS经过一个包含静音(噪声 )、 声母、 伪噪声、 韵母、 韵尾等状态的 “音节切分自动机” 后, 输出候选的音节边界点 . 图 2 是它的状态转移示意图.音节切分自动机充分利用M SS中的多种特征和汉语特有的声韵音节结构, 以及依据声韵及噪声段的统计特性而制定的若干规则, 给出一系列候选音节边界点,它们被称为假想切分点 (PSP, Putative Separation Point). 每个 PSP 同时又具有一个信任度值, 表明对其正确性的把握程度. 信任度值高于某个预设的“接受阈值”的 PSP 被认为是正确的音节分点 , 定义为真实切分点(TSP, T rue Separati

15、on Point); 否则被认为是错误的或不确定的.为了评价切分引擎的性能, 定义其切出率为TSP个数占实际音节分点个数的百分比 , 定义其分点正确率为TSP中实际正确的音节分点个数的百分比. 图 3 给出了在不同的信任度阈值情况下, 切出率与分点正确率的关系, 可见分点正确率是切出率的单调不增函数.274自动化学报26卷名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 8 页 - - - - - - - - - 图3切分引擎的切出率与分点正确率的关系根据图3 的规律 ,

16、可以把“接受阈值”选得比较苛刻, 从而保证认定的TSP有接近100%的正确率.对于那些没有确定为TSP 的实际音节分点 , 将由后续的声学搜索过程来发现. 另一方面 , 根据音节切分自动机经历的状态转移过程, 并通过一系列规则 , 可以在每个语音段内准确地估计出它所包含的音节个数范围. 切分引擎给出的TSP 以及有效语音段内的音节个数范围, 可以作为提供给后续声学搜索过程的一种导引知识,降低状态解码边界的不确定性,显著地提高搜索效率,使识别速度达到或接近实时.相邻两个T SP 之间的有效语音段定义为确定段, 每个确定段内包含一个或多个音节 , 根据汉语语音的特点和发音速度, 确定段内不会含有太

17、多的音节数目. 随后的SKB2FSS将在每个确定段内部进行, 以产生多候选音节串组成的网络, 供语言层面进行组句分析.213语言模型和组句分析EasyT alk 的 基 本 词 汇 有 5 万 多 个 词, 其 中 单 音 节 词 占 20181% , 双 音 节 词 占65150%, 三音节词占7136% , 四音节词占6133%. 此外用户还可任意添加不长于10 个音节的自定义词汇. 语言层采用基于T rigram 的统计语言模型, 训练语料库包括1993 和1994 年 人民日报的全文 , 以及市场报、新华社文稿、经济日报 的摘编等约2 亿字的文本 ,并预先进行了分词和词号标注.但无论训

18、练语料库的规模有多么大, 也不可能包含所有有意义的T rigram 词串 , 而识别时若出现训练文本中从未出现过的T rigram 词串 , 则其最大似然估计为0, 这显然是不合理的 . 在 EasyT alk 中, 我们使用一种基于Turing 概率估计的平滑算法 14 来解决这种由于数据稀疏而造成的0概率T rigram问题,从而降低了语言模型的困惑度.与 声 学 层 面 的 识 别 过 程 相 似, 语 言层 面 的 组 句 分 析 也 是 通 过 搜 索 实 现 的. 在EasyT alk 中, 根据声学识别层给出的候选音节网络, 以及语言模型提供的候选词串的T rigram概率 ,

19、采用 “音节同步网络搜索” 算法 15 ,来得到最终的候选语句(目标词串 ) 识别结果.3基于统计知识的帧同步搜索算法SKB2FSS311传统的帧同步搜索算法在传统的帧同步搜索算法的实现中, 搜索过程是逐帧进行的. 对于截止在时刻t的每一条部分路径, 时刻t+ 1 的特征矢量被假设为可属于这些路径的任何可能的后续状态.于是搜索进行到t+ 1 时刻时 ,t时刻的每条部分路径都根据其后续的可能状态列表, 用t+ 1 时刻的特征矢量扩展出若干条新的部分路径. 经过一些必要的状态合并动作并扔掉一些低竞争力的候选路径后, 搜索过程再向前推进一帧. 重复这一过程直到语音结尾.帧同步搜索算法简洁而且高效.然

20、而对于大词汇量、 连续语音的识别任务来说,随着时刻t的增加 , 扩展出来的搜索路径会急剧增加. 因此需要根据一定的准则随时剪除一些3744期宋战江等:汉语连续语音识别系统与知识导引的搜索策略研究名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 8 页 - - - - - - - - - 低竞争力的路径 . 但是, 较严的剪枝阈值可能会造成一些正确的路径被过早扔掉(这将无法在后续过程中得到恢复) ; 而较宽的剪枝阈值又会大大增加存储空间和搜索过程的负担.针对上述算法的不足,

21、我们认为可以将一些与帧驻留长度有关的统计知识应用于搜索过程的状态转移中, 以达到降低搜索复杂度的目的. 有两类统计知识可以利用:一种是基于纯统计知识的概率描述. 比较典型的是对状态驻留长度进行建模, 用概率密度来刻划状态驻留长度的分布情况. 在搜索时 , 把系统处在当前状态、 当前驻留长度下的条件概率作为惩罚分数加进路径的似然得分中,以此控制搜索路径的取舍.另一种则是基于统计知识的规则. 比如 , 根据类似的方法统计得到状态驻留长度分布的直方图,搜索时只有驻留长度落在允许范围内的路径才可以进行相应的状态转移或驻留 , 这可以看成是把第一种方法中的概率分布近似为均匀分布. 本文讨论的重点就是这种

22、基于规则的统计知识在帧同步搜索中的应用.312利用状态驻留分布信息的SKB2FSS状态驻留分布(SDD, State Dw ell D istribu tion ) , 或被称作统计直方图, 是被广泛使用的用以进行搜索剪枝的一种信息. 按照 32m s的帧宽 、 16m s 的帧移对正常语速的863数据库进行统计(采用 6 状态 HMM ) , 得到了表 1 所示的状态内驻留帧数的统计结果.表1用863数据库训练的模型中各状态驻留帧数统计(?)驻留帧数012345678第零状态010061304018936182121882148014101100104第一状态1106251144415521

23、17651821120012501090104第二状态0162171744011027101101303103018101200107第三状态0159131683219629132151185181117901470111第四状态1108191173414725173121694170114601450114第五状态010071294416432124111643111017201180107从表中可以看出, 每个状态内驻留的帧数比例最大的是2 帧, 平均覆盖了3916? ; 而比例最大的驻留帧数区间为0 5 帧, 覆盖了 9817? 以上 , 或 1 4 帧, 覆盖了 9510? 以上.我们

24、摒弃利用驻留帧数的分布概率来作为惩罚分数的做法, 而是确定一个允许的驻留帧数区间Dmin,Dm ax, 该区间确定了在搜索时哪些驻留长度是允许的. 很显然 , 若仅使用 SDD, 对语速的变化不会有很好的鲁棒性, 也不能保证很好的识别率. 因为绝对的区间宽度限制了语速的变化范围, 如果发音过长或过短, 就不可能得到正确的识别结果.313利用差分状态驻留分布信息的SKB-FSS考虑到状态驻留分布SDD 对语速变化的低鲁棒性, 我们不再以绝对的驻留区间作为控制状态转移的参考因素, 而是采用差分状态驻留分布(D SDD, D ifferen tial State Dw ellD istribu ti

25、on) 作为参考 . 表 2 是统计得到的相邻状态间差分驻留帧数的统计结果.从表 2 可以看出 , 差分驻留帧数主要集中于0 帧, 平均覆盖了3217? ; 而比例最大的差分驻留帧数区间为-4 4 帧, 覆盖了 9918? 以上 , 或-2 2 帧, 覆盖了 9514? 以上.因此 , 对于第一个状态, 仍然给它分配一个较宽的允许驻留帧数的范围, 以保证后续各个状态驻留范围的灵活性; 而对于其它的状态,分别为之确定一个允许的差分驻留帧数区 间 d(s)m in,d(s)m ax (s 0) , 于是其有效状态驻留帧数定义为D( s)+d(s)m in,D(s)+d(s)max. 其中 ,474

26、自动化学报26卷名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 8 页 - - - - - - - - - D( s)可以定义为第s-1 状态的驻留帧数(这被称为D SDD2L ST) , 也可以定义为前s- 1 个状态的平均驻留帧数(这被称为 D SDD2 AV G). 显然 , 采用这种搜索过程中的状态转移控制策略 ,就很容易与语速的变化相匹配了.表2用863数据库训练的模型中相邻状态间的差分驻留帧数统计(?)差分驻留帧数-4-3-2-101234零一状态间01182

27、13814167351023219812131211401270104一二状态间0106016541891818733100271591113921870157二三状态间0120112761251910630141251531212831800192三四状态间0161218711126261173019518144619711980148四五状态间012711365196201213519927125715711130116314SKB-FSS的路径剪枝策略虽然采用 SDD 或 D SDD 信息后 , 可以大大降低搜索时部分路径的膨胀速度, 但是其空间消耗仍然很大 . 因此在EasyT alk

28、中, 又采取了如下措施对搜索进行限制和剪枝:第一 , 采用词 (音节 ) 搜索树作为路径扩展过程中音节转移时的词法限制. 词搜索树中每个叶结点都对应于词表中的一个词, 从根结点到叶结点的树枝上的每个非叶结点依次代表了这个词的一个音节读音, 且具有起始于根结点的相同“部分发音序列” 的词共享相同的“部分非叶结点序列” . 当某个部分路径发生音节转移时, 仅仅根据词搜索树扩展出可能的后续音节, 而不是所有的418 个音节候选 . 这就可以大大压缩搜索空间的规模.第二 , 每当完成当前帧的路径扩展时,都要对具有相同候选音节序列和相同当前状态的那些路径进行筛选, 仅保留其中具有最高累积声学得分的一条或

29、多条路径. 根据 HMM状态转移的无后效性原理, 这种路径剪枝策略是合理的. 它可以及时扔掉一些低竞争力的部分路径 , 以保证后续扩展时较小的空间开销, 并且减少多余路径的干扰.第三 , 采用动态前向预测路径有效性的方法进行路径剪枝. 根据当前确定段的TSP和音节个数范围信息, SKB 2FSS 必须保证在搜索结束时, 有效路径的结尾候选音节的末状态恰好落在确定段的右边界上, 否则这条路径就是不合理的. 因此 , 在每帧完成扩展之后 , 根据 SDD 或 D SDD 中每个后续状态的允许驻留帧数范围, 确定每条路径从当前状态出发 , 总共可以到达的最小和最大的帧数范围Fm in,Fm ax,

30、然后与当前确定段的总帧数FD S相比 , 若Fm inFD S或Fm axFDS, 则说明这条路径将要扩展的“任何一条路径” 中的某音节的末状态都不可能恰好落在确定段的右边界上, 因此它被作为无效路径立即删除.通过上述的路径扩展限制和剪枝策略, 即保证了较小的时空开销、 提高了搜索效率,也减少了无效路径的干扰, 提高了声学层面的整体识别率.4实验结果我们通过实验对SKB2FSS 的各种策略进行了比较. 为了更好地测试这些策略在纯声学层面上的有效性, 首先禁止了EasyT alk 中的语言模型处理选项, 挑选了 204 个汉语词组 , 每个词组包含2 到 4 个音节 ,分别由 10 个人进行发音

31、 . 测试了采用SDD 和 D SDD (包括 D SDD2 L ST 和D SDD2 AV G) 方案时 SKB2FSS 对它们的声学识别结果. 对每种方案 , 分别统计识别结果中各个词组前5 个候选的累积识别率, 见表 3 .5744期宋战江等:汉语连续语音识别系统与知识导引的搜索策略研究名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 8 页 - - - - - - - - - 表3控制状态转移的搜索策略性能比较(词识别率% )候选数策略12345SDD6312671

32、1671669116916D SDD2L ST77198218841886188812D SDD2AV G86138917921694119611从表中可以看到, 对于上述词组的首选词识别率, 利用差分状态驻留信息的D SDD2AV G 的性能比仅利用静态状态驻留信息的SDD 的性能相对提高了3616%. D SDD 规则之所以有较好的效果, 其主要原因是它能够较好地与语速相匹配,同时把一些不符合实际的搜索路径及时剪除, 排除了“干扰”, 使得搜索算法能够把有限的搜索空间限制在最有意义的路径上 . 同时 , 与基本的帧同步搜索算法相比, SKB2FSS的搜索速度也有较大的提高.另一方面 , 在

33、采用SKB2FSS (选择 D SDD2 AV G 策略 ) 的当前版本的EasyT alk 上, 允许了语言模型处理的功能后, 从 863 数据库的 10 个人的样本中随机抽取出200 个语句进行了连续语音的整句识别测试, 其总体的字正确率达到了8716%.5结论本文从整体上介绍了连续汉语语音识别系统EasyT alk的实现原理, 并重点介绍了声学层面采用的基于统计知识的帧同步搜索算法SKB 2 FSS. SKB2 FSS 包含了三个基本层次 :1) 基于归并的音节切分自动机产生待搜索的语音确定段, 减少基元边界的不确定性.2) 采用基于统计知识的(差分 ) 状态驻留信息 , 来控制搜索过程

34、中的状态转移过程.3) 利用词搜索树控制基元的扩展规模, 并根据动态前向预测进行合理而及时的剪枝.通过纯声学层面的词组识别,以及听写机系统上的连续语音整句识别的实验结果, 验证了 SKB2FSS 算法在汉语连续语音识别中的有效性.参考文献1Zheng F, Song Z J, Xu M Xet al.EasyTalk : A large2vocabulary speaker2independent Chinese dictati on machine.In:Proceedings EURO SPEECH.Budapest , Hungary , 1999, 2: 8198222Rabiner

35、L R, Juang B H.Introducti on to hidden M arkov models.IE E E A SSP M ag az ine(A coustics,Sp eech,andS ig nal P rocessing) , 3( 1):416, 19863Huang X D ,Jack MA .Semi2continuoushidden M arkov modelsfor speech signals.Comp uterSp eech andL ang uag e, 1989, 3:2392514V iterbi A J.E rro r bounds for conv

36、o luti onal codes and an asymptotically op timum decoding algo rithm .IE EET rans.Inf orm ationTheory. 1967,IT213: 2602675L ee C H, Rabiner L R. A F rame Synchronous netwo rk search algorithmfor connected wo rd recogniti on.IE EET rans.A coustics,Sp eech,and S ig nal P rocessing, 1989, 37 (11) : 164

37、916586KennyP,Ho llanR,Gup ta Vet al.A32A dmissibleheuristicsforrapid lexicalaccess .In:ProceedingsICA SSP .To ronto , Canada, 1991, 1: 689692674自动化学报26卷名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 8 页 - - - - - - - - - 7Paul D B. A lgo rithm s for an optimal

38、A3search and linearizingthe search in the stack decoder.In: ProceedingsICA SSP .To ronto , Canada, 1991, 1: 6936968L i Z , BoulianneG, L abute Pet al. B i2directi onal graph search strategies for speech recogniti on.Comp uter Speechand L ang uag e, 1996,10:2953219Juang B H , Rabiner L R. A probabili

39、sticdistance measure fo r hidden M arkov models.A T&T T echnicalJournal,1985, 64 (2) :39140810D avis S B, M ermelsteinP.Comparisonofparametricrepresentati ons fo r mono syllabic wo rd recogniti on incontinuouslyspoken sentences.IE E E T rans.A coustics,Sp eech,and S ig nal P rocessing, 1980, A SSP22

40、8(4) : 35736611FuruiS .Speaker2Independent isolatedwo rd recogniti on using dynam icfeatures of speech spectrum.IE E E T rans.A coustics,Speech,and S ig nal P rocessing, 1986,34(1) : 525912蒋力.基于概率统计模型的非特定人语音识别方法与系统的研究硕士学位论文.北京:清华大学计算机科学与技术系, 198913张继勇,郑方等.连续汉语语音识别中基于归并的音节切分自动机.软件学报, 1999, 10(11) : 1

41、212121514牟晓隆,詹津明等.基于修正退化频度估计算法的N2gram语言模型.第五届全国人机语音通讯学术会议论文集.哈尔滨:哈尔滨工业大学, 1998. 20620915Zheng F. A syllable2synchronous netwo rk search algorithm for wo rd decoding in Chinese speech recogniti on.In:Proceedings ICA SSP.Phoenix , U S A , 1999, 2: 601604宋战江 1972年9月生.分别于1994年和1997年在南开大学获得计算机软件专业学士学位和计算

42、机应用专业硕士学位.现在清华大学计算机系攻读博士学位,研究方向为语音识别和理解.郑方 1967年3月生.分别于1990年和1992年获清华大学计算机科学与技术专业学士学位和硕士学位,于1997年获清华大学计算机应用专业博士学位.现为清华大学计算机系副教授、 语音实验室主任、 清华 2AD ID SP技术研究中心主任、IEEE会员、中文信息学报 编委.专业兴趣包括信号处理,语音识别和理解等.7744期宋战江等:汉语连续语音识别系统与知识导引的搜索策略研究名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 8 页 - - - - - - - - -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁