《清华大学多媒体25.pptx》由会员分享,可在线阅读,更多相关《清华大学多媒体25.pptx(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、会计学1清华大学多媒体清华大学多媒体25n n 按照语音的输入方式 语音识别的研究集中于对孤立词、连接词和连续语音的识别。第1页/共15页n n按发音人可分为特定人、限定人和非按发音人可分为特定人、限定人和非特定人语音识别三种特定人语音识别三种 对于特定人进行语音识别的系统,使用前需对于特定人进行语音识别的系统,使用前需由特定人对系统进行训练。由特定人对系统进行训练。如果需要限定的几个人使用同一系统,则可如果需要限定的几个人使用同一系统,则可以研制成限定人识别系统。以研制成限定人识别系统。如果一个系统不必经使用者训练就可以识别如果一个系统不必经使用者训练就可以识别各种发音者的语音,则称为非特定
2、人语言识别。各种发音者的语音,则称为非特定人语言识别。第2页/共15页n n 对说话人的声文进行识别 这是研究如何根据语音来辨别说话人的身份、确定说话人的姓名。第3页/共15页3.5.2 3.5.2 语音识别研语音识别研究的难点究的难点 语音识别的目的是抽取语音信号携带的信息。而语音信号是时间依赖信号。它的特征具有时变性、瞬变性的特点。其随机性和非平稳性给识别带来很多困难。众多专家从事语音识别相关技术的研究。第4页/共15页其研究工作主要有:其研究工作主要有:其研究工作主要有:其研究工作主要有:特征的抽取和表示特征的抽取和表示 声学声学-语音学模型语音学模型 语言学模型语言学模型 识别系统的稳
3、健性识别系统的稳健性第5页/共15页3.5.3 3.5.3 语音识别系统语音识别系统示例示例 1.知音文书机知音文书机 知音文书机是一个集语音识别、语音和语言理解、语音合成以及手写体识别等功能为一体的中文话语系统。第6页/共15页该系统分为以下几个部分:该系统分为以下几个部分:预处理 特征参数提取 参数模板存储 识别判决第7页/共15页 该系统的词表为208个军事用语。识别采用的参数是16阶CEP系数,分析窗宽为256,窗移128。研究者充分考虑了汉语语音的特点,探索众多话音语音的共性特征及其聚类方法,提出简洁有效的SPM模型。2.非特定人语音识别系统非特定人语音识别系统第8页/共15页 说话
4、人识别具有广泛的应用前景,它可分为说话人确认和说话人辨识。3.说话人识别说话人识别第9页/共15页 话语系统(话语系统(Spoken Spoken Language SystemLanguage System)主要由以主要由以下三部分组成:语音识别下三部分组成:语音识别(Speech RecognitionSpeech Recognition)、)、自自然语言处理(然语言处理(Natural Natural Language ProcessingLanguage Processing)及人及人机接口技术(机接口技术(Human Human Interface TechnologyInterfa
5、ce Technology)。)。4.话语系统话语系统第10页/共15页3.5.4 3.5.4 语音识别技术的应用语音识别技术的应用 语音识别技术应用于需要以语音作为人机交互手段的场合,主要是实现听写和命令控制功能。第11页/共15页 使用语音将使计算机的操作变得简单方便,而对于不能做键入动作的残疾人以及医学、法律和其他领域的工作人员,他们不能或不便用手将信息输入计算机,这些场合下,使用语音操作计算机就越发显得重要。第12页/共15页 电话商业服务是语音识别技术应用的又一个主要领域。语音拨号电话机,具有语音识别能力的电话订票服务和自动话务转换系统在国外已经有一定程度的应用。第13页/共15页 目前,计算机领域多媒体技术发展很快,使多媒体产品具有语音识别能力,将成为商业竞争中优先考虑的问题。第14页/共15页