《语音模式识别与声控智能家居设想(共7页).doc》由会员分享,可在线阅读,更多相关《语音模式识别与声控智能家居设想(共7页).doc(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上语音模式识别与声控智能家居设想模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安验证方式。而且利用基因算法训练连续隐马尔柯夫模型的语音识别方法现已成为语音识别的主流技术,该方法在语音识别时识别速度较快,也有较高的识别率。语音识别本质上是一种模式识别,因此,识别算法的好坏对识别效果影响巨大。在半个多世
2、纪的发展中,各种算法层出不穷,如滤波器模型法、线性预测技术(LP) 、动态时间规整算法(DTW) 、隐马尔科夫模型( HMM) 、矢量量化技术(VQ) 、人工神经网络(ANN) 和支持向量机( SVM) 等。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。一 语音识别的原理1.声学特征提取声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧
3、,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。2.模型建立语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学模型主要包括HMM声学建模和上下文相关建模。语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。3.语音搜索连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依
4、据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。方法包括Viterbi、N-best搜索和多遍搜索、前向后向搜索算法。4.系统实现语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。二 语音识别的过程语音识别主要包括语音信号预处理、特征提取、特征建模(建立参考模式库) 、模式匹配和后处理几个功能模块,其中后处理为可选部分,如图3 所示。图3 基于仿生模式识别的语音
5、识别原理框图一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别,都需要首先对输入的语音进行预处理,并进行特征提取。下具体说明各个模块的功能。 (1) 预处理:对输入的原始语音信号进行处理,滤除背景噪声等,进行语音信号的断点检测5 ,并进行语音分帧以及预加重等处理工作。(2) 特征提取:负责计算语音的声学参数,并进行特征的计算,提取关键特征参数。为了减小计算量,本文采用一种新的特征提取方法,在传统的能量、过零率、倒谱等特征的基础上,提取每个字能量、过零率和倒谱的最大值的位置在字中所占的比例作为改进的特征量。(3) 识别阶段:将输入语音的特征量和参考模式库中的模式进行比较,将相似度最高
6、的模式所属的类别作为识别的中间候选结果输出。(4) 训练阶段:输入若干次训练语音,用上述提取得到一组特征参数,建立训练语音的参考模式库。(5) 后处理:对上述得到的候选识别结果继续处理,通过更多知识的约束,得到最终的结果。三 自适应与鲁棒性语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。解决办法按针对语音特征的方法和模型调整的方
7、法分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中
8、减去其长时平均值和RASTA滤波,模型方法有倒谱平移。四 声控智能家居控制口令触发模式:设置合理确认流程声控智能家居控制,是在现有的智能家居控制系统中,增加了语音用户界面VUI。目前已有的智能家居控制系统,主要有两种方式:无线遥控和有线操作(电力载波或者中央布线)。都会有一个中央控制器或者中央遥控器来操作家里的各种家电。通过在中央控制器或者遥控器中集成引入LD3320 芯片,可以很方便的为智能家居系统增加语音用户界面VUI。对于中央遥控器,如果是使用电池供电,那么就应该采用和声控电视遥控器采用一样的按键触发模式。考虑到用户的需求,在不接触控制器的状态下,通过语音来远程操作家里的各种家电。因此,
9、口令触发模式就是最适合的模式。同时,一定需要设置确认的流程,务必要避免误触发/误识别的情况发生。以下以三个二级确认的流程来举例说明,开发者可以在此基础上进行修改,或者拓展成三级确认的流程。也可以在产品中支持多种流程,由终端用户根据自己使用的习惯来选择。1) 设置前置口令,第二级说“操作+设备”设置口令为“阿拉丁”或者“大管家”(口令可以选择发音响亮,琅琅上口的词语)。中央控制器处于一直上电的状态,所以识别芯片一直处于循环识别状态,只有在识别出是口令后,才进入下一阶段的识别流程。并且充分利用LD3320芯片的特性,在添加口令的同时另外增加垃圾词语直至达到LD3320 芯片的最大容量,这样可以很大
10、程度地避免其他声音带来的误识别。(在成功识别出口令后,可以选择播放很轻微的“嘀”的一声,或者闪一下小的LED 灯,来作为提示)在识别出口令后,在接下来的8 秒钟时间内,等待接收用户的命令,比如“全部关闭”,“打开厨房灯”,“打开空调”等等。如果在限定的时间内,没有正确识别和接收到用户的命令,则取消本次识别流程。重新回到等待口令的状态。2) 把操作(打开/关闭)作为口令,第二级说“设备”从 1)的流程可以变化出另外一种流程:口令设置为“打开”和“关闭”,命令词语为“台灯”,“空调”等设备名称。3) 第一级循环识别“操作+设备”,第二级说“确定”这一种是“后确认”的流程:在第一级循环识别时,识别内
11、容是操作的名称,比如“打开床头灯”,“全部关闭”等等,识别出后,只有在接下来的5 秒钟时间内说出“确定”这个关键口令,才进行正式操作,否则就取消本次识别流程,重新进入循环识别状态。说明:1. 每次加载识别列表时,如果命令字不到LD3320 的最大容量,都可以添加垃圾词语吸收可能的噪音2. 可以对同一识别词语设置多个不同的习惯发音,方便用户使用。五、结 语虽说智能家居系统中也早已有厂家将语音控制引入其中,并宣传这将是未来主流方向,但是鉴于目前存在着种种因素的影响,如对自然语言的识别和理解、语音信息量大、语音的模糊性、单个字母或词、字的语音特性受上下文的影响、环境噪声和干扰对语音识别有严重影响,致使识别率低等问题。这些都致使语音系统并未能真正进入智能家居系统,而所谓的引领智能家居声控潮流,还为时尚早!唯有技术不断升级及产品的更新方能真正让声控技术进入智能家居市场!参考文献1 徐毅,殷业,王沛.基于仿生模式识别的语音识别研究. 上海电机学院学报2007 年第10 卷第2 期2 声控智能产品语音界面设计指南. 3 黄子君,张亮.语音识别技术及应用综述J江西教育学院学报2010年6月第31卷第3期4 田丽,刘英楠,孟耀华.基于过程神经网络的语音识别技术研究J.vol.40,No.10October,20105 杜胜超.语音识别系统的设计与实现J.硅谷-2010年9期专心-专注-专业