语音识别 ——总结知识点1.docx

上传人:安*** 文档编号:71086327 上传时间:2023-02-01 格式:DOCX 页数:10 大小:21.67KB
返回 下载 相关 举报
语音识别 ——总结知识点1.docx_第1页
第1页 / 共10页
语音识别 ——总结知识点1.docx_第2页
第2页 / 共10页
点击查看更多>>
资源描述

《语音识别 ——总结知识点1.docx》由会员分享,可在线阅读,更多相关《语音识别 ——总结知识点1.docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、语音识别总结知识点(1)一、语音识别的相关解释语音识别通常称为自动语音识别英文是AutomaticSpeechRecognition缩写为ASR主要是将人类语音中的词汇内容转换为计算机可读的输入一般都是可以理解的文本内容也有可能是二进制编码或字符序列。但是我们一般理解的语音识别其实都是狭义的语音转文字的经过简称语音转文本识别(SpeechToText,STT)更适宜这样就能与语音合成(TextToSpeech,TTS)对应起来。二、语音识别涉及到的学科语音识别是一门穿插学科。语音识别技术所涉及的领域包括:信号处理、形式识别、概率论以及信息论、发声机理以及听觉机理覆盖了数学与统计学、声学与语言学

2、、计算机与工智能等根底学科以及前沿学科是人机自然交互技术中的关键环节。但是语音识别自诞生以来的半个多世纪一直没有在实际应用经过得到普遍认可一方面这与语音识别的技术缺陷有关其识别精度以及速度都达不到实际应用的要求;另一方面与业界对语音识别的期望过高有关实际上语音识别与键盘、鼠标或者触摸屏等应是交融关系而非替代关系。三、语音识别的开展1952年度贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。进入了70年度代以后,出现了大规模的语音识别研究,在小词汇量、孤立词的识别方面获得了本质惟的进展。进入80年度代以后研究的重点逐渐转向大词汇量、非特定人连续语音识别。进入90

3、年度代以后在语音识别的系统框架方面并没有什么重大打破。但是在语音识别技术的应用及产品化方面出现了很大的进展。进入2000后语音识别的研究方向多了机器学习中的深度学习领域十分是2020年度以来借助机器学习领域深度学习研究的开展和大数据语料的积累语音识别技术得到突飞猛进的开展。四、语音识别的分类4.1根据不同对象分类1孤立词识别任务是识别事先已知的孤立的词如“开机、“关机等。2关键词识别或者称关键词检出keywordspotting连续语音流中的关键词检测针对的是连续语音但它并不识别全部文字而只是检测已知的假设干关键词在何处出现如在一段话中检测“计算机、“世界这两个词。3连续语音识别连续语音识别的

4、任务那么是识别任意的连续语音如一个句子或者一段话。4.2根据不同发音人分类1特定人语音识别特定人语音识别只能识别一个或者几个人的语音。2非特定人语音识别非特定人语音识别那么可以被任何人使用。显然非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。4.3根据语音设备以及通道分类1桌面PC语音识别2语音识别3嵌入式设备手机、PDA等语音识别4.4根据应用场景分类1语音输入系统相对于键盘输入方法它更符合人的日常习惯也更自然、更高效。2语音控制系统即用语音来控制设备的运行,相对于手动控制来讲更加快捷、方便可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域。3智能对话

5、查询系统根据客户的语音进展操作为用户提供自然、友好的数据库检索效劳例如家庭效劳、宾馆效劳、旅行社效劳系统、订票系统、医疗效劳、银行效劳、股票查询效劳等等。五、语音识别的模型5.1传统机器学习模型特征提取方法1LPC线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究认为系统的传递函数符合全极点数字滤波器的形式进而n时刻的信号可以用前假设干时刻的信号的线性组合来估计。通过使实际语音的采样值以及线性预测采样值之间到达均方差最小LMS即可得到线性预测系数LPC。对LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这

6、种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。2CEP利用同态处理方法对语音信号求离散傅立叶变换DFT后取对数再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP)在获得滤波器的线性预测系数后可以用一个递推公式计算得出。实验说明使用倒谱可以进步特征参数的稳定性。3Mel不同于LPC等通过对人的发声机理的研究而得到的声学特征Mel倒谱系数MFCC以及感悟线性预测PLP是受.人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现当两个频率相近的音调同时发出时人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界当两个音调的频率差小于临界带宽

7、时人就会把两个音调听成一个这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一. (4)MFCC首先用FFT将时域信号转化成频域,之后对其对数能量谱用按照Mel刻度分布的三角滤波器组进展卷积最后.对各个滤波器的输出构成的向量进展离散金弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数但在计算自相关参数时用的也是对听觉鼓励的对数能量谱进展DCT的方法。六、深度学习模型使用深度学习模型提取特征,相比于机器学习的特征提取方法深度学习模型对于特征提取的方法更为简单它是一个端到端的特征提取方法,完全舍弃了人为的特征提取方法的设计。模型类别1DNN-HMMDNN-HMM主要是用DNN模型代

8、替原来的GMM模型对每一个状态进展建模DNN带来的好处是不再需要对语音数据分布进展假设,将相邻的语音帧拼接又包含了语音的时序构造信息使得对于状态的分类概率有了明显提升同时DNN还具有强大环境学习才能可以提升对噪声以及口音的鲁棒性。2RNNDNN是给出输入的一串特征所对应的状态概率。由于语音信号是连续的不仅各个音素、音节和词之间没有明显的边界各个发音单位还会受到上下文的影响。固然拼帧可以增加上下文信息,但对于语音来讲还是不够。而递归神经网络(RNN)的出现可以记住更多历史信息更有利于对语音信号的上下文信息进展建模。3LSTM由于简单的RNN存在梯度爆炸以及梯度消散问题难以训练无法直接应用于语音信

9、号建模上因此学者进一步探究开发出了很多合适语音建模的RNN构造其中最有名的就是LSTM。LSTM通过输入门、输出门以及遗忘门可以更好的控制信息的流动以及传递具有长短时记忆才能。固然LSTM的计算复杂度会比DNN增加但其整体性能比DNN有相对20%左右稳定提升。4BLSTMBLSTM是在LSTM根底上做的进一步改良不仅考虑语音信号的历史信息对当前帧的影响还要考虑将来信息对当前帧的影响因此其网络中沿时间轴存在正向以及反向两个信息传递经过这样该模型可以更充分考虑上下文对于当前语音帧的影响可以极大进步语音状态分类的准确率。BLSTM考虑将来信息的代价是需要进展句子级的更新模型训练的收敛速度比拟慢同时也

10、会带来解码的延迟对于这些问题业界都进展了工程优化与改良即使如今仍然有很多大公司使用的都是该网络模型构造。5CONV语音信号的时频图可以以看作是一幅图像,因此CNN也被引入到语音识别中。要想进步语音识别率就需要克制语音信号所面临的多样性包括讲话人自身、讲话人所处的环境、收集设备等这些多样性都可以等价为各种滤波器与语音信号的卷积。而CNN相当于设计了一系列具有部分关注特性的滤波器,并通过训练学习得到滤波器的参数,进而从多样性的语音信号中抽取出不变的局部CNN本质上可以以看作是从语音信号中不断抽取特征的一个经过。CNN相比于传统的DNN模型在一样性能情况下前者的参数量更少。6CTC前面几个语音识别架

11、构里的声学模型每一帧输入都对应一个标签类别标签需要反复的迭代来确保对齐更准确。采用CTC作为损失函数的声学模型序列不需要预先对数据对齐只需要一个输入序列以及一个输出序列就可以进展训练。CTC关心的是预测输出的序列是否以及真实的序列相近而不关心预测输出序列中每个结果在时间点上是否以及输入的序列正好对齐。CTC建模单元是音素或字因此它引入了Blank。对于一段语音CTC最后输出的是尖峰的序列尖峰的位置对应建模单元的Label其他位置都是Blank. (7)SEQ2SEQ(Attention)Sequence-to-Sequence方法原来主要应用于机器翻译领域。2017年度Google将其应用于语

12、音识别领域,获得了非常好的效果将词错误率降低至5.6%。如下列图所示Google提出新系统的框架由三个局部组成:Encoder编码器组件它以及标准的声学模型相似输入的是语音信号的时频特征;经过一系列神经网络映射成高级特征henc然后传递给Attention组件其使用henc特征学习输入x以及预测子单元之间的对齐方式子单元可以是一个音素或者一个字。最后attention模块的输出传递给Decoder,生成一系列假设词的概率分布类似于传统的语言模型。七、开源语音识别库1Kaldi开源语音识别Kaldi是业界语音识别框架的基石。Kaldi的DanielPovey一直推崇的是Chain模型。该模型是一

13、种类似于CTC的技术,建模单元相比于传统的状态要更粗颗粒一些只有两个状态一个状态是CDPhone另一个是CDPhone.的空白训练方法采用的是Lattice-FreeMMI训练。该模型构造可以采用低帧率的方式进展解码解码帧率为传统神经网络声学模型的三分之一而准确率相比于传统模型有非常显著的提升。2Torchadiotorchaudio在torchaudio.kaldi_io中提供与Kaldi的兼容性。torchaudio提供与Kaldi兼容的spectrogram以及fbank转换并支持GPU。Torchaudio还提供了统一的数据集界面。该接口支持将文件延迟加载到内存下载以及提取函数和数据集

14、以构建模型。八、语音数据库在语音识别的研究开展经过中相关研究人员根据不同语言的发音特点设计以及制作了以汉语(包括不同方言)、英语等各类语言的语音数据库这些语音数据库可以为国内外有关的科研单位以及大学进展汉语连续语音识别算法研究、系统设计、及产业化工作提供充分、科学的训练语音样本。不同的收集通道会使人的发音的声学特性发生变形因此需要构造各自的识别系统。MITMedialabSpeechDataset(麻省理工学院媒体实验室语音数据集)PitchandVoicingEstimatesforAurora2(Aurora2语音库的基因周期以及腔调估计)Congressionalspeechdata(国

15、会语音数据)MandarinSpeechFrameData(普通话语音帧数据)自制数据集假如是特定的语音识别那么需要自制数据集.九、语音数据的预处理在对语音数据的特征提取之前一般先对原始语音进展处理局部消除噪声以及不同讲话人带来的影响使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测以及语音增强。1端点检测端点检测是指在语音信号中将语音以及非语音信号时段区分开来准确地确定出语音信号的起始点。经过端点检测后后续处理就可以只对语音信号进展这对进步模型的准确度以及识别正确率有重要作用。2语音增强语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。以及傅里叶变换的滤波器不同的是深度学习中对于提取某个人的声音时需要训练一个对这个人的声波特点的滤波器来专门提取他的声音。而傅里叶变换的滤波器是固定的几种滤波。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 工程图纸

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁