《音视频开发39.docx》由会员分享,可在线阅读,更多相关《音视频开发39.docx(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、音视频开发(39)1.1语音增强大概情况语音增强英文名SpeechEnhancement其本质就是语音降噪换句话讲日常生活中麦克风收集的语音通常是带有不同噪声的“污染语音语音增强的主要目的就是从这些被“污染的带噪语音中恢复出我们想要的干净语音。语音增强涉及的应用领域特别广泛包括语音通话、会议、场景录音、军事窃听、助听器设备以及语音识别设备等并成为许多语音编码以及识别系统的预处理模块。举几个简单的例子在手机的语音助手中例如苹果的Siri、微软的小娜属于这其中的佼佼者他们在近间隔一般工作间隔小于1米、无噪声的环境中进展语音识别有着较高的语音识别准确率但是假如我们的声学场景变得更加复杂比方展会街道等
2、场景中噪声的影响会大大降低他们的语音识别准确率因此进展语音识别的前端降噪显得特别重要。此外在一些助听器设备中语音增强技术也有其应用。通常的助听器只是实现一个语音的根本放大复杂一些的会进展声压级压缩以实现对患者听觉范围的补偿但是假如听觉场景比拟复杂患者听到的语音中不仅包含了放大后的语音也包含了很多噪声时间一长势必会对患者的听觉系统造成二次损害因此高端的数字助听器设备中语音降噪也成为了他们不容无视的一个重要方面。语音增强作为数字信号处理的一个分支已经有了50多年度的历史。固然语音增强技术看似只是一个简单的纯洁语音恢复经过但是其中涉及的知识以及算法是广泛而又多样的。在学术界该领域的研究可以讲是“百花
3、齐放百家争鸣既有传统的数字信号处理的方法又有近几年度刚刚兴起的深度学习的方法。经过几十年度的开展学术界也涌现出来了不少大牛像RainerMartin、YarivEphraim、IsraelCohen、PhillipLoizou和SharonGannot等这几位前辈在数字信号处理领域的语音增强方法中起到的特别重要的推动作用。然而在语音增强的另一个新兴领域深度学习语音增强固然是后起之秀但是伴随着硬件技术的晋级该技术在工程界得以落地也使其在语音增强领域站住了脚跟。当然该技术的开展与“深度学习之父GeoffreyHinton在神经网络构造上获得的重大成果是分不开的。在当今学术界假如讲在该领域真正占有一
4、席之地的我个人认为当属俄亥俄州立大学的汪德亮教授他的实验室以及学生对深度学习语音增强这一方法的开展起到了特别重要的推动作用。1.2语音增强方法分类对于语音增强方法的分类可以按照其运用方法的不同进展分类于是便可以分成如下两大类数字信号处理的语音增强方法以及基于机器学习的语音增强方法。其中数字信号处理的语音增强方法是主流方法历史悠久且拥有很深的技术奠基是目前工程界进展语音降噪的主要思路。而在传统的数字信号处理的方法中按照其通道数目的不同又可以进一步划分为单通道语音增强方法以及麦克风阵列的语音增强方法。在传统的单通道语音增强方法中对数字信号处理的知识运用较多时域以及频域的方法都有以频域处理为主其中基
5、于短时谱估计的语音增强方法是目前应用最为广泛的语音增强方法详细的算法可以分为以下三大类谱减法、维纳滤波法以及基于统计模型的方法。除了上述提到的短时谱方法在单通道的语音增强领域还有一种自适应滤波的方法但是其需要事先知道噪声或纯洁语音然后利用随机梯度下降的方式进展最优解的逼近而在大多数情况下噪声或纯洁语音等先验知识是无法获得的因此大大限制了自适应滤波方法的应用但是该方法在手机通话中的降噪应用比拟广泛通常手机中都会专门用一个降噪麦克风来收取环境中的噪音以此作为参考输入来实现降噪。此外在单通道的方法之中还有一种基于子空间的方法也备受关注但由于其运算度相对较高所以在工程中的应用并不算广泛。近些年度以来小
6、波变换的方法开展迅猛它克制了短时傅里叶变换固定分辨率的缺点可以获得信号在不同分别率上的信息在近几年度里得到了广泛的应用。而在麦克风阵列的语音增强方法中由于利用了更多的麦克风考虑了信号的空间信息因此在抑制特定方向的干扰、进展语音别离等方面比单通道的语音增强更有优势。麦克风阵列的语音增强方法目前在智能音箱、机器人等领域应用较多利用其多麦克风的优势这类产品可以实如今远场以及更复杂的声学环境中进展语音增强。主流的麦克风阵列方法有固定波束形成的方法以及自适应波束形成的方法。固定波束形成的应用环境特别受限但运算复杂度较低所以一般应用于声学场景固定不变的环境中而自适应波束形成的方法那么表现出更好的鲁棒性当然
7、这也是以牺牲运算复杂度为代价目前自适应波束形成方法主要有两大阵营LCMV构造以及GSC构造如今的麦克风阵列语音增强算法根本上都是基于这两种构造进展地改良以及优化。基于机器学习的语音增强方法算是奇巧之技不同于传统的数字信号处理方法它借鉴机器学习的思路通过有监视的训练实现语音增强。该领域的算法算是刚刚起步满打满算也没有二十年度的历史但是“存在即合理它之所以可以在语音增强领域占有一席之地也有其优势所在例如在数字信号处理领域的一些比拟棘手的问题比方瞬时噪声的消除这类方法另辟蹊径可以较容易地将其解决因此这类算法也许会成为将来人工智能时代的语音增强主流方向。如今运用机器学习的语音增强方法不多大致梳理一下可
8、以分成以下几类基于隐马尔科夫模型的语音增强、基于非负矩阵分解的语音增强、基于浅层神经网络的语音增强以及基于深层神经网络的语音增强。其中基于深度神经网络的语音增强方法也就是深度学习语音增强利用深度神经网络构造强大的非线性映射才能通过大量数据的训练训练出一个非线性模型进展语音增强获得了特别不错的效果。此外该类方法在工程界也刚刚实现落地华为今年度发布的mate10手机已成功地将该技术应用到了复杂声学环境中的语音通话中也算是开拓了深度学习应用于语音增强的先河将来该何去何从仍需要我们这一代人的不懈努力。1.3语音增强入门语音增强的方向较多各方向领域的大牛不同涉及的知识也不太一样因此分别给出了不同的语音增
9、强研究方向的大牛以及书籍。传统单通道的语音增强方法YarivEphraim主页:/ece.gmu.edu/yephraim/RainerMartin主页:/ruhr-uni-bochum.de/ika/mitarbeiter/martin_publik.htm#2017IsrealCohen主页:/webee.technion.ac.il/people/IsraelCohen/PhilipLoizou主页:/ecs.utdallas.edu/loizou/推荐书籍:?语音增强理论与理论?Loizou麦克风阵列的语音增强方法SharonGannot主页:/eng.biu.ac.il/gannot/JacobBenesty主页:/externe.emt.inrs.ca/users/benesty/推荐书籍?WidebandBeamformingConceptsandTechniques?WeiLiu基于深度学习的语音增强方法汪德亮主页:/web.cse.ohio-state.edu/wang.77/index.html推荐学习吴恩达深度学习在线课程:/mooc.study.163/smartSpec/detail/1001319001.htm博士论文?基于深层神经网络的语音增强方法研究?徐勇2021