终于有人把智能语音处理讲明白了.docx-淘文阁

资源描述

《终于有人把智能语音处理讲明白了.docx》由会员分享，可在线阅读，更多相关《终于有人把智能语音处理讲明白了.docx（7页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、终于有人把智能语音处理讲明白了导读本文将介绍智能语音处理的根本概念、根本框架以及根本模型。张宏伟孙蒙杨吉斌等来源大数据DTIDhzdashuju机器学习的快速开展为智能语音处理奠定了坚实的理论以及技术根底。智能语音处理的主要特点是从大量的语音数据中学习以及发现其中蕴含的规律可以有效解决经典语音处理难以解决的非线性问题进而显著提升传统语音应用的性能也为语音新应用提供性能更好的解决方案。01智能语音处理的根本概念为简化处理经典的语音处理方法一般都建立在线性平稳系统的理论根底之上这是以短时语音具有相对平稳性为前提条件的。但是严格来讲语音信号是一种典型的非线性、非平稳随机经过这就使得采用经典的处理方法

2、难以进一步提升语音处理系统的性能如语音识别系统的识别率等。随着机器人技术的不断开展以机器人智能语音交互为代表的语音新应用迫切要求开展新的语音处理技术与手段以进步语音处理系统的性能程度。近十年度来人工智能技术正以前所未有的速度向前开展机器学习领域不断涌现的新技术、新算法十分是新型神经网络以及深度学习技术等极大地推动了语音处理的开展为语音处理的研究提供了新的方法以及技术手段智能语音处理应运而生。至今为止智能语音处理还没有一个准确的定义。广义上来讲在语音处理算法或者系统实现中全部或者局部采用智能化的处理技术或者手段均可称为智能语音处理。02智能语音处理的根本框架 “声源-滤波器模型固然可以有效地区分

3、声源鼓励以及声道滤波器对它们进展高效的估计但语音产生时发声器官存在着协同动作存在紧耦合关系采用简单的线性模型无法准确描绘语音的细节特征。同时语音是一种富含信息的信号载体它承载了语义、讲话人、情绪、语种、方言等众多信息别离、感悟这些信息需要对语音进展特别精细的分析对这些信息的判别也不再是简单的规那么描绘单纯对发声机理、信号的简单特征采用人工手段去分析并不现实。类似于人类语言学习的思路采用机器学习手段让机器通过“聆听大量的语音数据并从语音数据中学习蕴含其中的规律是有效提升语音信息处理性能的主要手段。与经典语音处理方法仅限于通过提取人为设定特征参数进展处理不同智能语音处理最重要的特点就是在语音处理经

4、过或者算法中表达从数据中学习规律的思想。图1-5给出了智能语音处理的三种根本框架图中虚线框局部有别于经典语音处理方法包含了从数据中学习的思想是智能语音处理的核心模块。图1-5智能语音处理的根本框架其中图1-5a是在经典语音处理特征提取的根底上在特征映射局部融入了智能处理是机器学习的经典形式图1-5b以及图1-5c是表示学习的根本框架其中图1-5c是深度学习的典型框架“深度层次化的抽象特征是通过分层的深度神经网络构造来实现的。03智能语音处理的根本模型智能语音处理是智能信息处理的一个重要研究领域智能信息处理涉及的模型、方法、技术均可应用于智能语音处理。智能语音处理的根本模型以及技术主要来源于人工

5、智能机器学习作为人工智能的重要领域是目前智能语音处理中最常用的手段而机器学习中的表示学习以及深度学习那么是智能语音处理中目前最为成功的智能处理技术。图1-6AI/ML/RL/DL的关系图图1-6展示了人工智能(ArtificialIntelligence,AI、机器学习(MachineLearningML、表示学习(RepresentationLearningRL及深度学习(DeepLearningDL的互相关系。下面列出了近年度来在智能语音处理中常见的模型以及技术。1.稀疏与压缩感悟一个事物的表示形式决定了认知该事物的难度。在信息处理中具有稀疏特性的信号表示更易于被感悟以及区分反之那么难以区

6、分。因此寻找信号的稀疏表示是高效解决信息处理问题的一个重要手段。利用冗余字典可以学习信号自身的特点构造信号的稀疏表示并进一步降低采样以及处理的难度。这种字典学习方法为信息处理提供了新的视角。对语音信号采用字典学习构造语音的稀疏表示为语音编码、语音别离等应用提供了新的研究思路。2.隐变量模型语音的所有信息都包含在语音波形中隐变量模型假设这些信息是隐含在观测信号之后的隐变量。通过利用高斯建模、隐马尔可夫建模等方法隐变量模型建立了隐变量以及观测变量之间的数学描绘并给出了从观测变量学习各模型参数的方法。通过参数学习可以将隐变量的变化规律挖掘出来进而得到各种需要的隐含信息。隐变量模型大大进步了语音识别、

7、讲话人识别等应用的性能在很长一段时间内都是智能语音处理的主流手段。3.组合模型组合模型认为语音是多种信息的组合这些信息可以采用线性叠加、相乘、卷积等不同方式组合在一起。详细的组合方式中需要采用一系列模型参数这些模型参数可以通过学习方式从大量语音数据中学得。这类模型的提出有效改善了语音别离、语音增强等应用的性能。4.人工神经网络与深度学习人类面临大量感悟数据时总能以一种乖巧的方式获取值得注意的重要信息。模拟人脑高效、准确地表示信息一直是人工智能领域的核心挑战。人工神经网络ArtificialNeuralNetworkANN通过神经元连接成网的方式模拟了哺乳类动物大脑皮层的神经通路。以及生物的神经

8、系统一样ANN通过对环境输入的感悟以及学习可以不断优化性能。随着ANN的构造越来越复杂、层数越来越多网络的表示才能也越来越强基于ANN进展深度学习成为ANN研究的主流其性能相对于很多传统的机器学习方法有较大幅度的进步。但同时深度学习对输入数据的要求也越来越高通常需要有海量数据的支撑。ANN很早就应用到了语音处理领域但由于早期受到计算资源的限制神经网络层数较少语音处理应用性能难以提升直到近年度来深层神经网络的计算资源、学习方法有了打破之后基于神经网络的语音处理性能才有了显著的提升。深度神经网络可以学到语音信号中各种信息间的非线性关系解决了传统语音处理方法难以解决的问题已经成为当前智能语音处理的重

9、要技术手段。本文摘编自?智能语音处理?经出版方受权发布。延伸浏览?智能语音处理?长按上方二维码解析及购置转载请联络微信DoctorData推荐语十余年度深耕智能语音处理的研究结晶本书系统性地阐述智能语音处理技术并重点以机器学习等技术及其在语音处理中的典型应用理论与理论联络严密。划重点?干货直达?终于有人把5G人工智能讲明白了更多精彩?在公众号对话框输入以下关键词查看更多优质内容PPT|读书|书单|硬核|干货|讲明白|神操作大数据|云计算|数据库|Python|可视化AI|人工智能|机器学习|深度学习|NLP5G|中台|用户画像|1024|数学|算法|数字孪生据统计99%的大咖都完成了这个神操作?

展开阅读全文