神经网络与话者识别幻灯片.ppt-淘文阁

资源描述

《神经网络与话者识别幻灯片.ppt》由会员分享，可在线阅读，更多相关《神经网络与话者识别幻灯片.ppt（28页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、神经网络与话者识别神经网络与话者识别第1页，共28页，编辑于2022年，星期一话者识别话者识别人工神经网络人工神经网络BP网络网络RBF网络网络第2页，共28页，编辑于2022年，星期一TextTextText话者识别话者识别话者识别属于生物特征识别技术的一种，是一项根据语音信号中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。与语音识别不同的是，声纹识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强调共性。话者识别系统主要包括两部分，即特征检测特征检测和模式匹配模式匹配。特征

2、检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征，模式匹配的任务是对训练和识别时的特征模式做相似性匹配。第3页，共28页，编辑于2022年，星期一话者识别分类话者识别分类第4页，共28页，编辑于2022年，星期一话者辨认话者辨认语音语音特征提取特征提取相似度相似度参考模型参考模型（话者（话者#1）最大选择最大选择辨识结果辨识结果（话者（话者ID）相似度相似度参考模型参考模型（话者（话者#2）相似度相似度参考模型参考模型（话者（话者#N）第5页，共28页，编辑于2022年，星期一话者确认话者确认语音语音特征提取特征提取相似度相似度参考模型参考模型（话者（话者#M）相似度相似度阈值阈值话者

3、话者ID（#M）确认结果确认结果（接受或拒绝）（接受或拒绝）第6页，共28页，编辑于2022年，星期一模式匹配模式匹配welcome to use these PowerPoint templates,New Content design,10 years experience模式匹配的方法模式匹配的方法目前说话人识别技术主流方法大致有：目前说话人识别技术主流方法大致有：1)基于模板模型的方法基于模板模型的方法（动态时间归正法（动态时间归正法DTW和矢量量化法和矢量量化法VQ）；）；2)基于概率模型的基于概率模型的方法（隐马尔可夫模型法方法（隐马尔可夫模型法HMM和高斯混合模型法和高斯混合模型

4、法GMM）；）；3)基基于人工神经网络（于人工神经网络（Artificial Neural Network，ANN）的方法；）的方法；4)基于支持向量机（基于支持向量机（Support Vector Machine,SVM）的方法；）的方法；5)融合方法（利用各种方法的优点进行融合）。融合方法（利用各种方法的优点进行融合）。第7页，共28页，编辑于2022年，星期一人工神经网络人工神经网络基于基于ANN的语音识别系统通常由神经元、训练算法及网络结构等三大要素的语音识别系统通常由神经元、训练算法及网络结构等三大要素构成。构成。ANN采用了并行处理机制、非线性信息处理机制和信息分布采用了并行处理

5、机制、非线性信息处理机制和信息分布存贮机制等多方面的现代信息技术成果，因此，具有高速的信息存贮机制等多方面的现代信息技术成果，因此，具有高速的信息处理能力，并且有着较强的适应和自动调节能力，在训练过程中处理能力，并且有着较强的适应和自动调节能力，在训练过程中能不断调整自身的参数权值和拓扑结构，以适应环境的和系统性能不断调整自身的参数权值和拓扑结构，以适应环境的和系统性能优化的需求，在模式识别中有着速度快、识别率高等显著特点，能优化的需求，在模式识别中有着速度快、识别率高等显著特点，第8页，共28页，编辑于2022年，星期一人工神经网络的发展人工神经网络的发展人工神经网络的研究始于40年代初。半

6、个世纪以来，经历了兴起、高潮与萧条、高潮及稳步发展的远为曲折的道路。1943年，心理学家W.S.Mcculloch和数理逻辑学家W.Pitts 提出了MP模型。1949年，心理学家D.O.Hebb提出突触联系可变的假设，根据这一假设提出的学习规律为神经网络的学习算法奠定了基础。1957 年，计算机科学家Rosenblatt提出了著名的感知机模型。1960年，B.Windrow和E.Hoff提出了自适应线性单元，它可用于自适应滤波、预测和模式识别。1968年一本名为感知机的著作中指出线性感知机功能是有限的，它不能解决如异或这样的基本问题，而且多层网络还不能找到有效的计算方法。60年代末期，人工神

7、经网络的研究进入了低潮。80年代初期，模拟与数字混合的超大规模集成电路制作技术提高到新的水平，完全付诸实用化，美国的物理学家Hopfield于1982年、1984年在美国科学院院刊上发表了两篇关于人工神经网络研究的论文，引起了巨大的反响。人们重新认识到神经网络的威力以及付诸应用的现实性。第9页，共28页，编辑于2022年，星期一神经网络模型神经网络模型神经元神经元神经元是神经网络的基本计算单元，一般是一种多个输入和一个输神经元是神经网络的基本计算单元，一般是一种多个输入和一个输出的非线性单元，可以有反馈输入和闭值参数出的非线性单元，可以有反馈输入和闭值参数神经网络连接方式神经网络连接方式前馈型

8、网络前馈型网络反馈性网络反馈性网络第10页，共28页，编辑于2022年，星期一神经网络的连接方式神经网络的连接方式在前馈型网络中，各神经元接受前一层的输入，并输出在前馈型网络中，各神经元接受前一层的输入，并输出给下一层，没有反馈。连接点分为两类，即输入单元和计算给下一层，没有反馈。连接点分为两类，即输入单元和计算单元。每一个计算单元可以有任意单元。每一个计算单元可以有任意n个输入但只有一个输个输入但只有一个输出，它可祸合到任意多个其它结点作为输入。通常前出，它可祸合到任意多个其它结点作为输入。通常前馈网络分为不同的层，第馈网络分为不同的层，第l层的输入只与第卜层的输入只与第卜l层的输出相层

9、的输出相连，输入和输出结点与外界相连，而其它中间层则称之连，输入和输出结点与外界相连，而其它中间层则称之为隐层。根据隐层的层数，还可以再分为单层连接方式、为隐层。根据隐层的层数，还可以再分为单层连接方式、多层连接方式。多层连接方式。第11页，共28页，编辑于2022年，星期一神经网络的连接方式神经网络的连接方式在反馈型网络中，可以看成包含一个单层的神在反馈型网络中，可以看成包含一个单层的神经元，所有神经元结点都是计算单元，同时也可接受经元，所有神经元结点都是计算单元，同时也可接受输入，并向外界输出。这种网络可以画成一个无向图，输入，并向外界输出。这种网络可以画成一个无向图，其中每条连接线都是

10、双向的。反馈型网络的输出由当其中每条连接线都是双向的。反馈型网络的输出由当前输入和先前的输出，以及网络参数和结构决定，因前输入和先前的输出，以及网络参数和结构决定，因此显示出短期一记忆的性质。此显示出短期一记忆的性质。HoPfield网络就是反馈网络就是反馈型网络的代表。型网络的代表。第12页，共28页，编辑于2022年，星期一典型神经网络模型典型神经网络模型1）感知机）感知机2）线性神经网络）线性神经网络3）BP网络网络4）径向基函数网络）径向基函数网络5）自组织网络）自组织网络6）反馈网络）反馈网络第13页，共28页，编辑于2022年，星期一BP神经网络神经网络 BP（Back Propa

11、gation）网络是）网络是1986年由年由Rumelhart和和McCelland为首的科学家小组提出，是一为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。多层最广泛的神经网络模型之一。多层BP神经网络模型的拓神经网络模型的拓扑结构扑结构如图所示如图所示。由图可见，它由输入层、中间层和输出层。由图可见，它由输入层、中间层和输出层组成。其中，中间层也叫隐含层，它可以是一层或多层组成。其中，中间层也叫隐含层，它可以是一层或多层。第14页，共28页，编辑于2022年，星期一BP网络标准学习算法网络标

12、准学习算法网络结构：输入层有网络结构：输入层有n个神经元，隐含层有个神经元，隐含层有p个神经元，输出层有个神经元，输出层有q个神经元。个神经元。输入向量：输入向量：隐含层输入向量隐含层输入向量隐含层输出向量隐含层输出向量输出层输入向量输出层输入向量输出层输出向量输出层输出向量期望输出向量期望输出向量输入层与中间层的连接权值输入层与中间层的连接权值隐含层个神经元的阈值隐含层个神经元的阈值隐含层与输出层的连接权值隐含层与输出层的连接权值输出层个神经元的阈值输出层个神经元的阈值样本数据个数样本数据个数K=1,2,.,m激活函数激活函数f(.)s型函数型函数误差函数误差函数第15页，共28页，

13、编辑于2022年，星期一BP算法基本流程算法基本流程初始化网络权值和神经元的阈值（最简单的办法就是随机初初始化网络权值和神经元的阈值（最简单的办法就是随机初始化）。始化）。前向传播：按照公式一层一层的计算隐层神经元和输出层神前向传播：按照公式一层一层的计算隐层神经元和输出层神经元的输入和输出。经元的输入和输出。后向传播：根据公式修正权值和阈值。后向传播：根据公式修正权值和阈值。第16页，共28页，编辑于2022年，星期一BP网络标准学习算法网络标准学习算法第一步，网络初始化第一步，网络初始化给各连接权值分别赋一个区间（给各连接权值分别赋一个区间（-1，1）内地随机数，设定误差函数）内地随机数，

14、设定误差函数e，给定计，给定计算精度值算精度值和最大学习次数和最大学习次数M第二步，随机选取第第二步，随机选取第k个输入样本及对应期望输出个输入样本及对应期望输出第三步，计算隐含层各神经网络的输入和输出第三步，计算隐含层各神经网络的输入和输出h=1,.,p o=1,.,q第17页，共28页，编辑于2022年，星期一BP网络标准学习算法网络标准学习算法第四步，利用网络期望输出和实际输出，计算误差函数对输出层的个第四步，利用网络期望输出和实际输出，计算误差函数对输出层的个神经元的偏导数神经元的偏导数第五步，利用隐含层到输出层的连接权值、输出层的第五步，利用隐含层到输出层的连接权值、输出层的和隐

15、含层的和隐含层的输出计算误差函数对隐含层个神经元的偏导数输出计算误差函数对隐含层个神经元的偏导数第六步，利用输出层各神经元的第六步，利用输出层各神经元的和隐含层个神经元的输出来修正连接和隐含层个神经元的输出来修正连接权值权值第18页，共28页，编辑于2022年，星期一BP网络标准学习算法网络标准学习算法第七步，利用隐含层个神经元的第七步，利用隐含层个神经元的和输入层个神经元的输入修正连和输入层个神经元的输入修正连结权。结权。第八步，计算全局误差第八步，计算全局误差第19页，共28页，编辑于2022年，星期一BP网络标准学习算法网络标准学习算法第九步，判断网络误差是否满足要求。当误差达到预设

16、精度或学第九步，判断网络误差是否满足要求。当误差达到预设精度或学习次数大于设定的最大次数，则结束算法。否则，选取下一个学习次数大于设定的最大次数，则结束算法。否则，选取下一个学习样本及对应的期望输出，返回到第三步，进入下一轮学习。习样本及对应的期望输出，返回到第三步，进入下一轮学习。第20页，共28页，编辑于2022年，星期一BP网络的优点网络的优点1)非线性映射能力非线性映射能力:神经网络能以任意精度逼近任何非线性连续神经网络能以任意精度逼近任何非线性连续函数函数2)并行分布处理方式并行分布处理方式:信息存储在神经元之间的连接上，从单个信息存储在神经元之间的连接上，从单个权值中看不出存储信息

17、的内容，这种分布储存和并行处理使它权值中看不出存储信息的内容，这种分布储存和并行处理使它具有很强的容错性和很快的处理速度。具有很强的容错性和很快的处理速度。3）自学习和自适应能力）自学习和自适应能力:神经网络在训练时，能从输入、输出的数据中提取神经网络在训练时，能从输入、输出的数据中提取出规律性的知识，一记忆于网络的权值中，并具有泛化能力，即将这组权值出规律性的知识，一记忆于网络的权值中，并具有泛化能力，即将这组权值应用于一般情形的能力应用于一般情形的能力.5)容错能力容错能力:由于信息被分布存放在几乎整个网络中，当其中的某由于信息被分布存放在几乎整个网络中，当其中的某一个点或者某几个点被破坏

18、时信息仍然可以被存取。系统在受到一个点或者某几个点被破坏时信息仍然可以被存取。系统在受到局部损伤时还可以正常工作。局部损伤时还可以正常工作。第21页，共28页，编辑于2022年，星期一BP网络的缺点网络的缺点1）BP网络是一个非线性优化问题，这不可避免地存在局部极小问题。网络网络是一个非线性优化问题，这不可避免地存在局部极小问题。网络的极值通过沿局部改善的方向一步一步进行调整，力图达到使误差函数的极值通过沿局部改善的方向一步一步进行调整，力图达到使误差函数E最小最小化的全局解，但实际上常得到的是局部极小点。化的全局解，但实际上常得到的是局部极小点。2）BP算法收敛速度很慢。学习过程中，下降慢，

19、学习算法收敛速度很慢。学习过程中，下降慢，学习速度缓，易出现一个长时间的误差平坦区，即出现平台。速度缓，易出现一个长时间的误差平坦区，即出现平台。(3)BP网络结构选择不一，网络过大，在训练中效率不高，而网络结构选择不一，网络过大，在训练中效率不高，而月月.还有可能由于过拟合造成网络性能脆弱，容错性下降，浮还有可能由于过拟合造成网络性能脆弱，容错性下降，浮点溢出，而太小的网络可能根本不收敛。点溢出，而太小的网络可能根本不收敛。第22页，共28页，编辑于2022年，星期一RBF神经网络神经网络径向基函数神经网络是由J.Moody和C.Darken在80年代末提出的一种神经网络，它是一种具有单隐

20、层的三层前馈网络，它模拟了人脑中局部调整，相互覆盖接受域的神经网络结构，因此，RBF是一种局部逼近网络，它能够以任意精度逼近任意连续函数，特别适用于解决分类问题。全局逼近网络：当神经网络的一个或多个可调参数（权值或阈值）对任何一个输出都有影响。局部逼近网络：对网络输入空间的某个局部区域只有少数几个连接权影响网络的输出。第23页，共28页，编辑于2022年，星期一RBF神经网络结构神经网络结构 RBF网络的结构与多层前向网络相似，它是一种三层前向网络。第一层即输入层有信号源节点组成；第二层为隐含层，隐单元数视所描述的问题的需要而定，隐单元的变换函数为径向基函数隐单元的变换函数为径向基函数，它是对

21、称中心径向对称且衰减的非线性函数；第三层为输出层，节点激活函数为线性函数节点激活函数为线性函数。它对输入模式的作用作出响应。由于输入到输出的映射是非线性的，而隐含层空间到输出空间的映射是线性的，从而可以大大加快学习速度并避免局部极小问题第24页，共28页，编辑于2022年，星期一RBF网络工作原理网络工作原理函数逼近：以任意精度逼近任一连续函数。一般函数都可以表示成一组基函数逼近：以任意精度逼近任一连续函数。一般函数都可以表示成一组基函数的线性组合。函数的线性组合。RBF网络相当于用隐层单元的输出构成一组基函数，然网络相当于用隐层单元的输出构成一组基函数，然后用输出层来进行线性组合，完成逼近功

22、能。后用输出层来进行线性组合，完成逼近功能。分类：解决非线性可分问题，分类：解决非线性可分问题，RBF网络用隐层单元先将非线性可分的网络用隐层单元先将非线性可分的输入空间变换到线性可分的特征空间，然后用输出层来进行线性划分，输入空间变换到线性可分的特征空间，然后用输出层来进行线性划分，完成分类功能。完成分类功能。第25页，共28页，编辑于2022年，星期一RBF的特点的特点1）前向网络；）前向网络；2）RBF网络的作用函数为高斯函数，是局部的，网络的作用函数为高斯函数，是局部的，BP网络的网络的作用函数是作用函数是S函数，是全局的。函数，是全局的。3）如何确定）如何确定RBF网络隐层节点的中心

23、及基宽度参数是一个困难问题网络隐层节点的中心及基宽度参数是一个困难问题4）RBF网络具有唯一最佳逼近的特性，且无局部极网络具有唯一最佳逼近的特性，且无局部极小。小。第26页，共28页，编辑于2022年，星期一神经网络在话者识别中存在的问题神经网络在话者识别中存在的问题用于说话人识别的人工神经网络大部分集中在多层感知器结构的神经网络结构上，如反向传播人工神经网络、人工神经预测网络、径向基函数神经网络、时间延迟人工神经网络等。说话人识别中，待识人群往往很大。随着待识人群数目的增加。说话人特征分布间重叠区域增加，说话人识别率将降低。换句话说，在识别过程中不可避免地存在着说话人特征参数的有限性与说话人特征空间无穷划分之间的矛盾，这是所有说话人识别方法所面临的共同问题。在神经网络中，这一问题又以新的形式显现出来。当人群数目增加时，网络的训练时间急剧曾加，理论上当人群数目很大时将无法完成网络的训练，因此在使用神经网络进行说话人识别时，更加迫切地需要解决这一大人群识别问题。从总体上讲，基于人工神经网络法的说话人识别技术的研究目前还处于研究与实验阶段。第27页，共28页，编辑于2022年，星期一Thank you!第28页，共28页，编辑于2022年，星期一

展开阅读全文