教学课件第10章模式识别的理论和方法(第10-3讲)(研究生学位课)ppt(全).ppt

上传人:春哥&#****71; 文档编号:71827301 上传时间:2023-02-06 格式:PPT 页数:117 大小:7.03MB
返回 下载 相关 举报
教学课件第10章模式识别的理论和方法(第10-3讲)(研究生学位课)ppt(全).ppt_第1页
第1页 / 共117页
教学课件第10章模式识别的理论和方法(第10-3讲)(研究生学位课)ppt(全).ppt_第2页
第2页 / 共117页
点击查看更多>>
资源描述

《教学课件第10章模式识别的理论和方法(第10-3讲)(研究生学位课)ppt(全).ppt》由会员分享,可在线阅读,更多相关《教学课件第10章模式识别的理论和方法(第10-3讲)(研究生学位课)ppt(全).ppt(117页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、教学课件第10章模式识别的理论和方法(第10-3讲)(研究生学位课)数字图像处理学数字图像处理学第第10章章 模式识别的理论和方法模式识别的理论和方法(第三讲)(第三讲)阮秋琦教授阮秋琦教授10.3 神神经经网网络络与深度学与深度学习习1943年心里学家W.McCulloch 和 数理逻辑学家W.Pitts在分析、总结神经元基本特性的基础上首先提出神经元的数学模型;1945年J.Von Neumann(冯.诺依曼)提出了简单神经元构成的自再生自动机网络结构。20世纪50年代中期和60年代初,F.Rosenblatt提出了一类所谓的感知机(perceptron)的概念;Minsky和Papert

2、于1969年出版的专著“感知机”论证了简单的线性感知机功能有限,神经网络的研究进入了低潮;80年代初期,美国的物理学家Hopfield发表了两篇关于人工神经元网络的研究论文引起了巨大反响。1986年,Rumelhart,Hinton 和 Williams发表了最新的研究成果,针对多层类感知机单元开发了新训练算法后,大大地改变了研究进程,与传统方法不同,神经网络可以使用反向传播从原始数据开始,自动地学习适合于识别的表示。深度学习在挑战其他求解方法的应用中也表现突出。10.3.1 感知机感知机感知机(perceptron)是二分类的线性分类模型,属于有监督学习算法。感知机旨在求出将输入空间中的事件

3、分为两类的分离超平面。为求得超平面,感知机引入了基于误分类的损失函数(或称代价函数),一般利用梯度下降法对损失函数进行最优化求解。1.感知机基本原理感知机基本原理图10-17 感知机的基本模型图10-18 感知机的几何描述如果训练数据集是线性可分的,如图10-19所示,则感知机一定能求得分离的超平面。图10-19线性可分数据集如果是非线性可分的数据,如图10-20所示,则无法获得超平面。图10-20 线性不可分数据集(10-98)(10-99)图10-21 二维中最简单的两类例子,决策 边界是一条直线 图10-22 用更一般的符号表示决策边界。对于n维情形下的一个点,验证将针对一个超平面进行,

4、超平面的方程是(10-100)这个方程可用求和式表示为(10-101)描述一般形式的分类问题时,给定向量总体中的任意模式向量x,我们想要找到一组具有这种性质的权值。(10-103)(10-104)3.感知机的学感知机的学习习策略策略关于梯度下降法算法梯度下降(Gradient Descent)是迭代法的一种,可以用于求解最小二乘问题。梯度下降法的计算过程就是沿梯度下降的方向求解极小值(当然,也可以沿梯度上升方向求解极大值)。如Rosenbrock函数:在数学最优化中,Rosenbrock函数是一个用来测试最优化算法性能的非凸函数,由Howard Harry Rosenbrock在1960年提出

5、。也称为Rosenbrock山谷或Rosenbrock香蕉函数,或简称为香蕉函数。Rosenbrock函数的定义如下:图10-23 Rosenbrock函数优化过程是之字形的向极小值 点靠近 4.感知机学感知机学习习算法算法感知机采用随机梯度下降法最小化经验损失函数。即:(10-116)(10-117)(10-118)说明原始形式算法的小例子请参阅教材(1)原始形式算法原始形式算法在线性代数中,内积空间中一族向量的格拉姆矩阵(Gramian matrix)是内积的对称矩阵,它的一个重要的应用是计算线性无关,即一族向量线性无关当且仅当格拉姆行列式(格拉姆矩阵的行列式)不等于零。格拉姆矩阵以丹麦数

6、学家约尔根佩尔森格拉姆(Jrgen Pedersen Gram)命名。有关的知识可参考线性代数理论。Gram矩阵的定义形式为:对于上面的矩阵,就是两两向量直接做内积,也就是矩阵相乘。上面的矩阵是自己乘以自己。Gram矩阵和协方差矩阵的差别在于,Gram矩阵没有白化,也就是没有减去均值,直接使用两向量做内积。Gram矩阵也没有标准化(也就是除以两个向量的标准差)。这样,Gram所表达的意义和协方差矩阵相差不大,只是显得比较粗糙。对偶计算的小例子请参考教材。感知机是一个简单的算法,编程实现也不太难。虽然它现在已经不是一个在实践中广泛运用的算法,但它是支持向量机、神经网络与深度学习的基础。因此。感知

7、机可以说是最古老的分类方法之一,早在1957年就已经提出了。今天看来它的分类模型在大多数时候泛化能力不强,但是它的原理却值得好好研究。10.3.2.多多层层前前馈馈神神经经网网络络1.人工神人工神经经元模型元模型神经网络是相互连接的类似感知机的计算元素形成的,这些计算元素称为人工神经元。图10-25中显示了感知机与神经元使用的激活函数。图10-25 (a)感知机,()b神经元的激活函数2.激活函数激活函数在神经网络中,全连接层只是对数据做仿射变换(affine transformation),而多个仿射变换的叠加仍然是一个仿射变换。解决问题的一个方法是引入非线性变换,这个非线性函数被称为激活函

8、数(activation function)。图10-26 ReLU函数显然,当输入为负数时,ReLU函数的导数为0;当输入为正数时,ReLU函数的导数为1。尽管输入为0时ReLU函数不可导,但是我们可以取此处的导数为0。图 10-27 ReLU函数的导数图10-28 sigmoid函数图10-29 sigmoid函数的导数图10-30 tanh(双曲正切)函数当输入为0时,tanh函数的导数达到最大值1;当输入越偏离0时,tanh函数的导数越接近0。图10-31 tanh函数的导数3.全全连连接神接神经经网网络络图10-32显示了一个多层神经网络的框图,它有多个隐藏层。网络中的所有节点都是图

9、10-33所示形式的人工神经元,但输入层除外,输入层的节点是输入模式向量x的各个分量。第一层的输出(激活值)是x的各个元素的值。所有其他节点的输出都是某个特定层中的神经元的激活值。图10-32 多层神经网络图10-33 多层神经网络的神经元(2)矩)矩阵阵公式公式(10-136)由于激活函数是单独应用到每个净输入的,因此网络在任何一层的输出都可用向量形式表示实现式(10-135)至式(10-138)只需要一系列矩阵运算,而不需要循环。要对多个模式向量分类,就要对每个模式使用循环,并在每个循环迭代中使用相同的矩阵公式集。我们想要的是一组矩阵公式,这组公式能够处理单次正向传播中的所有模式。将式(1

10、0-135)到式(10-138)扩展为更一般的公式很简单。5.用反向用反向传传播播训练训练深深层层神神经经网网络络一个神经网络完全由其权重、偏置和激活函数来定义。训练一个神经网络是指用一组或多组训练模式来估计这些参数。在训练过程中,我们知道多层神经网络的每个输出神经元的期望响应。然而,我们没有办法知道隐藏神经元的输出值应该是多少。反向传播训练包括4个基本步骤:(1)输入模式向量;(2)正向传播通过网络,对训练集的所有模式进行 分类并确定分类误差;(3)反向传播,将输出误差反馈回网络,计算更新 参数所需的变化;(4)更新网络中的权重和偏置。重复这些步骤,直到误差达到可接受的水平。(1)反向反向传传播方程播方程训练的方法是求解使得误差(也称代价或目标)函数最小的网络参数。因此,将一个神经网络的误差函数定义为期望响应和实际响应之差的平均值。令r表示一个给定的模式向量X的期望响应,a(L)表示网络对这个输入的实际响应。(10-148)(10-149)(2)矩矩阵阵公式公式(10-153)有:(10-154)(10-155)我们感兴趣的是两类误差。第一类误差是分类误差,它是通过统计被错误分类模式的计数并除以训练集中的总模式数结果再乘以100,就得到错误分类模式的百分比。1减去该结果,再乘以100,就得到正确的识别百分率。第二类误差是均方误差(MSE),它基于E的实际值。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁