前馈神经网络PPT讲稿.ppt

上传人:石*** 文档编号:69877832 上传时间:2023-01-10 格式:PPT 页数:94 大小:5.87MB
返回 下载 相关 举报
前馈神经网络PPT讲稿.ppt_第1页
第1页 / 共94页
前馈神经网络PPT讲稿.ppt_第2页
第2页 / 共94页
点击查看更多>>
资源描述

《前馈神经网络PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《前馈神经网络PPT讲稿.ppt(94页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、前馈神经网络前馈神经网络1第1页,共94页,编辑于2022年,星期五前馈神经网络是神经网络中的一种典型的分层前馈神经网络是神经网络中的一种典型的分层结构,信息从输入层进入网络后逐层向前传递结构,信息从输入层进入网络后逐层向前传递至输出层。根据前馈网络中神经元转移函数、至输出层。根据前馈网络中神经元转移函数、隐层数以及权值调整规则的不同,可以形成具隐层数以及权值调整规则的不同,可以形成具有各种功能特点的神经网络。有各种功能特点的神经网络。2第2页,共94页,编辑于2022年,星期五3.1 感知器感知器3.2 自适应线性单元自适应线性单元3.3 BP网络网络3.4 BP网络变通结构网络变通结构3.

2、5BP网络学习算法的改进网络学习算法的改进3.6BP网络设计基础网络设计基础3.7 BP网络应用与设计实例网络应用与设计实例3.8 小结小结3第3页,共94页,编辑于2022年,星期五n19581958年,美国心理学家年,美国心理学家Frank RosenblattFrank Rosenblatt提出一种具有提出一种具有单层计算单元的神经网络,即感知器。感知器是模拟人的单层计算单元的神经网络,即感知器。感知器是模拟人的视觉接受环境信息,并由神经冲动进行信息传递。感知器视觉接受环境信息,并由神经冲动进行信息传递。感知器研究中首次提出了自组织、自学习的思想,而且对说解决研究中首次提出了自组织、自学

3、习的思想,而且对说解决的问题存在着收敛算法,并能从数学上严格证明,因而对的问题存在着收敛算法,并能从数学上严格证明,因而对神经网络的研究起了非常重要的推动作用。神经网络的研究起了非常重要的推动作用。单层感知器的结构和功能都很简单,以至于在解决实际单层感知器的结构和功能都很简单,以至于在解决实际问题是很少采用,但由于它在神经网络研究中具有重要问题是很少采用,但由于它在神经网络研究中具有重要意义,是研究其他网络的基础,而且较易学习和理解,意义,是研究其他网络的基础,而且较易学习和理解,适合于作为神经网络的起点。适合于作为神经网络的起点。3.1 感知器感知器4第4页,共94页,编辑于2022年,星期

4、五3.1.1 感知器模型感知器模型j=1,2,m 5第5页,共94页,编辑于2022年,星期五净输入:净输入:输出:输出:3.1.1感知器模型感知器模型6第6页,共94页,编辑于2022年,星期五(1)(1)设输入向量设输入向量X=(x1,x2)T输出:输出:则由方程则由方程 wijx1+w2jx2-Tj=0 确定了二维平面上的一条分界线。确定了二维平面上的一条分界线。ojx1-1x23.1.2感知器的功能感知器的功能7第7页,共94页,编辑于2022年,星期五感知器的功能(二维)感知器的功能(二维)8第8页,共94页,编辑于2022年,星期五wij x1+w2j x2 Tj=0wij x1=

5、Tj -w2j x2x1=(Tj-w2j x2)/wij =-(w2j/wij)x2+Tj/wij =a x2+c 9第9页,共94页,编辑于2022年,星期五设输入向量设输入向量X=(x1,x2,x3)T输出:输出:则由方程则由方程 wijx1+w2jx2+w3j Tj=0 确定了三维空间上的一个分界平面。确定了三维空间上的一个分界平面。x2ojx1x3-110第10页,共94页,编辑于2022年,星期五wij x1+w2j x2+w3j x3 Tj=0 x1=a x2+b x3+c 是什么?是什么?11第11页,共94页,编辑于2022年,星期五设输入向量设输入向量X=(x1,x2,xn)

6、T则由方程则由方程 wijx1+w2jx2+wnj Tj=0确定了确定了n n维空间上的一个分界平面。维空间上的一个分界平面。输出:输出:wijx1+w2jx2+wnj Tj=012第12页,共94页,编辑于2022年,星期五 一个最简单的单计算节点感知器具有分类功能。其一个最简单的单计算节点感知器具有分类功能。其分类原理是将分类知识存储于感知器的权向量(包含了分类原理是将分类知识存储于感知器的权向量(包含了阈值)中,由权向量确定的分类判决界面将输入模式分阈值)中,由权向量确定的分类判决界面将输入模式分为两类。为两类。3.1.2感知器的功能感知器的功能13第13页,共94页,编辑于2022年,

7、星期五例例 用感知器实现逻辑用感知器实现逻辑“与与”功能功能x1x2y000010100111逻辑逻辑“与与”真值真值表表14第14页,共94页,编辑于2022年,星期五例一例一 用感知器实现逻辑用感知器实现逻辑“与与”功能功能感知器结构感知器结构w1x1+w2x2-T=0 0.5x1+0.5x2-0.75=015第15页,共94页,编辑于2022年,星期五例例 用感知器实现逻辑用感知器实现逻辑“或或”功能功能x1x2y000011101111逻辑逻辑“或或”真值表真值表16第16页,共94页,编辑于2022年,星期五用感知器实现逻辑用感知器实现逻辑“或或”功能功能感知器结构感知器结构 w1x

8、1+w2x2-T=0 x1+x2-0.5=017第17页,共94页,编辑于2022年,星期五问题:能否用感知器实现问题:能否用感知器实现“异或异或”功能?功能?“异或异或”的真值表的真值表x1x2y00001110111018第18页,共94页,编辑于2022年,星期五n关键问题就是求关键问题就是求19第19页,共94页,编辑于2022年,星期五3.1.3感知器的学习感知器的学习nPerceptron(感知器感知器)学习规则学习规则式中,当实际输出与期望值相同时,权值不需要调整。感知器学式中,当实际输出与期望值相同时,权值不需要调整。感知器学习规则代表一种有导师学习。习规则代表一种有导师学习。

9、20第20页,共94页,编辑于2022年,星期五感知器学习规则的训练步骤:感知器学习规则的训练步骤:(1)(1)对各权值对各权值w0j(0),w1j(0),wnj(0),j=1,2,m (m为计算层的节点数)赋予较小的非零随机数;为计算层的节点数)赋予较小的非零随机数;(2)(2)输入样本对输入样本对Xp,dp,其中其中Xp=(-1,x1p,x2p,x xn np p),dp为期望的输出向量(教师信号),上标为期望的输出向量(教师信号),上标p代表代表 样本对的模式序号,设样本集中的样本总数为样本对的模式序号,设样本集中的样本总数为P,则则p=1,2,P P;3.1.3感知器的学习感知器的学习

10、21第21页,共94页,编辑于2022年,星期五(3)计算各节点的实际输出计算各节点的实际输出ojp(t)=sgnWjT(t)Xp,j=1,2,.,m;(4)调整各节点对应的权值,调整各节点对应的权值,Wj(t+1)=Wj(t)+djp-ojp(t)Xp,j=1,2,m,其中为学习率,用于控制调整速度,太大其中为学习率,用于控制调整速度,太大 会影响训练的稳定性,太小则使训练的收敛速度变慢,会影响训练的稳定性,太小则使训练的收敛速度变慢,一般取一般取01;(5)返回到步骤返回到步骤(2)输入下一对样本,周而复始直到对所有输入下一对样本,周而复始直到对所有 样本,感知器的实际输出与期望输出相等。

11、样本,感知器的实际输出与期望输出相等。3.1.3感知器的学习感知器的学习22第22页,共94页,编辑于2022年,星期五感知器学习规则的训练步骤:感知器学习规则的训练步骤:(1 1)权值初始化)权值初始化(2 2)输入样本对)输入样本对(3 3)计算输出)计算输出(4 4)根据感知器学习规则调整权值)根据感知器学习规则调整权值(5 5)返回到步骤)返回到步骤(2)(2)输入下一对样本,周而复输入下一对样本,周而复始直到对所有样本,感知器的实际输出与期始直到对所有样本,感知器的实际输出与期望输出相等。望输出相等。23第23页,共94页,编辑于2022年,星期五例例 单计算节点感知器,单计算节点感

12、知器,3 3个输入。给定个输入。给定3 3对训练样本对对训练样本对如下:如下:X1=(-1,1,-2,0)T d1=1X2=(-1,0,1.5,-0.5)T d2=1X3=(-1,-1,1,0.5)T d3=1 设初始权向量设初始权向量W(0)=(0.5,1,-1,0)T,=0.1。注意,输入向注意,输入向量中第一个分量量中第一个分量x0恒等于恒等于-1,权向量中第一个分量为阈值,权向量中第一个分量为阈值,试根据以上学习规则训练该感知器。试根据以上学习规则训练该感知器。3.1.3感知器的学习感知器的学习24第24页,共94页,编辑于2022年,星期五解:第一步解:第一步 输入输入X1,得得 W

13、T(0)X1=(0.5,1,-1,0)(-1,1,-2,0)T=2.5 o1(0)=sgn(2.5)=1 W(1)=W(0)+d1-o1(0)X1 =(0.5,1,-1,0)T+0.1(-1-1)(-1,1,-2,0)T =(0.7,0.8,-0.6,0)T3.1.3感知器的学习感知器的学习25第25页,共94页,编辑于2022年,星期五第二步第二步 输入输入X2,得,得 WT(1)X2=(0.7,0.8,-0.6,0)(-1,0,1.5,-0.5)T=-1.6 o2(1)=sgn(-1.6)=-1 W(2)=W(1)+d2-o2(1)X2 =(0.7,0.8,-0.6,0)T+0.1-1-(

14、-1)(-1,0,1.5,-0.5)T =(0.7,0.8,-0.6,0)T由于由于d2=o2(1),所以,所以W(2)=W(1)。3.1.3感知器的学习感知器的学习26第26页,共94页,编辑于2022年,星期五第三步第三步 输入输入X X3 3,得,得 WT(2)X3=(0.7,0.8,-0.6,0)(-1,-1,1,0.5)T=-2.1 O3(2)=sgn(-2.1)=-1W(3)=W(2)+d3-o3(2)X3 =(0.7,0.8,-0.6,0)T+0.11-(-1)(-1,-1,1,0.5)T =(0.5,0.6,-0.4,0.1)T第四步第四步 返回到第一步,继续训练直到返回到第一

15、步,继续训练直到dp-op=0,p=1,2,3。3.1.3感知器的学习感知器的学习27第27页,共94页,编辑于2022年,星期五3.1.4单层感知器的局限性单层感知器的局限性n问题:能否用感知器解决如下问题?问题:能否用感知器解决如下问题?28第28页,共94页,编辑于2022年,星期五3.1.4单层感知器的局限性单层感知器的局限性n无法解决无法解决“异或异或”问题问题n只能解决线性可分问题只能解决线性可分问题“异或异或”的真值表的真值表x1x2y00001110111029第29页,共94页,编辑于2022年,星期五双层感知器双层感知器“异或异或”问题分问题分类类例四例四 用两计算层感知器

16、解决用两计算层感知器解决“异或异或”问题。问题。“异或异或”的真值的真值表表x1 x2y1 y2 o 0 01 1 00 11 011 00 111 11 1 03.1.5多层感知器多层感知器30第30页,共94页,编辑于2022年,星期五给出具有一个具有单隐层的感知器,其中隐层的两个节点相当于两个独立的给出具有一个具有单隐层的感知器,其中隐层的两个节点相当于两个独立的符号单元(但计算节点感知器)。这两个符号单元可分别在由符号单元(但计算节点感知器)。这两个符号单元可分别在由x1x1、x2x2构成的构成的平面上确定两条分界直线平面上确定两条分界直线S1S1和和S2S2,从而构成一个开放式凸域。

17、显然通过,从而构成一个开放式凸域。显然通过适当调整两条直线的位置,可使两类线性不可分样本分别位于该开放适当调整两条直线的位置,可使两类线性不可分样本分别位于该开放式凸域内部和外部。此时对于隐节点式凸域内部和外部。此时对于隐节点1 1来说,直线来说,直线S1S1下面的样本使其输出下面的样本使其输出y1=1y1=1,而直线上面的样本使其输出为,而直线上面的样本使其输出为y2=1y2=1,而直线下面的样本使其输出为,而直线下面的样本使其输出为y2=0y2=0。当输入样本为当输入样本为o o类时,其位置位于开放式凸域外部,即或者同时同时处类时,其位置位于开放式凸域外部,即或者同时同时处在两直线在两直线

18、S1S1、S2S2上方,使上方,使y1=0y1=0,y2=1y2=1;或者同时处在两直线;或者同时处在两直线S1S1、S2S2下方,下方,使使y1=1y1=1,y2=0y2=0。输出层节点一隐层两节点的输出输出层节点一隐层两节点的输出y1y1、y2y2作为输入,其结构也相当于一个作为输入,其结构也相当于一个符号单元。如果经过训练,使其具有逻辑符号单元。如果经过训练,使其具有逻辑“与非与非”功能,则疑惑问题即功能,则疑惑问题即可得到解决。根据可得到解决。根据“与非与非”逻辑,当隐节点输出为逻辑,当隐节点输出为y1=1y1=1,y2=1y2=1时,该节时,该节点输出为点输出为o=0o=0,当隐节点

19、输出为,当隐节点输出为y1=1y1=1,y2=0y2=0时,或时,或y1=0y1=0,y2=1y2=1时,该节点输时,该节点输出出o=1o=1。可以看出单隐层感知器确实可以解决异或问题,因此具有解决线。可以看出单隐层感知器确实可以解决异或问题,因此具有解决线性不可分问题的能力。性不可分问题的能力。31第31页,共94页,编辑于2022年,星期五多层感知器的提出多层感知器的提出单计算层感知器的局限性单计算层感知器的局限性 只能解决线性可分问题,而大量的分类问题是线性只能解决线性可分问题,而大量的分类问题是线性不可分的。不可分的。解决的有效办法解决的有效办法 在输入层与输出层之间引入隐层作为输入模

20、式的在输入层与输出层之间引入隐层作为输入模式的“内部表示内部表示”,将单计算层感知器变成,将单计算层感知器变成多(计算)层多(计算)层感知器感知器。采用采用非线性连续函数作为转移函数非线性连续函数作为转移函数,使区域边界线,使区域边界线的基本线素由直线变成曲线,从而使整个边界线变的基本线素由直线变成曲线,从而使整个边界线变成连续光滑的曲线。成连续光滑的曲线。32第32页,共94页,编辑于2022年,星期五3.1.5多层感知器多层感知器33第33页,共94页,编辑于2022年,星期五Wj(t)=dj-oj(t)X3.1.5多层感知器多层感知器具有不同隐层数的感知器的分类能力对比具有不同隐层数的感

21、知器的分类能力对比 返回返回 34第34页,共94页,编辑于2022年,星期五3.2自适应线性单元自适应线性单元19621962年美国斯坦福大学教授年美国斯坦福大学教授WidrowWidrow提出一种自提出一种自适应可调的神经网络,其基本构成单元称为自适应适应可调的神经网络,其基本构成单元称为自适应线性单元。这种自适应可调的神经网络主要适用于线性单元。这种自适应可调的神经网络主要适用于信号处理中的自适应滤波、预测和模式识别。信号处理中的自适应滤波、预测和模式识别。返回返回 35第35页,共94页,编辑于2022年,星期五3.3 BP网络网络 误差反向传播神经网络,简称误差反向传播神经网络,简称

22、BP(Back Propagation)网网络,是一种单向传播的多层前向网络。在模式识别、图像络,是一种单向传播的多层前向网络。在模式识别、图像处理、系统辨识、函数拟合、优化计算、最优预测和自适处理、系统辨识、函数拟合、优化计算、最优预测和自适应控制等领域有着较为广泛的应用。应控制等领域有着较为广泛的应用。BP网络的示意图网络的示意图36第36页,共94页,编辑于2022年,星期五误差反向传播算法简称误差反向传播算法简称BP算法,其基本思想是最小算法,其基本思想是最小二乘法。它采用梯度搜索技术,以期使网络的实际二乘法。它采用梯度搜索技术,以期使网络的实际输出值与期望输出值的误差均方值为最小。输

23、出值与期望输出值的误差均方值为最小。BP算法的学习过程由正向传播和反向传播组成。在算法的学习过程由正向传播和反向传播组成。在正向传播过程中,输入信息从输入层经隐含层逐层正向传播过程中,输入信息从输入层经隐含层逐层处理,并传向输出层,每层神经元(节点)的状态处理,并传向输出层,每层神经元(节点)的状态只影响下一层神经元的状态。如果在输出层不能得只影响下一层神经元的状态。如果在输出层不能得到期望输出,则转入反向传播,将误差信号沿原来到期望输出,则转入反向传播,将误差信号沿原来的连接通路返回,通过修改各层神经元的权值,使的连接通路返回,通过修改各层神经元的权值,使误差信号最小。误差信号最小。37第3

24、7页,共94页,编辑于2022年,星期五基于基于BPBP算法的多层前馈网络模型算法的多层前馈网络模型误差反传(误差反传(BP)算法)算法38第38页,共94页,编辑于2022年,星期五n模型的数学表达模型的数学表达输入向量:输入向量:X=(x1,x2,xi,xn)T隐层输出向量:隐层输出向量:Y=(y1,y2,yj,ym)T输出层输出向量:输出层输出向量:O=(o1,o2,ok,ol)T期望输出向量:期望输出向量:d=(d1,d2,dk,dl)T输入层到隐层之间的权值矩阵:输入层到隐层之间的权值矩阵:V=(V1,V2,Vj,Vm)隐层到输出层之间的权值矩阵:隐层到输出层之间的权值矩阵:W=(W

25、1,W2,Wk,Wl)各个变量之间如何建立联系,来描述整个网络?各个变量之间如何建立联系,来描述整个网络?39第39页,共94页,编辑于2022年,星期五对于输出层:对于输出层:k=1,2,l (3.1)k=1,2,l (3.2)对于隐层:对于隐层:j=1,2,m (3.3)j=1,2,m (3.4)BP学习算法学习算法40第40页,共94页,编辑于2022年,星期五双极性双极性SigmoidSigmoid函数:函数:单极性单极性SigmoidSigmoid函数:函数:(3.5)BP学习算法学习算法41第41页,共94页,编辑于2022年,星期五输出误差输出误差E E定义:定义:(3.6)将以

26、上误差定义式展开至隐层:将以上误差定义式展开至隐层:(3.7)BP学习算法学习算法42第42页,共94页,编辑于2022年,星期五进一步展开至输入层:进一步展开至输入层:(3.8)BP学习算法学习算法43第43页,共94页,编辑于2022年,星期五j=0,1,2,m;k=1,2,l (3.9a)i=0,1,2,n;j=1,2,m (3.9b)式中负号表示梯度下降,常数式中负号表示梯度下降,常数(0,1)(0,1)表示比例系数。表示比例系数。在全部推导过程中,对输出层有在全部推导过程中,对输出层有j=0,1,2,m;k=1,2,l 对隐层有对隐层有 i=0,1,2,n;j=1,2,mBP学习算法

27、学习算法44第44页,共94页,编辑于2022年,星期五对于输出层,式对于输出层,式(3.9a)(3.9a)可写为可写为(3.10a)对隐层,式对隐层,式(3.9b)(3.9b)可写为可写为(3.10b)对输出层和隐层各定义一个误差信号,令对输出层和隐层各定义一个误差信号,令(3.11a)(3.11b)BP学习算法学习算法45第45页,共94页,编辑于2022年,星期五综合应用式综合应用式(3.2)(3.2)和和(3.11a)(3.11a),可将式,可将式 (3.10a)(3.10a)的权值调整式改写为的权值调整式改写为综合应用式综合应用式(3.4)(3.4)和和(3.11b)(3.11b),

28、可将式,可将式 (3.10b)(3.10b)的权值调整式的权值调整式改写为改写为(3.12a)(3.12b)可以看出,只要计算出式可以看出,只要计算出式(3.12)(3.12)中的误差信号中的误差信号 o o和和 y y,权值调,权值调整量的计算推导即可完成。下面继续推导如何求误差信整量的计算推导即可完成。下面继续推导如何求误差信号号 o o和和 y y 。46第46页,共94页,编辑于2022年,星期五对于输出层,对于输出层,o o可展开为可展开为对于隐层,对于隐层,y y可展开为可展开为下面求式下面求式(3.13)(3.13)中网络误差对各层输出的偏导。中网络误差对各层输出的偏导。(3.1

29、3a)(3.13b)47第47页,共94页,编辑于2022年,星期五对于输出层,利用式对于输出层,利用式(3.6)(3.6):对于隐层,利用式对于隐层,利用式(3.7)(3.7):(3.14a)可得可得:(3.14b)可得:可得:48第48页,共94页,编辑于2022年,星期五将以上结果代入式将以上结果代入式(3.13)(3.13),并应用式,并应用式(3.15)(3.15)(3.15a)得到:得到:(3.15b)至此两个误差信号的推导已完成。至此两个误差信号的推导已完成。49第49页,共94页,编辑于2022年,星期五将式将式(3.15)(3.15)代回到式代回到式(3.12)(3.12),

30、得到三层前馈网的,得到三层前馈网的BPBP学习算法学习算法权值调整计算公式为:权值调整计算公式为:(3.16a)(3.16b)50第50页,共94页,编辑于2022年,星期五51第51页,共94页,编辑于2022年,星期五BP学习算法流程:学习算法流程:1)初始化初始化 置所有权值为最小的随机数;置所有权值为最小的随机数;2)提供训练集提供训练集 给定输入向量和期望的目标输出向量;给定输入向量和期望的目标输出向量;3)计算实际输出计算实际输出 计算隐含层、输出层各神经元输出;计算隐含层、输出层各神经元输出;4)计算目标值与实际输出的偏差;计算目标值与实际输出的偏差;5)计算局部梯度;计算局部梯

31、度;6)调整各层权重;调整各层权重;7)返回返回2)重复计算,直到误差满足要求为止。重复计算,直到误差满足要求为止。52第52页,共94页,编辑于2022年,星期五53第53页,共94页,编辑于2022年,星期五 在使用在使用BP算法时,应注意的几个问题是:算法时,应注意的几个问题是:n学习开始时,各隐层连接权系数的初值应以设置较小学习开始时,各隐层连接权系数的初值应以设置较小的随机数较为适宜。的随机数较为适宜。n采用采用S型激发函数时,由于输出层各神经元的输出只型激发函数时,由于输出层各神经元的输出只能趋于能趋于1或或0,不能达到,不能达到1或或0。在设置各训练样本时。在设置各训练样本时,期

32、望的输出分量不能设置为,期望的输出分量不能设置为1或或0,以设置为,以设置为0.9或或0.1较为适宜。较为适宜。n在学习开始阶段,选较大的值可以加快学习速率。学在学习开始阶段,选较大的值可以加快学习速率。学习接近优化区时,学习速率必须相当小,否则权值将习接近优化区时,学习速率必须相当小,否则权值将产生振荡而不收敛。产生振荡而不收敛。54第54页,共94页,编辑于2022年,星期五网络包含一个隐层,设输入网络包含一个隐层,设输入层与隐层的权值层与隐层的权值wjk,隐层与,隐层与输出层的权值输出层的权值wij初始值初始值x1x2y000011101110BP网络权值学习举例网络权值学习举例样本:输

33、入和期望输出样本:输入和期望输出激发函数激发函数学习速率学习速率55第55页,共94页,编辑于2022年,星期五迭代迭代1次后的次后的BP网络网络x1x2y实际输出误差0000.50.50110.51010.51100.556第56页,共94页,编辑于2022年,星期五迭代迭代8000次后的次后的BP网络网络x1x2y实际输出误差0000.1190.1660010.7271010.7341100.41557第57页,共94页,编辑于2022年,星期五迭代迭代11050次后的次后的BP网络网络x1x2y实际输出误差0000.050.0080110.9411010.9411100.078 返回返回

34、 58第58页,共94页,编辑于2022年,星期五n标准连接标准连接(Standard Connection)每个单元都与下一层的单元相连。一般三层网络能够解每个单元都与下一层的单元相连。一般三层网络能够解决大多数问题。如果需要选用一个以上的中间层,学习时决大多数问题。如果需要选用一个以上的中间层,学习时间需要大大增加。间需要大大增加。3.4 BP网络变通结构网络变通结构59第59页,共94页,编辑于2022年,星期五n跳跃连接(跳跃连接(Jump Connections)nRecurrent网络网络 返回返回 60第60页,共94页,编辑于2022年,星期五多层前馈网的主要能力多层前馈网的主

35、要能力(1)(1)非线性映射能力非线性映射能力 多层前馈网能学习和存贮大量输入多层前馈网能学习和存贮大量输入-输出模式映射输出模式映射关系,而无需事先了解描述这种映射关系的数学方程。关系,而无需事先了解描述这种映射关系的数学方程。只要能提供足够多的样本模式对供只要能提供足够多的样本模式对供BPBP网络进行学习训网络进行学习训练,它便能完成由练,它便能完成由n n维输入空间到维输入空间到m m维输出空间的非线维输出空间的非线性映射。性映射。61第61页,共94页,编辑于2022年,星期五多层前馈网的主要能力多层前馈网的主要能力(2)(2)泛化能力泛化能力 当向网络输入训练时未曾见过的非样本数据时

36、,网络也能完当向网络输入训练时未曾见过的非样本数据时,网络也能完成由输入空间向输出空间的正确映射。这种能力称为多层前成由输入空间向输出空间的正确映射。这种能力称为多层前馈网的泛化能力。馈网的泛化能力。(3)(3)容错能力容错能力 输入样本中带有较大的误差甚至个别错误对网络的输入输出输入样本中带有较大的误差甚至个别错误对网络的输入输出规律影响很小。规律影响很小。62第62页,共94页,编辑于2022年,星期五误差曲面与误差曲面与BPBP算法的局限性算法的局限性误差函数的可调整参数的个误差函数的可调整参数的个数数n nw w等于各层权值数加上阈等于各层权值数加上阈值数,即:值数,即:误差误差E E

37、是是n nw w+1+1维空间中一个形状维空间中一个形状极为复杂的曲面,该曲面上的极为复杂的曲面,该曲面上的每个点的每个点的“高度高度”对应于一个对应于一个误差值,每个点的坐标向量对误差值,每个点的坐标向量对应着应着n nw w个权值,因此称这样的个权值,因此称这样的空间为误差的权空间。空间为误差的权空间。63第63页,共94页,编辑于2022年,星期五误差曲面的分布误差曲面的分布BP算法的局限性算法的局限性n曲面的分布特点曲面的分布特点-算法的局限性算法的局限性n(1)存在平坦区域存在平坦区域-误差下降缓慢,影响收敛速度误差下降缓慢,影响收敛速度n(2)存在多个极小点存在多个极小点-易陷入局

38、部最小点易陷入局部最小点 64第64页,共94页,编辑于2022年,星期五曲面分布特点曲面分布特点1:存在平坦区域:存在平坦区域n平坦误差的梯度变化小 接近于零65第65页,共94页,编辑于2022年,星期五曲面分布特点曲面分布特点2:存在多个极小点:存在多个极小点 n误差梯度为零误差梯度为零n多数极小点都是局部极小,即使是全局极小往多数极小点都是局部极小,即使是全局极小往往也不是唯一的。往也不是唯一的。单权值单权值双权值双权值66第66页,共94页,编辑于2022年,星期五曲面分布特点曲面分布特点2:存在多个极小点:存在多个极小点nBP算法算法以误差梯度下降为权值调整原则以误差梯度下降为权值

39、调整原则n误差曲面的这一特点误差曲面的这一特点使之无法辨别极小点的性质使之无法辨别极小点的性质n导致的结果:导致的结果:因而训练经常陷入某个局部极小点而不能自拔,因而训练经常陷入某个局部极小点而不能自拔,从而使训练无法收敛于给定误差。从而使训练无法收敛于给定误差。67第67页,共94页,编辑于2022年,星期五nBP算法存在的问题算法存在的问题nBP网络收敛太慢影响了该网络在许多方面的实际应用。网络收敛太慢影响了该网络在许多方面的实际应用。为此,许多人对为此,许多人对BP网络的学习算法进行了广泛的研究,网络的学习算法进行了广泛的研究,提出了许多改进的算法。提出了许多改进的算法。学习时间过长学习

40、时间过长泛化能力较低泛化能力较低容易陷入局部最小而中断学习过程容易陷入局部最小而中断学习过程中间层单元个数、网络的大小如何确定中间层单元个数、网络的大小如何确定 (实际应用多采用三层网络)(实际应用多采用三层网络)68第68页,共94页,编辑于2022年,星期五标准标准BP算法的改进算法的改进n误差曲面的形状固有的误差曲面的形状固有的n算法的作用是什么?算法的作用是什么?调整权值,找到最优点调整权值,找到最优点n那么如何更好地调整权值?那么如何更好地调整权值?利用算法使得权值在更新的过程中,利用算法使得权值在更新的过程中,走走合适的路径,比如跳出平坦区来提高合适的路径,比如跳出平坦区来提高收敛

41、速度,跳出局部最小点等等收敛速度,跳出局部最小点等等n如何操作?如何操作?需要在进入平坦区或局部最小点时进行一些判断,通过改变某些参数需要在进入平坦区或局部最小点时进行一些判断,通过改变某些参数来使得权值的调整更为合理。来使得权值的调整更为合理。69第69页,共94页,编辑于2022年,星期五n引入动量项引入动量项标准标准BP算法实质上是一种简单的最速下降静态寻优算法,算法实质上是一种简单的最速下降静态寻优算法,在修正在修正w(t)时时,只按,只按t时时刻的刻的负负梯度方式梯度方式进进行修正,而没有考行修正,而没有考虑虑以前以前积积累的累的经验经验,即以前,即以前时时刻的梯度方向,从而常使学刻

42、的梯度方向,从而常使学习过习过程程发发生振生振荡荡,收,收敛缓敛缓慢。慢。为为此提出如下改此提出如下改进进算法:算法:增加增加动量量项即从前一次即从前一次权值调整量中提取出一部分迭代到本整量中提取出一部分迭代到本次次权值调整量中。整量中。该方法所加入的方法所加入的动量量项实质上相当于阻尼上相当于阻尼项,它减小了学,它减小了学习过程的振程的振荡趋势,改善了收,改善了收敛性,性,这是目是目前前应用比用比较广泛的种改广泛的种改进算法。算法。70第70页,共94页,编辑于2022年,星期五n变变尺度法尺度法 标标准准BP学学习习算法采用一算法采用一阶阶梯度法,因而收梯度法,因而收敛较敛较慢。若采用二慢

43、。若采用二阶阶梯度法,梯度法,则则改善收改善收敛敛性。性。该该算法算法为为 其中其中 虽然二阶梯度法具有比较好的收敛性,但需要计算虽然二阶梯度法具有比较好的收敛性,但需要计算E对对w的二的二阶导阶导数,数,计计算量很大。一般不直接采用二算量很大。一般不直接采用二阶阶梯度法,而采用梯度法,而采用变变尺度法或共尺度法或共轭轭梯度法,它梯度法,它们们具具有如二有如二阶阶梯度法收梯度法收敛敛快的快的优优点,而又无需直接点,而又无需直接计计算算二二阶阶梯度。梯度。71第71页,共94页,编辑于2022年,星期五下面具体下面具体给出出变尺度法的算法:尺度法的算法:72第72页,共94页,编辑于2022年,

44、星期五n变步长法变步长法 一阶梯度法寻优收敛较慢的一个重要原因是一阶梯度法寻优收敛较慢的一个重要原因是(学学习习率率)不好不好选择选择。选选的太小,收的太小,收敛敛太慢,若太慢,若选选的的太大,太大,则则有可能修正有可能修正过头过头,导导致振致振荡荡甚至甚至发发散。散。下面下面给给出的出的变变步步长长法即是法即是针对这针对这个个问题问题而提出的。而提出的。这里这里w表示某个连接权系数。表示某个连接权系数。73第73页,共94页,编辑于2022年,星期五 上面的算法上面的算法说说明,当明,当连续连续两次迭代其梯度方法相同两次迭代其梯度方法相同时时,表明下降太慢,表明下降太慢,这时这时可使步可使步

45、长长加倍;当加倍;当连续连续两两次迭代其梯度方向相反次迭代其梯度方向相反时时,表明下降,表明下降过头过头,这时这时可可使步使步长长减半。当需要引入减半。当需要引入动动量量项时项时,上述算法的第,上述算法的第二二项项可修改可修改为为 在使用该算法时,由于步长在迭代过程中自适应调在使用该算法时,由于步长在迭代过程中自适应调整,因此对于不同的连接权系数实际采用了不同的整,因此对于不同的连接权系数实际采用了不同的学习率,也就是说误差代价函数学习率,也就是说误差代价函数E在超曲面上在不同在超曲面上在不同地方按照各自比较合理的步长向极小点逼近。地方按照各自比较合理的步长向极小点逼近。返回返回 74第74页

46、,共94页,编辑于2022年,星期五n一一、训练样本集的准备、训练样本集的准备1.输入输出量的选择输入输出量的选择2.输入量的提取与表示输入量的提取与表示3.输出量的表示输出量的表示n二、输入输出数据的归一化二、输入输出数据的归一化n三、网络训练与测试三、网络训练与测试3.6 BP网络设计基础75第75页,共94页,编辑于2022年,星期五1.1.输出量的选择输出量的选择n 输出量输出量:代表系统要实现的功能目标代表系统要实现的功能目标n系统的性能指标系统的性能指标n分类问题的类别归属分类问题的类别归属n非线性函数的函数值非线性函数的函数值一一、训练样本集的准备、训练样本集的准备76第76页,

47、共94页,编辑于2022年,星期五2.2.输入量的选择输入量的选择n输入量选择的两条基本原则输入量选择的两条基本原则必须选择那些对输出影响大且能够检测或必须选择那些对输出影响大且能够检测或提取的变量提取的变量各输入变量之间互不相关或相关性很小各输入变量之间互不相关或相关性很小77第77页,共94页,编辑于2022年,星期五输入输出量的性质输入输出量的性质n从输入、输出量的性质来看,可分为两类:一类是数值从输入、输出量的性质来看,可分为两类:一类是数值变量,一类是语言变量。变量,一类是语言变量。数值变量的值是数值确定的连续量或离散量。数值变量的值是数值确定的连续量或离散量。语言变量是用自然语言表

48、示的概念,其语言变量是用自然语言表示的概念,其“语言语言值值”是用自然语言表示的事物的各种属性。是用自然语言表示的事物的各种属性。n当选用语言变量作为网络的输入或输出变量时,当选用语言变量作为网络的输入或输出变量时,需将其语言值转换为离散的数值量。需将其语言值转换为离散的数值量。78第78页,共94页,编辑于2022年,星期五输入量的提取与表示输入量的提取与表示XC=(111100111)T XI=(111100111)T XT=(111100111)T(1)(1)文字符号输入文字符号输入79第79页,共94页,编辑于2022年,星期五(2)曲线输入)曲线输入p=1,2,P80第80页,共94

49、页,编辑于2022年,星期五(3)函数自变量输入函数自变量输入一般有几个输入量就设几个分量,一般有几个输入量就设几个分量,1个输入分量个输入分量对应对应1个输入层节点。个输入层节点。(4)图象输入图象输入在这类应用中,一般先根据识别的具体目的从在这类应用中,一般先根据识别的具体目的从图象中提取一些有用的特征参数,再根据这些图象中提取一些有用的特征参数,再根据这些参数对输入的贡献进行筛选,这种特征提取属参数对输入的贡献进行筛选,这种特征提取属于图象处理的范畴。于图象处理的范畴。81第81页,共94页,编辑于2022年,星期五3.3.输出量的表示输出量的表示(1)“(1)“n n中取中取1 1”表

50、示法表示法“n n中取中取1 1”是令输出向量的分量数等于类别数,输入样本是令输出向量的分量数等于类别数,输入样本被判为哪一类,对应的输出分量取被判为哪一类,对应的输出分量取1 1,其余,其余 n-1 n-1 个分量全个分量全取取0 0。例如,用。例如,用00010001、00100010、01000100和和10001000可分别表示优、良、可分别表示优、良、中、差中、差4 4个类别。个类别。(2)“(2)“n-1n-1”表示法表示法 如果用如果用n-1n-1个全为个全为0 0的输出向量表示某个类别,则可以节省一的输出向量表示某个类别,则可以节省一个输出节点。例如,用个输出节点。例如,用00

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁