第三章前馈神经网络(精品).ppt-淘文阁

资源描述

《第三章前馈神经网络(精品).ppt》由会员分享，可在线阅读，更多相关《第三章前馈神经网络(精品).ppt（94页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第三章第三章前馈神经网络前馈神经网络本章主要介绍最常用的两种前馈网络:BP(Back Propagation)神经网络和径向基函数神经网络，以及它的前身感知器、自适应线性单元。前馈神经网络是神经网络中的一种典型的分层前馈神经网络是神经网络中的一种典型的分层结构，信息从输入层进入网络后逐层向前传递结构，信息从输入层进入网络后逐层向前传递至输出层。根据前馈网络中神经元转移函数、至输出层。根据前馈网络中神经元转移函数、隐层数以及权值调整规则的不同，可以形成具隐层数以及权值调整规则的不同，可以形成具有各种功能特点的神经网络。有各种功能特点的神经网络。23.1 感知器感知器3.2 自自适应线性单元适应

2、线性单元3.3 BP网络网络3.4 BP网络变通结构网络变通结构3.5BP网络学习算法的改进网络学习算法的改进3.6BP网络设计基础网络设计基础3.7 BP网络应用与设计实例网络应用与设计实例3.8 小结小结3n19581958年，美国心理学家年，美国心理学家Frank RosenblattFrank Rosenblatt提出一提出一种具有单层计算单元的神经网络，即感知器。感知种具有单层计算单元的神经网络，即感知器。感知器是模拟人的视觉接受环境信息，并由神经冲动进器是模拟人的视觉接受环境信息，并由神经冲动进行信息传递。感知器研究中首次提出了自组织、自行信息传递。感知器研究中首次提出了自组织、自

3、学习的思想，而且对说解决的问题存在着收敛算法，学习的思想，而且对说解决的问题存在着收敛算法，并能从数学上严格证明，因而对神经网络的研究起并能从数学上严格证明，因而对神经网络的研究起了非常重要的推动作用。了非常重要的推动作用。单层感知器的结构和功能都很简单，以至于在解决单层感知器的结构和功能都很简单，以至于在解决实际问题是很少采用，但由于它在神经网络研究中实际问题是很少采用，但由于它在神经网络研究中具有重要意义，是研究其他网络的基础，而且较易具有重要意义，是研究其他网络的基础，而且较易学习和理解，适合于作为神经网络的起点。学习和理解，适合于作为神经网络的起点。3.1 感知器感知器43.1.1 感

4、知器模型感知器模型j=1,2,m 5净输入：净输入：输出：输出：3.1.1感知器模型感知器模型6(1)(1)设输入向量设输入向量X=(x1,x2)T输出：输出：则由方程则由方程 wijx1+w2jx2-Tj=0 确定了二维平面上的一条分界线。确定了二维平面上的一条分界线。ojx1-1x23.1.2感知器的功能感知器的功能7感知器的功能（二维）感知器的功能（二维）8wij x1+w2j x2 Tj=0wij x1=Tj -w2j x2x1=(Tj-w2j x2)/wij =-(w2j/wij)x2+Tj/wij =a x2+c 9设输入向量设输入向量X=(x1,x2,x3)T输出：输出：则由方程

5、则由方程 wijx1+w2jx2+w3j Tj=0 确定了三维空间上的一个分界平面。确定了三维空间上的一个分界平面。x2ojx1x3-110wij x1+w2j x2+w3j x3 Tj=0 x1=a x2+b x3+c 是什么？是什么？11设输入向量设输入向量X=(x1,x2,xn)T则由方程则由方程 wijx1+w2jx2+wnj Tj=0确定了确定了n n维空间上的一个分界平面。维空间上的一个分界平面。输出：输出：wijx1+w2jx2+wnj Tj=012 一个最简单的单计算节点感知器具有分类功一个最简单的单计算节点感知器具有分类功能。其分类原理是将分类知识存储于感知器的权能。其分类原

6、理是将分类知识存储于感知器的权向量（包含了阈值）中，由权向量确定的分类判向量（包含了阈值）中，由权向量确定的分类判决界面将输入模式分为两类。决界面将输入模式分为两类。3.1.2感知器的功能感知器的功能13例例用感知器实现逻辑用感知器实现逻辑“与与”功能功能x1x2y000010100111逻辑逻辑“与与”真值真值表表14例一例一用感知器实现逻辑用感知器实现逻辑“与与”功功能能感知器结构感知器结构w1x1+w2x2-T=0 0.5x1+0.5x2-0.75=015例例用感知器实现逻辑用感知器实现逻辑“或或”功能功能x1x2y000011101111逻辑逻辑“或或”真值表真值表16用感知器实

7、现逻辑用感知器实现逻辑“或或”功能功能感知器结构感知器结构 w1x1+w2x2-T=0 x1+x2-0.5=017问题：能否用感知器实现问题：能否用感知器实现“异或异或”功能？功能？“异或异或”的真值表的真值表x1x2y00001110111018n关键问题就是求关键问题就是求193.1.3感知器的学习感知器的学习nPerceptron(感知器感知器)学习规则学习规则式中，当实际输出与期望值相同时，权值不需要调整。感知式中，当实际输出与期望值相同时，权值不需要调整。感知器学习规则代表一种有导师学习。器学习规则代表一种有导师学习。20感知器学习规则的训练步骤：感知器学习规则的训练步骤：(1)(1

8、)对各权值对各权值w0j(0),w1j(0),wnj(0)，j=1,2,m （m为计算层的节点数）赋予较小的非零随机数；为计算层的节点数）赋予较小的非零随机数；(2)(2)输入样本对输入样本对Xp,dp，其中其中Xp=(-1,x1p,x2p,x xn np p)，dp为期望的输出向量（教师信号），上标为期望的输出向量（教师信号），上标p代表代表样本对的模式序号，设样本集中的样本总数为样本对的模式序号，设样本集中的样本总数为P，则则p=1,2,P P；3.1.3感知器的学习感知器的学习21(3)计计算算各各节节点点的的实实际际输输出出 ojp(t)=sgnWjT(t)Xp,j

9、=1,2,.,m；(4)调整各节点对应的权值，调整各节点对应的权值，Wj(t+1)=Wj(t)+djp-ojp(t)Xp,j=1,2,m,其中为学习率，用于控制调整速度，太大其中为学习率，用于控制调整速度，太大会影响训练的稳定性，太小则使训练的收敛速度变慢，会影响训练的稳定性，太小则使训练的收敛速度变慢，一般取一般取01；(5)返回到步骤返回到步骤(2)输入下一对样本，周而复始直到对所输入下一对样本，周而复始直到对所有有样本，感知器的实际输出与期望输出相等。样本，感知器的实际输出与期望输出相等。3.1.3感知器的学习感知器的学习22感知器学习规则的训练步骤：感知器学习规则的训练步骤：（1

10、1）权值初始化）权值初始化（2 2）输入样本对）输入样本对（3 3）计算输出）计算输出（4 4）根据感知器学习规则调整权值）根据感知器学习规则调整权值（5 5）返回到步骤）返回到步骤(2)(2)输入下一对样本，周而复输入下一对样本，周而复始直到对所有样本，感知器的实际输出与期始直到对所有样本，感知器的实际输出与期望输出相等。望输出相等。23例例单计算节点感知器，单计算节点感知器，3 3个输入。给定个输入。给定3 3对训练样本对对训练样本对如下：如下：X1=(-1，1，-2，0)T d1=1X2=(-1，0，1.5，-0.5)T d2=1X3=(-1，-1，1，0.5)T d3=1 设初始权向

11、量设初始权向量W(0)=(0.5,1,-1,0)T，=0.1。注意，输注意，输入向量中第一个分量入向量中第一个分量x0恒等于恒等于-1，权向量中第一个分量，权向量中第一个分量为阈值，试根据以上学习规则训练该感知器。为阈值，试根据以上学习规则训练该感知器。3.1.3感知器的学习感知器的学习24解：第一步解：第一步输入输入X1，得得 WT(0)X1=(0.5,1,-1,0)(-1,1,-2,0)T=2.5 o1(0)=sgn(2.5)=1 W(1)=W(0)+d1-o1(0)X1 =(0.5,1,-1,0)T+0.1(-1-1)(-1,1,-2,0)T =(0.7,0.8,-0.6,0)T3.1

12、.3感知器的学习感知器的学习25第二步第二步输入输入X2，得得 WT(1)X2=(0.7,0.8,-0.6,0)(-1,0,1.5,-0.5)T=-1.6 o2(1)=sgn(-1.6)=-1 W(2)=W(1)+d2-o2(1)X2 =(0.7,0.8,-0.6,0)T+0.1-1-(-1)(-1,0,1.5,-0.5)T =(0.7,0.8,-0.6,0)T由于由于d2=o2(1)，所以所以W(2)=W(1)。3.1.3感知器的学习感知器的学习26第三步第三步输入输入X X3 3，得得 WT(2)X3=(0.7,0.8,-0.6,0)(-1,-1,1,0.5)T=-2.1 O3(2)=

13、sgn(-2.1)=-1W(3)=W(2)+d3-o3(2)X3 =(0.7,0.8,-0.6,0)T+0.11-(-1)(-1,-1,1,0.5)T =(0.5,0.6,-0.4,0.1)T第四步第四步返回到第一步，继续训练直到返回到第一步，继续训练直到dp-op=0，p=1,2,3。3.1.3感知器的学习感知器的学习273.1.4单层感知器的局限性单层感知器的局限性n问题：能否用感知器解决如下问题？问题：能否用感知器解决如下问题？283.1.4单层感知器的局限性单层感知器的局限性n无法解决无法解决“异或异或”问题问题n只能解决线性可分问题只能解决线性可分问题“异或异或”的真值表的真值表x

14、1x2y00001110111029双层感知器双层感知器“异或异或”问题分问题分类类例四例四用两计算层感知器解决用两计算层感知器解决“异或异或”问题。问题。“异或异或”的真值的真值表表x1 x2y1 y2 o 0 01 1 00 11 011 00 111 11 1 03.1.5多层感知器多层感知器30给出具有一个具有单隐层的感知器，其中隐层的两个节点相当于两给出具有一个具有单隐层的感知器，其中隐层的两个节点相当于两个独立的符号单元（但计算节点感知器）。这两个符号单元可分别个独立的符号单元（但计算节点感知器）。这两个符号单元可分别在由在由x1x1、x2x2构成的平面上确定两条分界直线构成的平

15、面上确定两条分界直线S1S1和和S2S2，从而构成一个，从而构成一个开放式凸域。显然通过适当调整两条直线的位置，可使两类线性不开放式凸域。显然通过适当调整两条直线的位置，可使两类线性不可分样本分别位于该开放式凸域内部和外部。此时对于隐节点可分样本分别位于该开放式凸域内部和外部。此时对于隐节点1 1来来说，直线说，直线S1S1下面的样本使其输出下面的样本使其输出y1=1y1=1，而直线上面的样本使其输出，而直线上面的样本使其输出为为y2=1y2=1，而直线下面的样本使其输出为，而直线下面的样本使其输出为y2=0y2=0。当输入样本为当输入样本为o o类时，其位置位于开放式凸域外部，即或者同时同类

16、时，其位置位于开放式凸域外部，即或者同时同时处在两直线时处在两直线S1S1、S2S2上方，使上方，使y1=0y1=0，y2=1y2=1；或者同时处在两直线；或者同时处在两直线S1S1、S2S2下方，使下方，使y1=1y1=1，y2=0y2=0。输出层节点一隐层两节点的输出输出层节点一隐层两节点的输出y1y1、y2y2作为输入，其结构也相当作为输入，其结构也相当于一个符号单元。如果经过训练，使其具有逻辑于一个符号单元。如果经过训练，使其具有逻辑“与非与非”功能，则功能，则疑惑问题即可得到解决。根据疑惑问题即可得到解决。根据“与非与非”逻辑，当隐节点输出为逻辑，当隐节点输出为y1=1y1=1，y2

17、=1y2=1时，该节点输出为时，该节点输出为o=0o=0，当隐节点输出为，当隐节点输出为y1=1y1=1，y2=0y2=0时，或时，或y1=0y1=0，y2=1y2=1时，该节点输出时，该节点输出o=1o=1。可以看出单隐层感知器确实可以。可以看出单隐层感知器确实可以解决异或问题，因此具有解决线性不可分问题的能力。解决异或问题，因此具有解决线性不可分问题的能力。31多层感知器的提出多层感知器的提出单计算层感知器的局限性单计算层感知器的局限性只能解决线性可分问题，而大量的分类问题是线性只能解决线性可分问题，而大量的分类问题是线性不可分的。不可分的。解决的有效办法解决的有效办法在输入层与输出层

18、之间引入隐层作为输入模式的在输入层与输出层之间引入隐层作为输入模式的“内部表示内部表示”，将单计算层感知器变成，将单计算层感知器变成多（计算）层多（计算）层感知器感知器。采用采用非线性连续函数作为转移函数非线性连续函数作为转移函数，使区域边界线，使区域边界线的基本线素由直线变成曲线，从而使整个边界线变的基本线素由直线变成曲线，从而使整个边界线变成连续光滑的曲线。成连续光滑的曲线。323.1.5多层感知器多层感知器33Wj(t)=dj-oj(t)X3.1.5多层感知器多层感知器具有不同隐层数的感知器的分类能力对比具有不同隐层数的感知器的分类能力对比返回返回 343.2自适应线性单元自适应线性单

19、元19621962年美国斯坦福大学教授年美国斯坦福大学教授WidrowWidrow提出一种提出一种自适应可调的神经网络，其基本构成单元称自适应可调的神经网络，其基本构成单元称为自适应线性单元。这种自适应可调的神经为自适应线性单元。这种自适应可调的神经网络主要适用于信号处理中的自适应滤波、网络主要适用于信号处理中的自适应滤波、预测和模式识别。预测和模式识别。返回返回 353.3 BP网络网络误差反向传播神经网络，简称误差反向传播神经网络，简称BP(Back Propagation)网络，是一种单向传播的多层前向网络。网络，是一种单向传播的多层前向网络。在模式识别、图像处理、系统辨识、函数拟合、

20、优在模式识别、图像处理、系统辨识、函数拟合、优化计算、最优预测和自适应控制等领域有着较为广化计算、最优预测和自适应控制等领域有着较为广泛的应用。泛的应用。BP网络的示意图网络的示意图36误差反向传播算法简称误差反向传播算法简称BP算法，其基本思想是最算法，其基本思想是最小二乘法。它采用梯度搜索技术，以期使网络的小二乘法。它采用梯度搜索技术，以期使网络的实际输出值与期望输出值的误差均方值为最小。实际输出值与期望输出值的误差均方值为最小。BP算法的学习过程由正向传播和反向传播组成。算法的学习过程由正向传播和反向传播组成。在正向传播过程中，输入信息从输入层经隐含层在正向传播过程中，输入信息从输入层经

21、隐含层逐层处理，并传向输出层，每层神经元（节点）逐层处理，并传向输出层，每层神经元（节点）的状态只影响下一层神经元的状态。如果在输出的状态只影响下一层神经元的状态。如果在输出层不能得到期望输出，则转入反向传播，将误差层不能得到期望输出，则转入反向传播，将误差信号沿原来的连接通路返回，通过修改各层神经信号沿原来的连接通路返回，通过修改各层神经元的权值，使误差信号最小。元的权值，使误差信号最小。37基于基于BPBP算法的多层前馈网络模型算法的多层前馈网络模型误差反传（误差反传（BP）算法）算法38n模型的数学表达模型的数学表达输入向量：输入向量：X=(x1,x2,xi,xn)T隐层输出向量：隐层输

22、出向量：Y=(y1,y2,yj,ym)T输出层输出向量：输出层输出向量：O=(o1,o2,ok,ol)T期望输出向量期望输出向量：d=(d1,d2,dk,dl)T输入层到隐层之间的权值矩阵：输入层到隐层之间的权值矩阵：V=(V1,V2,Vj,Vm)隐层到输出层之间的权值矩阵：隐层到输出层之间的权值矩阵：W=(W1,W2,Wk,Wl)各个变量之间如何建立联系，来描述整个网络？各个变量之间如何建立联系，来描述整个网络？39对于输出层：对于输出层：k=1,2,l (3.1)k=1,2,l (3.2)对于隐层：对于隐层：j=1,2,m (3.3)j=1,2,m (3.4)BP学习算法学习算法40双极性

23、双极性SigmoidSigmoid函数：函数：单极性单极性SigmoidSigmoid函数：函数：(3.5)BP学习算法学习算法41输出误差输出误差E E定义：定义：(3.6)将以上误差定义式展开至隐层：将以上误差定义式展开至隐层：(3.7)BP学习算法学习算法42进一步展开至输入层：进一步展开至输入层：(3.8)BP学习算法学习算法43j=0,1,2,m;k=1,2,l (3.9a)i=0,1,2,n;j=1,2,m (3.9b)式中负号表示梯度下降，常数式中负号表示梯度下降，常数(0,1)(0,1)表示比例系数。表示比例系数。在全部推导过程中，对输出层有在全部推导过程中，对输出层有j=0,

24、1,2,m;k=1,2,l 对隐层有对隐层有 i=0,1,2,n;j=1,2,mBP学习算法学习算法44对于输出层，式对于输出层，式(3.9a)(3.9a)可写为可写为(3.10a)对隐层，式对隐层，式(3.9b)(3.9b)可写为可写为(3.10b)对输出层和隐层各定义一个误差信号，令对输出层和隐层各定义一个误差信号，令(3.11a)(3.11b)BP学习算法学习算法45综综合合应应用用式式(3.2)(3.2)和和(3.11a)(3.11a)，可可将将式式 (3.10a)(3.10a)的的权权值值调调整整式改写为式改写为综合应用式综合应用式(3.4)(3.4)和和(3.11b)(3.11b)

25、，可将式可将式 (3.10b)(3.10b)的权值的权值调整式改写为调整式改写为(3.12a)（3.12b)可以看出，只要计算出式可以看出，只要计算出式(3.12)(3.12)中的误差信号中的误差信号 o o和和 y y，权值调整量的计算推导即可完成。下面继续推导如何权值调整量的计算推导即可完成。下面继续推导如何求误差信号求误差信号 o o和和 y y 。46对于输出层，对于输出层，o o可展开为可展开为对于隐层，对于隐层，y y可展开为可展开为下面求式下面求式(3.13)(3.13)中网络误差对各层输出的偏导。中网络误差对各层输出的偏导。(3.13a)（3.13b)47对于输出层，利用式对于

26、输出层，利用式(3.6)(3.6)：对对于于隐隐层层，利利用用式式(3.7)(3.7)：（3.14a)可得可得：（3.14b)可得：可得：48将以上结果代入式将以上结果代入式(3.13)(3.13)，并应用式，并应用式(3.15)(3.15)（3.15a)得到：得到：（3.15b)至此两个误差信号的推导已完成。至此两个误差信号的推导已完成。49将式将式(3.15)(3.15)代回到式代回到式(3.12)(3.12)，得到三层前馈网的，得到三层前馈网的BPBP学习学习算法权值调整计算公式为：算法权值调整计算公式为：(3.16a)(3.16b)5051BP学习算法流程：学习算法流程：1)初始化初始

27、化置所有权值为最小的随机数；置所有权值为最小的随机数；2)提供训练集提供训练集给定输入向量和期望的目标输出向给定输入向量和期望的目标输出向量；量；3)计算实际输出计算实际输出计算隐含层、输出层各神经元输计算隐含层、输出层各神经元输出；出；4)计算目标值与实际输出的偏差；计算目标值与实际输出的偏差；5)计算局部梯度；计算局部梯度；6)调整各层权重；调整各层权重；7)返回返回2)重复计算，直到误差满足要求为止。重复计算，直到误差满足要求为止。5253 在使用在使用BP算法时，应注意的几个问题是：算法时，应注意的几个问题是：学习开始时，各隐层连接权系数的初值应以设学习开始时，各隐层连接权系数的

28、初值应以设置较小的随机数较为适宜。置较小的随机数较为适宜。采用采用S型激发函数时，由于输出层各神经元的输型激发函数时，由于输出层各神经元的输出只能趋于出只能趋于1或或0，不能达到，不能达到1或或0。在设置各训。在设置各训练样本时，期望的输出分量不能设置为练样本时，期望的输出分量不能设置为1或或0，以设置为以设置为0.9或或0.1较为适宜。较为适宜。在学习开始阶段，选较大的值可以加快学习速在学习开始阶段，选较大的值可以加快学习速率。学习接近优化区时，学习速率必须相当小，率。学习接近优化区时，学习速率必须相当小，否则权值将产生振荡而不收敛。否则权值将产生振荡而不收敛。54网络包含一个隐层，设输网络

29、包含一个隐层，设输入层与隐层的权值入层与隐层的权值wjk，隐，隐层与输出层的权值层与输出层的权值wij初始初始值值x1x2y000011101110BP网络权值学习举例网络权值学习举例样本：输入和期望输出样本：输入和期望输出激发函数激发函数学习速率学习速率55迭代迭代1次后的次后的BP网络网络x1x2y实际输实际输出出误误差差0000.50.50110.51010.51100.556迭代迭代8000次后的次后的BP网络网络x1x2y实际输实际输出出误误差差0000.1190.1660010.7271010.7341100.41557迭代迭代11050次后的次后的BP网络网络x1x2y实际输实际

30、输出出误误差差0000.050.0080110.9411010.9411100.078 返回返回 58n标准连接标准连接(Standard Connection)每个单元都与下一层的单元相连。一般三层网络每个单元都与下一层的单元相连。一般三层网络能够解决大多数问题。如果需要选用一个以上的中能够解决大多数问题。如果需要选用一个以上的中间层，学习时间需要大大增加。间层，学习时间需要大大增加。3.4 BP网络变通结构网络变通结构59n跳跃连接（跳跃连接（Jump Connections）nRecurrent网络网络返回返回 60多层前馈网的主要能力多层前馈网的主要能力(1)(1)非线性映射能力非线

31、性映射能力多层前馈网能学习和存贮大量输入多层前馈网能学习和存贮大量输入-输出模式输出模式映射关系，而无需事先了解描述这种映射关系的映射关系，而无需事先了解描述这种映射关系的数学方程。只要能提供足够多的样本模式对供数学方程。只要能提供足够多的样本模式对供BPBP网络进行学习训练，它便能完成由网络进行学习训练，它便能完成由n n维输入空间到维输入空间到m m维输出空间的非线性映射。维输出空间的非线性映射。61多层前馈网的主要能力多层前馈网的主要能力(2)(2)泛化能力泛化能力当向网络输入训练时未曾见过的非样本数据时，网络当向网络输入训练时未曾见过的非样本数据时，网络也能完成由输入空间向输出空间

32、的正确映射。这种能也能完成由输入空间向输出空间的正确映射。这种能力称为多层前馈网的泛化能力。力称为多层前馈网的泛化能力。(3)(3)容错能力容错能力输入样本中带有较大的误差甚至个别错误对网络的输入样本中带有较大的误差甚至个别错误对网络的输入输出规律影响很小。输入输出规律影响很小。62误差曲面与误差曲面与BPBP算法的局限性算法的局限性误差函数的可调整参数的误差函数的可调整参数的个数个数n nw w等于各层权值数加等于各层权值数加上阈值数，即：上阈值数，即：误差误差E E是是n nw w+1+1维空间中一个维空间中一个形状极为复杂的曲面，该曲形状极为复杂的曲面，该曲面上的每个点的面上的每个点的

33、“高度高度”对对应于一个误差值，每个点的应于一个误差值，每个点的坐标向量对应着坐标向量对应着n nw w个权值，个权值，因此称这样的空间为误差的因此称这样的空间为误差的权空间。权空间。63误差曲面的分布误差曲面的分布BP算法的局限性算法的局限性n曲面的分布特点曲面的分布特点-算法的局限性算法的局限性n(1)存在平坦区域存在平坦区域-误差下降缓慢，影响收敛速度误差下降缓慢，影响收敛速度n(2)存在多个极小点存在多个极小点-易陷入局部最小点易陷入局部最小点 64曲面分布特点曲面分布特点1：存在平坦区域：存在平坦区域n平坦误差的梯度变化小接近于零65曲面分布特点曲面分布特点2：存在多个极小点：存在

34、多个极小点 n误差梯度为零误差梯度为零n多数极小点都是局部极小，即使是全局极小往多数极小点都是局部极小，即使是全局极小往往也不是唯一的。往也不是唯一的。单权值单权值双权值双权值66曲面分布特点曲面分布特点2：存在多个极小点：存在多个极小点nBP算法算法以误差梯度下降为权值调整原则以误差梯度下降为权值调整原则n误差曲面的这一特点误差曲面的这一特点使之无法辨别极小点的性质使之无法辨别极小点的性质n导致的结果：导致的结果：因而训练经常陷入某个局部极小点而不能自拔，因而训练经常陷入某个局部极小点而不能自拔，从而使训练无法收敛于给定误差。从而使训练无法收敛于给定误差。67nBP算法存在的问题算法存在的问

35、题nBP网络收敛太慢影响了该网络在许多方面的实网络收敛太慢影响了该网络在许多方面的实际应用。为此，许多人对际应用。为此，许多人对BP网络的学习算法进网络的学习算法进行了广泛的研究，提出了许多改进的算法。行了广泛的研究，提出了许多改进的算法。学习时间过长学习时间过长泛化能力较低泛化能力较低容易陷入局部最小而中断学习过程容易陷入局部最小而中断学习过程中间层单元个数、网络的大小如何确定中间层单元个数、网络的大小如何确定（实际应用多采用三层网络）（实际应用多采用三层网络）68标准标准BP算法的改进算法的改进n误差曲面的形状固有的误差曲面的形状固有的n算法的作用是什么？算法的作用是什么？调整权值，找到

36、最优点调整权值，找到最优点n那么如何更好地调整权值？那么如何更好地调整权值？利用算法使得权值在更新的过程中，利用算法使得权值在更新的过程中，走走合适的路径，比如跳合适的路径，比如跳出平坦区来提高收敛速度，跳出局部最小点等等出平坦区来提高收敛速度，跳出局部最小点等等n如何操作？如何操作？需要在进入平坦区或局部最小点时进行一些判断，通过改变某些需要在进入平坦区或局部最小点时进行一些判断，通过改变某些参数来使得权值的调整更为合理。参数来使得权值的调整更为合理。69n引入动量项引入动量项标准标准BP算法实质上是一种简单的最速下降静态寻优算法，算法实质上是一种简单的最速下降静态寻优算法，在修正在修正w(

37、t)时，只按，只按t时刻的刻的负梯度方式梯度方式进行修正，而没有考行修正，而没有考虑以前以前积累的累的经验，即以前，即以前时刻的梯度方向，从而常使学刻的梯度方向，从而常使学习过程程发生振生振荡，收，收敛缓慢。慢。为此提出如下改此提出如下改进算法：算法：增加增加动量量项即从前一次即从前一次权值调整量中提取出一部分迭代到本整量中提取出一部分迭代到本次次权值调整量中。整量中。该方法所加入的方法所加入的动量量项实质上相当于阻尼上相当于阻尼项，它减小了学，它减小了学习过程的振程的振荡趋势，改善了收，改善了收敛性，性，这是目是目前前应用比用比较广泛的种改广泛的种改进算法。算法。70n变尺度法尺度法标准准

38、BP学学习算法采用一算法采用一阶梯度法，因而收梯度法，因而收敛较慢。若采用二慢。若采用二阶梯度法，梯度法，则改善收改善收敛性。性。该算算法法为其中其中虽然二阶梯度法具有比较好的收敛性，但需要计虽然二阶梯度法具有比较好的收敛性，但需要计算算E对对w的二的二阶导数，数，计算量很大。一般不直接采算量很大。一般不直接采用二用二阶梯度法，而采用梯度法，而采用变尺度法或共尺度法或共轭梯度法，梯度法，它它们具有如二具有如二阶梯度法收梯度法收敛快的快的优点，而又无需点，而又无需直接直接计算二算二阶梯度。梯度。71下面具体下面具体给出出变尺度法的算法：尺度法的算法：72n变步长法变步长法一阶梯度法寻优收敛

39、较慢的一个重要原因是一阶梯度法寻优收敛较慢的一个重要原因是(学学习率率)不好不好选择。选的太小，收的太小，收敛太慢，若太慢，若选的的太大，太大，则有可能修正有可能修正过头，导致振致振荡甚至甚至发散。散。下面下面给出的出的变步步长法即是法即是针对这个个问题而提出的。而提出的。这里这里w表示某个连接权系数。表示某个连接权系数。73 上面的算法上面的算法说明，当明，当连续两次迭代其梯度方法相两次迭代其梯度方法相同同时，表明下降太慢，表明下降太慢，这时可使步可使步长加倍；当加倍；当连续两次迭代其梯度方向相反两次迭代其梯度方向相反时，表明下降，表明下降过头，这时可使步可使步长减半。当需要引入减半。当需要

40、引入动量量项时，上述，上述算法的第二算法的第二项可修改可修改为在使用该算法时，由于步长在迭代过程中自适应在使用该算法时，由于步长在迭代过程中自适应调整，因此对于不同的连接权系数实际采用了不调整，因此对于不同的连接权系数实际采用了不同的学习率，也就是说误差代价函数同的学习率，也就是说误差代价函数E在超曲面上在超曲面上在不同地方按照各自比较合理的步长向极小点逼在不同地方按照各自比较合理的步长向极小点逼近。近。返回返回 74n一一、训练样本集的准备、训练样本集的准备1.输入输出量的选择输入输出量的选择2.输入量的提取与表示输入量的提取与表示3.输出量的表示输出量的表示n二、输入输出数据的归一化二、

41、输入输出数据的归一化n三、网络训练与测试三、网络训练与测试3.6 BP网络设计基础751.1.输出量的选择输出量的选择n 输出量输出量:代表系统要实现的功能目标代表系统要实现的功能目标n系统的性能指标系统的性能指标n分类问题的类别归属分类问题的类别归属n非线性函数的函数值非线性函数的函数值一一、训练样本集的准备、训练样本集的准备762.2.输入量的选择输入量的选择n输入量选择的两条基本原则输入量选择的两条基本原则必须选择那些对输出影响大且能够检测或必须选择那些对输出影响大且能够检测或提取的变量提取的变量各输入变量之间互不相关或相关性很小各输入变量之间互不相关或相关性很小77输入输出量的性质输入

42、输出量的性质n从输入、输出量的性质来看，可分为两类：一类从输入、输出量的性质来看，可分为两类：一类是数值变量，一类是语言变量。是数值变量，一类是语言变量。数值变量的值是数值确定的连续量或离散量。数值变量的值是数值确定的连续量或离散量。语言变量是用自然语言表示的概念，其语言变量是用自然语言表示的概念，其“语言语言值值”是用自然语言表示的事物的各种属性。是用自然语言表示的事物的各种属性。n当选用语言变量作为网络的输入或输出变量当选用语言变量作为网络的输入或输出变量时，需将其语言值转换为离散的数值量。时，需将其语言值转换为离散的数值量。78输入量的提取与表示输入量的提取与表示XC=(11110011

43、1)T XI=(111100111)T XT=(111100111)T(1)(1)文字符号输入文字符号输入79（2）曲线输入）曲线输入p=1,2,P80(3)函数自变量输入函数自变量输入一般有几个输入量就设几个分量，一般有几个输入量就设几个分量，1个输入分个输入分量对应量对应1个输入层节点。个输入层节点。(4)图象输入图象输入在这类应用中，一般先根据识别的具体目的从在这类应用中，一般先根据识别的具体目的从图象中提取一些有用的特征参数，再根据这些图象中提取一些有用的特征参数，再根据这些参数对输入的贡献进行筛选，这种特征提取属参数对输入的贡献进行筛选，这种特征提取属于图象处理的范畴。于图象处理的范

44、畴。813.3.输出量的表示输出量的表示(1)(1)“n n中取中取1 1”表示表示法法“n n中取中取1 1”是令输出向量的分量数等于类别数，输入是令输出向量的分量数等于类别数，输入样本被判为哪一类，对应的输出分量取样本被判为哪一类，对应的输出分量取1 1，其余，其余 n-1 n-1 个分量全取个分量全取0 0。例如，用。例如，用00010001、00100010、01000100和和10001000可分可分别表示优、良、中、差别表示优、良、中、差4 4个类别。个类别。(2)(2)“n-1n-1”表示法表示法如果用如果用n-1n-1个全为个全为0 0的输出向量表示某个类别，则可以节的输出向

45、量表示某个类别，则可以节省一个输出节点。例如，用省一个输出节点。例如，用000000、001001、010010和和100100也可表也可表示优、良、中、差示优、良、中、差4 4个类别。个类别。(3)(3)数值表示法数值表示法对于渐进式的分类，可以将语言值转化为二值之间的数对于渐进式的分类，可以将语言值转化为二值之间的数值表示。数值的选择要注意保持由小到大的渐进关系，值表示。数值的选择要注意保持由小到大的渐进关系，并要根据实际意义拉开距离。并要根据实际意义拉开距离。82二、输入输出数据的归一化二、输入输出数据的归一化归一化也称为或标准化，是指通过变换处理将归一化也称为或标准化，是指通过变换处

46、理将网络的输入、输出数据限制在网络的输入、输出数据限制在00，11或或-1-1，11区间内。区间内。进行归一化的主要原因：进行归一化的主要原因：归一化的方法：归一化的方法：83进行归一化的主要原因：进行归一化的主要原因：n网络的各个输入数据常常具有不同的网络的各个输入数据常常具有不同的物理意义和不同的量物理意义和不同的量纲纲，归一化给各输入分量以同等重要的地位；，归一化给各输入分量以同等重要的地位；nBPBP网的神经元均采用网的神经元均采用SigmoidSigmoid转移函数，变换后可防止因转移函数，变换后可防止因净输入的绝对值过大而使神经元输出净输入的绝对值过大而使神经元输出饱和饱和，继而使

47、权值调，继而使权值调整进入误差曲面的平坦区；整进入误差曲面的平坦区；nSigmoidSigmoid转移函数的输出在转移函数的输出在0-10-1或或-1-1-1-1之间。之间。教师信号教师信号如不如不进行归一化处理，势必使数值大的输出分量进行归一化处理，势必使数值大的输出分量绝对误差绝对误差大，大，数值小的输出分量绝对误差小。数值小的输出分量绝对误差小。84归一化的方法：归一化的方法：将输入输出数据变换为将输入输出数据变换为00，11区间的值常用以下变区间的值常用以下变换式换式其中，其中，x xI I代表输入或输出数据，代表输入或输出数据，x xminmin代表数据变化的代表数据变化的最小值，最

48、小值，x xmanman代表数据的最大值代表数据的最大值。将输入输出数据变换为将输入输出数据变换为-1-1，11区间的值常用以下变区间的值常用以下变换式换式其中，其中，x xmidmid代表数据变化范围的中间值代表数据变化范围的中间值。85三、网络训练与测试三、网络训练与测试网络的性能好坏主要看其是否具有很好的泛化能力，对网络的性能好坏主要看其是否具有很好的泛化能力，对泛化能力的测试不能用训练集的数据进行，而要用训练泛化能力的测试不能用训练集的数据进行，而要用训练集以外的测试数据来进行检验。集以外的测试数据来进行检验。86在隐节点数一定的情况下，为获得好的泛化能力，存在在隐节点数一定的情况下，

49、为获得好的泛化能力，存在着一个最佳训练次数。着一个最佳训练次数。873.7 BP网络应用与设计实例网络应用与设计实例nBP算法应用于催化剂配方建模算法应用于催化剂配方建模本例采用本例采用BP神经网络对脂肪醇催化剂配方的神经网络对脂肪醇催化剂配方的式样数据进行学习，训练后的网络作为数学模型式样数据进行学习，训练后的网络作为数学模型映射配方与优化指标之间的复杂非线性关系。获映射配方与优化指标之间的复杂非线性关系。获得了较高的精度。得了较高的精度。n网络结构设计与训练网络结构设计与训练寻找学习样本寻找学习样本确定网络结构确定网络结构n影响因素的个数为输入个数影响因素的个数为输入个数n优化指标的个数

50、为输出个数优化指标的个数为输出个数88n脂肪酸甲脂转化率脂肪酸甲脂转化率TRn脂肪醇产率脂肪醇产率YOH n脂肪醇选择性脂肪醇选择性SOH 神经网络学习神经网络学习得到结果得到结果89BP网络应用于汽车变速的最佳档位判定网络应用于汽车变速的最佳档位判定汽车在不同状态参数下运行时，获得最佳动力性与汽车在不同状态参数下运行时，获得最佳动力性与经济性的档位称为最佳档位。最佳档位与汽车运行经济性的档位称为最佳档位。最佳档位与汽车运行状态参数之间具有某种非线性关系，即换档规律。状态参数之间具有某种非线性关系，即换档规律。n获取换档规律获取换档规律通过学习优秀驾驶员的换档经验通过学习优秀驾驶员的换档经验

展开阅读全文