《神经网络和仿真.ppt》由会员分享,可在线阅读,更多相关《神经网络和仿真.ppt(145页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于神经网络与仿真第一张,PPT共一百四十五页,创作于2022年6月Outlinen1.人工神经网络简介 n2.神经网络的特点及应用 n3.神经网络模型 n4.神经网络的学习方式 第二张,PPT共一百四十五页,创作于2022年6月1.人工神经网络简介 人工神经网络(Artificial Neural Network,ANN),通常简称为神经网络,是一种在生物神经网络的启示下建立的数据处理模型。主要通过调整神经元之间的权值来对输入的数据进行建模,最终具备解决实际问题。第三张,PPT共一百四十五页,创作于2022年6月1.人工神经网络简介 单层感知器结构 人工神经网络的可塑性表现于,其连接权值都是
2、可调整的,它将一系列仅具有简单处理能力的节点通过权值相连,当权值调整至恰当时,就能输出正确的结果。网络将知识存储在调整后的各权值中,这一点是神经网络的精髓。第四张,PPT共一百四十五页,创作于2022年6月2.神经网络的特点及应用1.自学习和自适应性。自学习和自适应性。给神经网络输入新的训练样本,网络能够自动调整结构参数,改变映射关系 2.非线性性。非线性性。人工神经元处于激活或抑制状态,表现为数学上的非线性关系。3.鲁棒性与容错性鲁棒性与容错性。局部的损害会使人工神经网络的运行适度减弱,但不会产生灾难性的错误。4.计算的并行性与存储的分布性。计算的并行性与存储的分布性。每个神经元都可以根据接
3、收到的信息进行独立运算和处理。人工神经网络具有强大的模式识别和数据拟合能力 第五张,PPT共一百四十五页,创作于2022年6月2.神经网络的特点及应用1.模式分类。需要提供已知样本 2.聚类。不需要提供已知样本。3.回归与拟合。相似的样本输入在神经网络的映射下,往往能得到相近的输出。4.优化计算。寻找一组参数组合,使由该组合确定的目标函数达到最小值。5.数据压缩。将数据保存于连接权值中。第六张,PPT共一百四十五页,创作于2022年6月3.神经网络模型n 单层网络:单层感知器,线性网络。n 多层网络:其他网络。n 前向网络:BP、径向基网络、自组织网络等。n 反馈网络:Hopfield网络,E
4、lman网络等。本书共介绍了单层感知器、线性网络、BP网络、径向基网络、自组织竞争网络、反馈网络、随机神经网络等神经网络模型。第七张,PPT共一百四十五页,创作于2022年6月4.神经网络的学习方式1.有监督学习(有教师学习)。训练样本对应一个教师信号。2.无监督学习(无教师学习)。网络只接受一系列的输入样本,而对该样本应有的输出值一无所知。1.Hebb学习规则:权值的调整量与输入前一神经元输出值和后一神经元输出值的乘积成正比 。2.纠错学习规则:权值的调整量与误差大小成正比。3.随机学习规则:Boltzmann机事实上就是模拟退火算法 。4.竞争学习规则:只有一个获胜神经元可以进行权值调整,
5、其他神经元的权值维持不变,体现了神经元之间的侧向抑制。第八张,PPT共一百四十五页,创作于2022年6月单神经元网络第九张,PPT共一百四十五页,创作于2022年6月神经元模型神经元模型神经元模型神经元模型 图图中中 为为神神经经元元的的内内部部状状态态,为为阈阈值值,为为输输入入信信号号,为为表表示示从从单单元元 到到单单元元 的的连连接接权系数,权系数,单神经元模型可描述为:单神经元模型可描述为:单神经元模型可描述为:单神经元模型可描述为:第十张,PPT共一百四十五页,创作于2022年6月通常情况下,取通常情况下,取即即即即第十一张,PPT共一百四十五页,创作于2022年6月图图图图7-1
6、 单神经元模型单神经元模型单神经元模型单神经元模型第十二张,PPT共一百四十五页,创作于2022年6月常用的神经元非线性特性有以下四种:常用的神经元非线性特性有以下四种:常用的神经元非线性特性有以下四种:常用的神经元非线性特性有以下四种:(1 1)阈值型)阈值型)阈值型)阈值型图图图图7-2 阈值型函数阈值型函数第十三张,PPT共一百四十五页,创作于2022年6月(2 2)分段线性型)分段线性型)分段线性型)分段线性型图图7-3 7-3 分段线性函数分段线性函数第十四张,PPT共一百四十五页,创作于2022年6月(3 3)SigmoidSigmoid函数型函数型图图图图7-4 Sigmoid7
7、-4 Sigmoid函数函数函数函数第十五张,PPT共一百四十五页,创作于2022年6月单层感知器第十六张,PPT共一百四十五页,创作于2022年6月Outlinen1.单层感知器的结构 n2.单层感知器的学习算法 n3.感知器的局限性 n4.单层感知器应用实例 第十七张,PPT共一百四十五页,创作于2022年6月1.单层感知器的结构 单层感知器属于单层前向网络,即除了输入层和输出层之外只拥有一层神经元节点。感知器(感知器(perception)的原理相对简单,是学习其他复杂神经网络的基)的原理相对简单,是学习其他复杂神经网络的基础础 。由单个神经元组成的单层感知器只能用来解决线性可分的二分类
8、问题。典型使用场景:将其用于两类模式分类时,就相当于在高维样本空间中,用一个超平面将样本分开。Rosenblatt证明,如果两类模式线性可分,则算法一定收敛。第十八张,PPT共一百四十五页,创作于2022年6月1.单层感知器的结构输入是一个N维向量其中的每一个分量都对应于一个权值,隐含层的输出叠加为一个标量值:随后在二值阈值元件中对得到的v值进行判断,产生二二值输值输出出:第十九张,PPT共一百四十五页,创作于2022年6月1.单层感知器的结构二维空间中的超平面是一条直线。在直线下方的点,输出-1;在直线上方的点,输出1。分类面:第二十张,PPT共一百四十五页,创作于2022年6月2.单层感知
9、器的学习算法在实际应用中,通常采用纠错学习规则的学习算法。将偏置作为一个固定输入 输入权值第二十一张,PPT共一百四十五页,创作于2022年6月2.单层感知器的学习算法(1)定义变量和参数。X为输入,y为实际输出,d为期望输出,b为偏置,w为权值。(2)初始化。n=0,将权值向量 设置为随机值或全零值。(3)激活。输入训练样本,对每个训练样本指定其期望输出。d(4)计算实际输出。第二十二张,PPT共一百四十五页,创作于2022年6月2.单层感知器的学习算法(5)更新权值向量。(6)判断。若满足收敛条件,算法结束;若不满足,n自增1,转到第3步继续执行。n误差小于某个预先设定的较小的值 n两次迭
10、代之间的权值变化已经很小 n设定最大迭代次数M,当迭代了M次之后算法就停止迭代 条件的混合使用,防止出现算法不收敛现象。第二十三张,PPT共一百四十五页,创作于2022年6月2.单层感知器的学习算法确定学习率 n 不应当过大,以便为输入向量提供一个比较稳定的权值估计 n 不应当过小,以便使权值能够根据输入的向量x实时变化,体现误差对权值的修正作用 n 粗准焦螺旋 和细准焦螺旋的类比。自适应学习率。第二十四张,PPT共一百四十五页,创作于2022年6月3.感知器的局限性单层感知器无法解决线性不可分问题,只能做近似分类。感知器的激活函数使用阈值函数,输出值只有两种取值,限制了在分类种类上的扩展。如
11、果输入样本存在奇异样本,网络需要花费很长的时间。感知器的学习算法只对单层有效。第二十五张,PPT共一百四十五页,创作于2022年6月4.单层感知器应用实例1.手算2.使用工具箱函数 坐标点的二类模式分类问题:二维平面坐标系中存在一系列坐标点,已知部分坐标点属于第一类,部分坐标点属于第二类,求新坐标点的类别。第二十六张,PPT共一百四十五页,创作于2022年6月4.单层感知器应用实例序号Xy所属类型(期望输出)1-915021813-12404-450501106591第二十七张,PPT共一百四十五页,创作于2022年6月4.单层感知器应用实例定义:n=0.2;P=-9 1 -12 -4 0,5
12、;.15 -8 4 5 11,9;d=0,1,0,0,0,1;P=ones(1,6);P第二十八张,PPT共一百四十五页,创作于2022年6月4.单层感知器应用实例(2)初始化,将权值和偏置初始化为零。w=0,0,0;(3)第一次迭代。v=w*P%输出层的输入 y=hardlim(v)%计算网络的输出根据 调整权值 e=(d-y)%误差 ee=mae(e)%计算误差的平均绝对差 w=w+n*(T-y)*P%调整w第二十九张,PPT共一百四十五页,创作于2022年6月4.单层感知器应用实例(4)第二次迭代。重复以上的步骤 v=w*P y=hardlim(v)e=(d-y)ee=mae(e)%误差
13、不为零!w=w+n*(T-y)*P均匀分布元素的方差第三十张,PPT共一百四十五页,创作于2022年6月4.单层感知器应用实例(5)第三次迭代,重复以上步骤。v=w*P y=hardlim(v)e=(d-y)ee=mae(e)w=w+n*(T-y)*P第三十一张,PPT共一百四十五页,创作于2022年6月5.单层感知器应用实例(6)第四次迭代。v=w*P y=hardlim(v)e=(d-y)ee=mae(e)w=w+n*(T-y)*Pperception_hand.m误差为零,权值w不再更新,得到的分类超平面为:第三十二张,PPT共一百四十五页,创作于2022年6月4.单层感知器应用实例2.
14、使用工具箱函数使用工具箱函数用到的函数:newptrainsimperception_fcn.m第三十三张,PPT共一百四十五页,创作于2022年6月程序%perception_hand.m%清理(1)定义变量 定义输入 期望输出clear,clcclose all%n=0.2;%学习率w=0,0,0;P=-9,1,-12,-4,0,5;.15,-8,4,5,11,9;d=0,1,0,0,0,1;%期望输出P=ones(1,6);P;P第三十四张,PPT共一百四十五页,创作于2022年6月P=1 1 1 1 1 1 -9 1 -12 -4 0 5 15 -8 4 5 11 9第三十五张,PPT
15、共一百四十五页,创作于2022年6月%(2)显示要分类的点figure;subplot(2,1,1);%显示待分类的点和分类结果plot(-9,-12 -4 0,15,4 5 11,o);hold on;plot(1,5,-8,9,*);axis(-13,6,-10,16);legend(第一类,第二类);title(6个坐标点的二分类);第三十六张,PPT共一百四十五页,创作于2022年6月第三十七张,PPT共一百四十五页,创作于2022年6月%(3)初始化w=0,0,0;%(4)第一次迭代计算V和y值v=w*P;v y=hardlim(v);%实际输出y%y是实际输出,与期望输出d不一致需
16、要根据误差d-y调整权值和偏置e=(d-y);e ee=mae(e);ee w=w+n*(d-y)*P;w第三十八张,PPT共一百四十五页,创作于2022年6月v=0 0 0 0 0 0y=1 1 1 1 1 1e=-1 0 -1 -1 -1 0ee=0.6667w=-0.8000 5.0000 -7.0000第三十九张,PPT共一百四十五页,创作于2022年6月%(5)第二次迭代,根据第一次迭代更新的w向量的值,计算V和y值 v=w*P;v y=hardlim(v);%实际输出ye=(d-y);e ee=mae(e);ee%可以发现,实际输出与期望输出仍然不一致,还需要再次调整w向量w=w+
17、n*(d-y)*P;w第四十张,PPT共一百四十五页,创作于2022年6月v=-150.8000 60.2000 -88.8000 -55.8000 -77.8000 -38.8000y=0 1 0 0 0 0e=0 0 0 0 0 1ee=0.1667w=-0.6000 6.0000 -5.2000第四十一张,PPT共一百四十五页,创作于2022年6月%(6)第三次迭代,根据第一次迭代更新的w向量的值,计算V和y值v=w*P;v y=hardlim(v);%实际输出ye=(d-y);e ee=mae(e);ee%可以发现,mae值与前一次迭代相比没有变化,但是v值已经有了更新,继续调整权值和
18、偏置w=w+n*(d-y)*P;w第四十二张,PPT共一百四十五页,创作于2022年6月v=-132.6000 47.0000 -93.4000 -50.6000 -57.8000 -17.4000y=0 1 0 0 0 0e=0 0 0 0 0 1ee=0.1667w=-0.4000 7.0000 -3.4000第四十三张,PPT共一百四十五页,创作于2022年6月%(7)第四次迭代v=w*P;v y=hardlim(v);%实际输出ye=(d-y);e ee=mae(e);ee%可以发现,程序在第四次迭代时就已经取得正确的结果,mae值为0,此时算法就收敛了,由于mae值为0,因此即使继续
19、更新w向量,其值也保持不变:w=w+n*(d-y)*P;w第四十四张,PPT共一百四十五页,创作于2022年6月v=-114.4000 33.8000 -98.0000 -45.4000 -37.8000 4.0000y=0 1 0 0 0 1e=0 0 0 0 0 0ee=0第四十五张,PPT共一百四十五页,创作于2022年6月 w=w+n*(d-y)*P;ww=-0.4000 7.0000 -3.4000程序在第4次迭代时就已经取得了正确的结果,mae值为零。此时算法就收敛了,由于mae值为零,因此继续更新w向量,其值也保持不变。第四十六张,PPT共一百四十五页,创作于2022年6月%显示
20、figure;subplot(2,1,1);%显示待分类的点和分类结果plot(-9,-12 -4 0,15,4 5 11,o);hold on;plot(1,5,-8,9,*);axis(-13,6,-10,16);legend(第一类,第二类);title(6个坐标点的二分类);x=-13:.2:6;y=x*(-w(2)/w(3)-w(1)/w(3);plot(x,y);hold off;第四十七张,PPT共一百四十五页,创作于2022年6月第四十八张,PPT共一百四十五页,创作于2022年6月总程序%perception_hand.m%清理clear,clcclose all%n=0.2
21、;%学习率w=0,0,0;P=-9,1,-12,-4,0,5;.15,-8,4,5,11,9;d=0,1,0,0,0,1;%期望输出P=ones(1,6);P;MAX=20;%最大迭代次数为20次%训练i=0;第四十九张,PPT共一百四十五页,创作于2022年6月while 1 v=w*P;y=hardlim(v);%实际输出%更新 e=(d-y);ee(i+1)=mae(e);if(ee(i+1)=MAX)%达到最大迭代次数,退出 disp(MAX times loop);disp(w);disp(ee(i+1);break;end i=i+1;end第五十一张,PPT共一百四十五页,创作于
22、2022年6月%显示figure;subplot(2,1,1);%显示待分类的点和分类结果plot(-9,-12 -4 0,15,4 5 11,o);hold on;plot(1,5,-8,9,*);axis(-13,6,-10,16);legend(第一类,第二类);title(6个坐标点的二分类);x=-13:.2:6;y=x*(-w(2)/w(3)-w(1)/w(3);plot(x,y);hold off;第五十二张,PPT共一百四十五页,创作于2022年6月subplot(2,1,2);%显示mae值的变化x=0:i;plot(x,ee,o-);s=sprintf(mae的值(迭代次数
23、:%d),i+1);title(s);第五十三张,PPT共一百四十五页,创作于2022年6月第五十四张,PPT共一百四十五页,创作于2022年6月 线性神经网络第五十五张,PPT共一百四十五页,创作于2022年6月Outlinen1.线性神经网络的结构 n2.LMS学习算法 n3.LMS算法中学习率的选择 n4.线性神经网络与感知器的对比 n5.线性神经网络实现直线拟合n6.线性神经网络应用实例-与 第五十六张,PPT共一百四十五页,创作于2022年6月1.线性神经网络的结构 线性神经网络最典型的例子是自适应线性元件(Adaptive Linear Element,Adaline)。线性神经网
24、络与感知器的主要区别在于,感知器的传输函数只能输出两种可能的值,而线性神经网络的输出可以取任意值,其传输函数是线性函数。线性神经网络在收敛的精度和速度上较感知器都有了较大提高,但由于其线性运算规则,它也只能解决线性可分的问题。第五十七张,PPT共一百四十五页,创作于2022年6月1.线性神经网络的结构 线性神经网络在结构上与感知器网络非常相似,只是神经元传输函数不同。第五十八张,PPT共一百四十五页,创作于2022年6月1.线性神经网络的结构 若网络中包含多个神经元节点,就能形成多个输出,这种线性神经网络叫Madaline网络。Madaline可以用一种间接的方式解决线性不可分的问题,方法是用
25、多个线性函数对区域进行划分,然后对各个神经元的输出做逻辑运算。第五十九张,PPT共一百四十五页,创作于2022年6月1.线性神经网络的结构 线性神经网络解决线性不可分问题的另一个方法是,对神经元添加非线性输入,从而引入非线性成分,这样做会使等效的输入维度变大。第六十张,PPT共一百四十五页,创作于2022年6月2.LMS学习算法 LMS算法与感知器网络的学习算法在权值调整上都基于纠错学习规则,但LMS更易实现,因此得到了广泛应用,成为自适应滤波的标准算法。也称为 规则 采用均方误差作为评价指标 是输入训练样本的个数。线性神经网络学习的目标 是找到适当的 ,使得误差的均方差最小。只要用对 求偏导
26、,再令该偏导等于零即可求出 的极值。显然,必为正值,因此二次函数是凹向上的,求得的极值必为极小值。第六十一张,PPT共一百四十五页,创作于2022年6月2.LMS学习算法误差表示为求导误差等于期望输出实际输出求导代入,有:权值的修正值正比于当前位置上的梯度 第六十二张,PPT共一百四十五页,创作于2022年6月2.LMS学习算法(1)定义变量和参数。(2)初始化。给向量赋一个较小的随机初值。(3)输入样本,计算实际输出和误差。(4)调整权值向量。(5)判断算法是否收敛。若满足收敛条件,则算法结束,否则跳转到第3步重新计算。第六十三张,PPT共一百四十五页,创作于2022年6月3.LMS算法中学
27、习率的选择 学习率越小,算法的运行时间就越长,算法也就记忆了更多过去的数据。因此,学习率的倒数反映了LMS算法的记忆容量大小。1996年Hayjin证明,只要学习率满足下式,LMS算法就是按方差收敛的:输入向量自相关矩阵的最大特征值一般不可知,用矩阵的迹代替,迹就是主对角线元素之和。第六十四张,PPT共一百四十五页,创作于2022年6月3.LMS算法中学习率的选择自相关矩阵的主对角线元素就是各输入向量的均方值,故:在感知器学习算法中曾提到,学习率随着学习的进行逐渐下降比始终不变更加合理。反比例函数指数式下降搜索收敛方案 第六十五张,PPT共一百四十五页,创作于2022年6月4.线性神经网络与感
28、知器的对比n网络传输函数。感知器传输函数是一个二值阈值元件,而线性神经网络的传输函数是线性的。这就决定了感知器只能做简单的分类,而线性神经网络还可以实现拟合或逼近。n学习算法。LMS算法得到的分类边界往往处于两类模式的正中间,而感知器学习算法在刚刚能正确分类的位置就停下来了,从而使分类边界离一些模式距离过近,使系统对误差更敏感。第六十六张,PPT共一百四十五页,创作于2022年6月5.线性神经网络实现直线拟合 对于一些离散的数据点,从中找到这些点的规律,就做一条直线,穿过尽可能多的点,使得这些数据和直线上所的估计的点的方差最小,找到的这条直线就是拟合直线,该直线代表了数据之间的线性规律。第六十
29、七张,PPT共一百四十五页,创作于2022年6月%清理clear,clcclose all%定义数据P=-5:5;%输入:11个标量Pd=3*P-7;drandn(state,2);d=d+randn(1,length(d)*1.5%期望输出:加了噪声的线性函数d第六十八张,PPT共一百四十五页,创作于2022年6月P=ones(1,length(P);P%P加上偏置Plp.lr=0.01;%学习率MAX=150;%最大迭代次数ep1=0.1;%均方差终止阈值ep2=0.0001;%权值变化终止阈值%初始化w=0,0;第六十九张,PPT共一百四十五页,创作于2022年6月%循环更新 for i
30、=1:MAX fprintf(第%d次迭代:n,i)e=d-purelin(w*P);%求得误差向量 ms(i)=mse(e);%均方差 ms(i)if(ms(i)ep1)%如果均方差小于某个值,则算法收敛 fprintf(均方差小于指定数而终止n);break;end第七十张,PPT共一百四十五页,创作于2022年6月dW=lp.lr*e*P;%权值调整量 if(norm(dW)P=0,0,1,1;0,1,0,1 P=ones(1,4);P d=0,0,0,1 pinv(P)*d 第七十四张,PPT共一百四十五页,创作于2022年6月6.线性神经网络应用实例与手算:%定义 P=0,0,1,1
31、;0,1,0,1 P=ones(1,4);P%包含偏置的输入向量 d=0,0,0,1%期望输出向量%初始化 w=0,0,0%权值向量初始化为零向量 lr=maxlinlr(P)%根据输入矩阵求解最大学习率 MAX=200;%最大迭代次数,根据经验确定第七十五张,PPT共一百四十五页,创作于2022年6月 for i=1:MAX.fprintf(第%d次迭代n,i);v=w*P;%求出输出y=v;disp(线性网络的二值输出:);yy=y=0.5%将模拟输出转化为二值输出,以0.5为阈值e=d-y;%误差m(i)=mse(e);%均方误差fprintf(均方误差:%fn,m(i);dw=lr*e
32、*P;%权值向量的调整量fprintf(权值向量:n);w=w+dw%调整权值向量end6.线性神经网络应用实例与第七十六张,PPT共一百四十五页,创作于2022年6月plot(0,0,1,0,1,0,o);hold on;plot(1,1,d);x=-2:.2:2;y=1.5-x;plot(x,y)axis(-0.5,2,-0.5,2)xlabel(x);ylabel(ylabel);title(线性神经网络用于求解与逻辑)legend(0,1,分类面);6.线性神经网络应用实例与第七十七张,PPT共一百四十五页,创作于2022年6月得到的分类超平面为:第七十八张,PPT共一百四十五页,创作
33、于2022年6月使用工具箱函数:and_linearlayer.m:线性网络与感知器的对比 线性网络得到的分类面大致位于两类坐标点的中间位置,而感知器得到的分类面恰好穿过其中一个坐标点。线性神经网络鲁棒性强,优于感知器。6.线性神经网络应用实例与第七十九张,PPT共一百四十五页,创作于2022年6月添加非线性输入:6.线性神经网络应用实例异或运行xor_linearlayer.m 第八十张,PPT共一百四十五页,创作于2022年6月6.线性神经网络应用实例异或使用Madaline:两个神经元 运行xor_madaline.m 第八十一张,PPT共一百四十五页,创作于2022年6月第6章 BP神
34、经网络第八十二张,PPT共一百四十五页,创作于2022年6月Outlinen1.BP神经网络的结构 n2.BP网络的学习算法 n3.设计BP网络的方法 n4.BP神经网络的局限性 n5.BP神经网络应用实例 第八十三张,PPT共一百四十五页,创作于2022年6月1.BP神经网络的结构n BP神经网络是包含多个隐含层的网络,具备处理线性不可分问题的能力。n 误差反向传播算法(Error Back Propagtion,BP),解决了多层神经网络的学习问题。是一种多层前向网络,又叫多层感知器。BP网络是前向神经网络的核心部分,也是整个人工神经网络体系中的精华,广泛应用于分类识别、逼近、回归、压缩等
35、领域。在实际应用中,大约80%的神经网络模型采取了BP网络或BP网络的变化形式。第八十四张,PPT共一百四十五页,创作于2022年6月1.BP神经网络的结构 网络由多层构成,层与层之间全连接,同一层之间的神经元无连接。包含一个多多个隐层,可以实现复杂的映射关系。第八十五张,PPT共一百四十五页,创作于2022年6月1.BP神经网络的结构 BP网络的传递函数必须可微。BP网络一般使用Sigmoid函数或线性函数作为传递函数。n Sigmoid函数是光滑、可微的函数,在分类时它比线性函数更精确,容错性较好。n 将输入从负无穷到正无穷的范围映射到01或-11区间内,具有非线性的放大功能。Log-Si
36、gmoid Tan-Sigmoid第八十六张,PPT共一百四十五页,创作于2022年6月1.BP神经网络的结构n “误差反向传播”:误差信号反向传播。修正权值时,网络根据误差从后向前逐层进行修正。n “反馈神经网络”:输出层的输出值又连接到输入神经元作为下一次计算的输入,如此循环迭代,直到网络的输出值进入稳定状态为止。在本书后面的章节中会专门介绍反馈神经网络,包括Hopfield网络、Elman网络等。BP神经网络属于多层前向网络,工作信号始终正向流动,没有反馈结构。BP网络采用误差反向传播算法误差反向传播算法(Back-Propagation Algorithm)进行学习。在BP网络中,数据
37、从输入层经隐含层逐层向后传播,训练网络权值时,则沿着减少误差的方向,从输出层经过中间各层逐层向前修正网络的连接权值。第八十七张,PPT共一百四十五页,创作于2022年6月2.BP网络的学习算法 BP学习算法的原理与LMS算法比较类似,属于最速下降法。最速下降法最速下降法 最速下降法可以求某指标(目标函数)的极小值,若将目标函数取为均方误差,就得到了LMS算法。对于实值函数 ,如果在某点 处有定义且可微,则函数在该点处沿着梯度相反的方向 下降最快。因此,使用梯度下降法时,应首先计算函数在某点处的梯度,再沿着梯度的反方向以一定的步长调整自变量的值。当步长足够小时 反复迭代求得函数最小值第八十八张,
38、PPT共一百四十五页,创作于2022年6月2.BP网络的学习算法最速下降法 实例:求函数的最小值 根据梯度值可以再函数中画出一系列的等值线或等值面,在等值线或等值面上函数值相等。梯度下降法相当于沿着垂直于等值线方向向最小值所在位置移动。第八十九张,PPT共一百四十五页,创作于2022年6月2.BP网络的学习算法(1)目标函数必须可微。(2)如果最小值附近比较平坦,算法会在最小值附近停留很久,收敛缓慢。“之之”字形下降字形下降(3)对于包含多个极小值的函数,所获得的结果依赖初始值。算法有可能陷入局部极小值点,而没有达到全局最小值点。BP神经网络来说,由于传递函数都是可微的,因此能满足最速下降法的
39、使用条件。第九十张,PPT共一百四十五页,创作于2022年6月2.BP网络的学习算法最速下降BP法 隐含层传递函数为Sigmoid函数,输出层传递函数为线性函数 1.工作信号正向传播 2.误差信号反向传播 权值调整量=学习率 *局部梯度 *上一层输出信号第九十一张,PPT共一百四十五页,创作于2022年6月2.BP网络的学习算法 当输出层传递函数为线性函数时,输出层与隐含层之间权值调整的规则类似于线性神经网络的权值调整规则。BP网络的复杂之处在于,隐含层与隐含层之间、隐含层与输入层之间调整权值时,局部梯度的计算需要用到上一步计算的结果。前一层的局部梯度是后一层局部梯度的加权和。因此,BP网络学
40、习权值时只能从后向前依次计算。n 串行方式。在线方式,网络每获得一个新样本,就计算一次误差并更新权值,直到样本输入完毕。随机输入样本,不容易陷入局部最优陷阱。n 批量方式:离线方式。网络获得所有的训练样本,计算所有样本均方误差的和作为总误差。容易并行化,速度快。第九十二张,PPT共一百四十五页,创作于2022年6月2.BP网络的学习算法n 动量BP法 在标准BP算法的权值更新阶段引入动量因子,使权值修正值具有一定惯性:本次权值的更新方向和幅度不但与本次计算所得的梯度有关,还与上一次更新的方向和幅度有关(1)如果前后两次计算所得的梯度方向相同,得到的权值较大,可以加速收敛过程。(2)如果前后两次
41、计算所得梯度方向相反,则说明两个位置之间可能存在一个极小值,可以得到一个较小的步长,更容易找到最小值点,而不会陷入来回振荡 第九十三张,PPT共一百四十五页,创作于2022年6月2.BP网络的学习算法n 学习率可变的学习率可变的BP算法:算法:当误差以减小的方式趋于目标时,说明修正方向是正确的,可以增加学习率;当误差增加超过一定范围时,说明前一步修正进行地不正确,应减小步长,并撤销前一步修正过程。n 拟牛顿法拟牛顿法。牛顿法具有收敛快的优点,但需要计算误差性能函数的二阶导数,计算较为复杂。拟牛顿法只需要知道目标函数的梯度,通过测量梯度的变化进行迭代,收敛速度大大优于最速下降法。拟牛顿法有DFP
42、方法、BFGS方法、SR1方法和Broyden族方法。第九十四张,PPT共一百四十五页,创作于2022年6月3.设计BP网络的方法1.网络层数。对于大部分应用场合,单个隐含层即可满足需要 2.输入层节点数。输入层节点数取决于输入向量的维数。如果输入的是的图像,则输入向量应为图像中所有的像素形成的4096维向量。如果待解决的问题是二元函数拟合,则输入向量应为二维向量。3.隐含层节点数。较多的隐含层节点数可以带来更好的性能,但可能导致训练时间过长。经验公式:BP网络的设计主要包括网络层数、输入层节点数、隐含层节点数、输出层节点数及传输函数、训练方法、训练参数的设置等几个方面。样本数输入层结点数第九
43、十五张,PPT共一百四十五页,创作于2022年6月3.设计BP网络的方法 输出层神经元的个数同样需要根据从实际问题中得到的抽象模型来确定。在模式分类问题中,如果共有n种类别,则输出可以采用n个神经元。也可以将节点个数设计为 个,表示最小的不小于 的整数。由于输出共有4种情况,因此采用二维输出即可覆盖整个输出空间,00、01、10和11分别表示一种类别。输出层神经元个数 传递函数的选择 一般隐含层使用Sigmoid函数,而输出层使用线性函数。如果输出层也采用Sigmoid函数,输出值将会被限制在 01或-11之间。第九十六张,PPT共一百四十五页,创作于2022年6月3.设计BP网络的方法训练方
44、法的选择 n使用LM算法收敛速度最快,均方误差也较小。LM算法对于模式识别相关问题的处理能力较弱,且需要较大的存储空间 n模式识别问题,使用RPROP算法能收到较好的效果 nSCG算法对于模式识别和函数逼近问题都有较好的性能表现。初始权值的确定 通常将初始权值定义为较小的非零随机值,经验值为:权值输入端连接的神经元个数 第九十七张,PPT共一百四十五页,创作于2022年6月3.设计BP网络的方法 确定以上参数后,将训练数据进行归一化处理,并输入网络中进行学习,若网络成功收敛,即可得到所需的神经网络。第九十八张,PPT共一百四十五页,创作于2022年6月4.BP神经网络的局限性BP网络具有实现任
45、何复杂非线性映射的能力,特别适合求解内部机制复杂的问题,但BP网络也具有一些难以克服的局限性(1)需要的参数较多)需要的参数较多,且参数的选择没有有效的方法。隐含层结点个数。(2)容易陷入局部最优)容易陷入局部最优。(3)样本依赖性)样本依赖性。如果样本集合代表性差、矛盾样本多、存在冗余样本,网络就很难达到预期的性能(4)初始权重敏感性)初始权重敏感性。训练的第一步是给定一个较小的随机初始权重,由于权重是随机给定的,BP网络往往具有不可重现性。第九十九张,PPT共一百四十五页,创作于2022年6月5.BP神经网络应用实例实现二值逻辑异或 学习率为0.6,动量因子为0.8,默认最大迭代次数为10
46、00次 采用手算实现基于BP网络的异或逻辑。训练时采用批量训练的方法,训练算法使用带动量因子的最速下降法。main_xor.m 第一百张,PPT共一百四十五页,创作于2022年6月6.BP神经网络应用实例分类面xy第一百零一张,PPT共一百四十五页,创作于2022年6月%清理clear all clc randn(state,2);%参数eb=0.01;%误差容限 eta=0.6;%学习率mc=0.8;%动量因子 maxiter=1000;%最大迭代次数第一百零二张,PPT共一百四十五页,创作于2022年6月%初始化网络nSampNum=4;nSampDim=2;nHidden=3;nOut=
47、1;w=2*(rand(nHidden,nSampDim)-1/2);b=2*(rand(nHidden,1)-1/2);wex=w,b;W=2*(rand(nOut,nHidden)-1/2);B=2*(rand(nOut,1)-1/2);WEX=W,B;第一百零三张,PPT共一百四十五页,创作于2022年6月%数据SampIn=0,0,1,1;.0,1,0,1;.1,1,1,1;expected=0,1,1,0;第一百零四张,PPT共一百四十五页,创作于2022年6月%训练iteration=0;errRec=;outRec=;for i=1:maxiter%工作信号正向传播 hp=wex
48、*SampIn;tau=logsig(hp);tauex =tau,1*ones(nSampNum,1);第一百零五张,PPT共一百四十五页,创作于2022年6月HM=WEX*tauex;out=logsig(HM);outRec=outRec,out;err=expected-out;sse=sumsqr(err);errRec=errRec,sse;fprintf(第%d 次迭代,误差:%f n,i,sse)第一百零六张,PPT共一百四十五页,创作于2022年6月%判断是否收敛 iteration=iteration+1;if sse x=0,0;0,1;1,1;1,0%输入向量 t=0,
49、1;0,1%隐含节点的中心 z=dist(x,t)%计算输入向量到中心的距离 G=radbas(z)%将算得的距离输入到径向基函数中G相当于径向基层的输出。再加上偏置b=1,形成矩阵第一百二十五张,PPT共一百四十五页,创作于2022年6月 G=G,ones(4,1)%加上偏置 d=0,1,0,1%期望输出 w=inv(G.*G)*G.*d%求权值向量d=0,1,0,1T,w=w,w,bT采用以下公式求解w最终:最终:w=-2.5027,-2.5027,2.8413T 计算实际输出:Y=G*w%计算实际输出第一百二十六张,PPT共一百四十五页,创作于2022年6月6.径向基网络应用实例忽略第三
50、列偏置,第一行是第一个输入向量0,0T在隐含层的输出,其余行以此类推。表示为坐标的形式 RBF网络的隐含层经过高斯函数的运算,将原向量空间中的四个点映射为隐含层空间中的三个点。原空间中四个点线性不可分,而在新的空间中却可由一条直线正确地分成两类 一些解释第一百二十七张,PPT共一百四十五页,创作于2022年6月6.径向基网络应用实例%xor_hand.m%清理clear allclose allclc%输入%输入向量x=0,0;0,1;1,1;1,0%隐含节点的中心t=0,1;0,1第一百二十八张,PPT共一百四十五页,创作于2022年6月6.径向基网络应用实例%计算网络%计算输入向量到中心的