《《神经网络》课程讲义.pdf》由会员分享,可在线阅读,更多相关《《神经网络》课程讲义.pdf(81页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一章:神经网络概述神经网络讲什么内容,讲计算模型,计算原理,工作原理,用途,实现方法。1什么是神经网络1.1 神经网络与计算机计算机:四代计算机电子管,晶体管,集成电路,大规模集成电路。智能计算机是第5代,智能计算机不容易。速度提高快,智能不见怎么样。计算机特点二进制,5部分组成模块,存储程序。结构看:核心部件是中央处理器。专门存储部件,输入输出部件。神经网络发展史充满传奇色彩,讲故事。每次讲课都讲历史,过去那些出色成绩的故事,做出出色成绩的人的故事。(1)神经网络来自人类对自己的研究,背景性研究起始于19世纪末,2 0世纪初。生物学家要搞清楚人或生命智能的道理。想办法解释自然现象,物理学。
2、(2)现代方式的神经网络研究神经网络研究,1940年,两个科学家:Warren McCulloch,Walter P itts,给出人工神经网络模型。现在人们使用的就是他们抽象出的神经元模型.(3)hebb规则,1949,生物神经元学习机制。神经元传递信息的原则,互相作用的原则。两个神经原同时兴奋,则两者的连接强度增强。(4)1958年,rosenblatt真正造了一个神经网络,号称perceptron,感知器。(5)1960 年,Bernard Widrow,Ted Hoff 给出自适应线性神经网络,利用了 widrow-hoff学习规则,应用于消除回声。真正应用,用于电话消除回声,很简单的
3、元件。(6)1969年,minsky与papert的书批评了感知器与自适应线性神经网络,打击了神经网络发展。从此神经网络发展陷入低;谷。这个时代是计算机发展飞速,同时带有很多神秘感的时代。很多东西未能搞清楚,很有用,很吸引人的时代。大家都来研究计算机的人工智能是很正常的。Minsky的书中举了一个例子,说神经网络不是万能的.(7)科学发展需要冷静,1972年,Teuvo Kohonen与JamesAnderson发明自组织神经网络,Stephen Grossberg观察到自组织神经网络的许多新性质。有很多科学家在逆境中坚持神经网络研究,取得好成绩.我有时感觉在不是很热的环境下更能做出进展来。所
4、以没有必要追求时髦。(8)1960-1980计算机飞速发展,神经网络研究发展平静。计算机的研究发展遇到很多困难。1980年以后,神经网络又一次飞速发展,有点戏剧性。(9)1982年Hopfield用统计机制解释神经网络,使人们对神经网络的认识前进了一大步。1986年B P学习算 法,解决了 minsky与papert的问题。DavidRumelhart 与 James McClelland 给出。Hopfield 神经网络能解 TSP问题,实现了一个神经网络解6 个点的TSP问题。很神,后来实践证明也不能求精确解。(10)1986年以后,大量的神经网络研究文章和研究项目,发现了很多神经网络的新
5、性质和新应用。人工神经网络一定很有前途,现在缺乏真正的应用,用起来不方便。每个国家都投入很多资金研究神经网络。成果很多,神经网络也就真正成长为一门成熟的科学了。神经网络特点未必二进制,没有明确的存储器,计算,控制分工模糊,没有控制程序,性能好,用起来不方便。不好控制,不好用.1.2 神经网络应用领域:空间技术:飞行器控制系统,飞行器元件仿真,飞行器元件错误探测器。举个例子,飞行器在飞行中判断什么是云彩,有没有风,风力多大。将飞行器飞行的环境数据采集以后训练神经网络,由神经网络控制飞行器前进速度,方向。Automotive:交通控制自动指示系统,红绿灯控制,摄像头照相看路上的车有多少,横穿马路人
6、有多少,由此决定红灯还是绿灯,说着容易作着难。银行:信贷申请评估器。语音:语音识别,语音压缩,声调识别。现在主要的应用。机器人,Defense,Electronics,ebtertainment,Fiancial,Insurance,Manufacturing,Medical,Securities,Transportation o 彳艮多领域都用,想用就能用。神经信号,二进制信号。日寸空整合,将一个时段内的各个模拟信息相加就成了。我开始看焦李成的书,看不懂,看公式,认为相加就是时空整合。第二章:神经元模型与神经网络结构本章介绍人工神经网络的数学模型,从神经元开始。1 多输入神经元模型,(1)以
7、后主要用到的神经元模型(2)194 3年就有M P模型,一种最常用的(3)在M P模型基础上的变种。o=工:严吊-8=WTX-3fV=(Wl,W2,.,Wn)r解释:(1)神经元有两种状态,兴奋/抑制。(2)用的含义:神经突触的作用,曲勺含义,阈值。兴奋抑制。(3)时空整合,求和。数模转换后相加。什么是时空整合?笼统,不知道什么意思,暂且理解为求和。作用函数:(1)hard limit火。尸&(2)symmetric hard limit火 力 普rGle(3)linearO,c r 0T,O T 1(5)symmetric saturating linear-l,CT 0f(G)=G O b
8、 1(6)log-sigmoidf(o)=,o=ZL叱苍一。14-e(7)hyperbolic tangent sigmoidf+e(8)positive linear,弋2神经网络结构(1)前馈网络(3)Recurrent神经网络分层(2)层间连接,(3)信号一层一层传递 输出层信号返回作为输入层输入信号。(2)连续自身作用(4)单层前馈神经网络问题:(1)每层有多少个神经元,每个神经元采用什么传递函数,每个连接的权值是多少?(2)针对问题,确定神经网络,即为学习。(3)用作记忆,具有联想能力的记忆函数,象人一样,识别字母,a,b,c,d,e,f,g,z.还有其他种类的神经网络,等讲到时再说
9、。3 神经网络学习规则自己看,以后慢慢理解。4 应用实例解采用hard-limit函数神经元X10.5工20上次内容:(1)神经网络发展史,(2)神经元模型,8种,根据实际需要可以变化。o=%毛-6*=WTX-0(1)以后主要用到的神经元模型(2)1943年就有MP模型,一种最常用的(3)在 MP模型基础上的变种。WZ=(W I,W 2,.,W )7六(为4 2,/的形状,有变化。神经网络从结构上看:还要考虑信号,由数字式的,有连续式的。第二章神经网络的基本特征与典型模型2.2前馈网络模型(1)输入层,中间层,输出层。(3)前馈神经网络能干什么?实现映射,映射能力有多大?将一个向量变成另外一个
10、向量。定理2.1(1)。为有界非线性单调递增函数,K为於中的紧致子集(2*(、尸歹(%1,X 2,为K上的实值连续函数,0则:(1)存在整数N和实常数G,8,=1,2,N,使(2)7(x,.,x)=ZL cwt w产 厂 以)y=i说明:一个神经元对应于它)函数,定理说明,只要神经元足够多,实现任意函数可以使误差足够小。(2)式表达了神经网络实现的函数。文 )函数要求单调递增非线性。2.2.1 感知器来历:R o s e n b l a t t于1 9 5 8年提出感知器神经网络,实际是多层前馈网络,每个神经元均为硬限函数神经元。第一称得上神经网络的神经网络。1单层感知器实 际就是M P神经元
11、模型分层处理信息的连接,因为设计了学习算法,所以叫感知器。作 用函数:/。)=卜::。1 950年实际的硬件就做出来了,1 958年学习算法才提出来,方法的创新比较慢。实 际学习算法很简单,只针对一个神经元,但这是神经网络学习算法的第一次。二、感知器干什么用?连接权值标记:用权值矩阵,这是,层的连接权值矩阵。yk=AtW E-劣)=/(wkxOk),wk=(yvk,M)T,x=(x i人 尸oi=k=X,2,.,77?o单层感知器实现与运算:尸 也产 七 元2%354XIX4X3X2问题:一般的怎么做,当作作业=X1AX2 A Q。(2)单层感知器实现或运算:产为+%2XI11X2问题:一般的
12、怎样处理?定理2.3:单层感知器不能实现异或运算。J=X X 2证明:若有阴,川2,例吏得:火攻m+攻2%2-。)=%1%2,“一6 N 0w2-0 0W +w2一。W j w 2-8 0,由(1)、(2)、(3)得2区所以得证。分析为什么一个神经元的作用,线性分割空间,例如:A A AA An WIX1+W2X2-0=OB B BB B将足)看作平面上的点,若该点在力区域,则神经元输出1,在 8 区域则输出0。问题:(1)单层感知器到底能实现什么样的映射,线性可分的。(2)给定样本,怎样确定神经网络,实现样本中的映射,学习问题。(3)不仅要实现,样本给定的映射,没有给定的映射怎样?考察其泛化
13、能力。三、多层感知器(1)用于实现布尔函数定理:任意布尔函数均可用两层感知器实现。异或怎样实现,相与的形式用一个神经元可实现,相或的形式也可用一个神经元实现,当然任意布尔函数均可用两层神经网络实现。但是根据真值表构造神经网络不容易。(2)用于实现区域识别鼠标进入那个图标的区域,计算机要知道?要判断鼠标是否在一个某种形状的区域中:定理:任意凸区域可以用两层感知器实现。举例证明。神经网络:四个边界线性方程,(2)3XI-%2-3(3XI-X2+30)(3)XI+3-1(4)-x i+3%22-3(-%i+3次+3 0)XiX2(1)-%1-%2-3(-XI-%2+30)任意输入(X,X 2),若
14、输 出 0,则不在阴影区域,若 输 出 1,则在阴影区域。定理:任意凸区域均可用两层感知器识别。为什么:每个边界可用一个线性方程表示,符号:L i,L2,.,L n表示所有边界L i:W 1X-01OL2:w2x-e2 oLm:WmX-02O阴=O ,.M i )T一个神经元一条边界就是了。定理:任意区域可由三层感知器实现辨识解释:任意区域总可划分为凸区域的并。L 2:X 2=-1,X 2+l 0L 3:X I=4,-X I+4 0L 4:X 1-X 2=3,XI-X2-30L 5:XI+X 2=1,-X l-X 2+l 0(L 1 AL2AL5)V(L2ALS AL4)神经网络如下:实际上,
15、两层也能实现凹区域辨识。但是比较麻烦。解释:凸区域:Ai,A2,Ar,Ai可用两层神经网络实现,所以进一步AI+A2+4 可用再加一层神经网络实现。2.2.2反向传播神经网络,BP网络*说明一般的学习问题(1)前馈神经网络实现映射(2)相当于数据压缩(3)相当于数据存储器,输入地址,输出数据给定向量对集合(Xi,K)|i=l,n,要构造神经网络实现向量对,输入X i,就输出Yi。构造神经网络就是神经网络学习。举个例子:银行贷款:什么情况下可以,什么情况下不可以分为条件xl,x2,x3,,x k,过去有很多贷款实例。形成一个表:0XI,x2,x3,.,xk贷款101010101011211001
16、010100o o o o o o o o o o1神经网络构造出来是学习,构造完成神经网络以后再输入一个新的贷款数据,就用神经网络帮助判断。问题是怎样根据原始数据构造神经网络,学习问题,第三章再讲,(2)神经网络判断是否正确。泛化能力,现在这是值得研究的问题。*说明BP神经网络第一层“1个神经元,第 2 层“2个神经元,第 q 层的个神经元。吗表示地s 层第,个神经元的连接权值,由/到,的。夕表示第s 层第i 个神经元的门限值。CT;=X W;产 0,i=1 2 1j=l$=)i 1,2,ib:=Zw况T-歹=1 2 川,S=2,qj=ixt=j(5),i 1,2,.,s,s 2,.,qyi
17、=x,i=,2,m=nq(l)Minsky曾经在1969年说过多层前馈神经网络没有学习算(2)1986年Rumelhart等人就设计了第一个多层前馈神经网络的学习算法。是针对BP网络。先不讲BP算法,以后讲,现在先将应用。两个例子,1函数逼近,2声音识别函数f(x):(1)采集样本点数据,可以将数值化为二进制数。(2)形成样本,(Xi,Yi)|i=l,.,N(3)根据样本构造神经网络,输入X i则输出Yi*声音识别:识别 1,2,3,4,5,6,7样本形成:xl,x2,.,xn1010100101Yl,y2,y30012101110000103不一定只有7 个样本,采用不同人,10个人,每人7
18、 个样本,就是70个样本。神经元怎样输出代表1,怎样输出代表0,具体情况具体分析。2.3.1离散Hop行 eld神经网络1结构:(1)神经元:对称硬限函数:(6=1;:;。(2)神经网络的工作是分节拍的。一般认为,神经元的门限值为 0,每个神经元都没有自反馈。(3)提干什么用的,可以用来预置初始状态。2 工作方式,两种,异步和同步。(1)异步工作方式,每次只有一个神经元状态调整,其他神经元状态保持不变。用公式表示:匕。+1)=/吗七-q)xk(/+1)=xk(/),k o i到底那个神经元改变状态,可以依次改变,也可以随机选择。开始用布置初始状态,开始工作时姓变为0。然后按照异步工作方式改变状
19、态。(2)同步工作方式,每次所有神经元同时改变状态。用公式描述为:,(+1)=/(S=iwuxi(0-,7=1,2,写成矩阵形式:X(t+l)=f(WX(t)-0)族W=)Vijn*n火力仍回卜人尸 开始用布置初始状态,开始工作时姓 变 为0。然后按照同步工作方式改变状态。问题:不就是状态变化吗?状态变到何时为止,有没有静止态,平衡态。是否从任意的初始状态,都能变到平衡态,运动到哪一个平衡态。这种状态变化有什么用?(3)神经网络的稳定性分析定义:状态X满足华/(例,X称为平衡态或吸引,举例:0-1-1-1-1 0 1 1-1101-1 1 1 0验证初始状态为(1,-1,时的状态运动。验证初始
20、状态为(-1,-1,-1,-1尸时的状态运动。(3)自己举几个例子。2DHNN神经网络的稳定性将神经网络看作一个非线性动力学系统,系统稳定,则从一个初始状态可以运动到平衡态。什么是平衡态,稳定点。x=f(wx-e)=f(w x),通常:e=o o 开始是混沌态,最终是稳定态。这应该是万物的运动规律。这 种规律干什么用?定理2.4:(l)DHNN异步工作模式,(2)W对称,(3加心0则对任意初态,网络最终收敛到稳定态。证明:下面的方法在Hopfield之前没有人用过:构造能量函数:E(t)=-ixT(t)w x(t)+xT(t)e说明:该函数有界,上界和下界都有。考察能量变化:AE=E(t+l)
21、-E(t)=-1 XT(t+1)WX(t+1 )+XT(t+1)0-1XT(t)WX(t)+XT(t)6=-1 X(t)+AX(t)TWX(t)+AX(t)+X(t)+AX(t)6-1 XT(t)WX(t)+XT(t)0(因为:X(t+l)=X(t)+AX(t)=-AXT(t)WX(t)-6-lAXT(t)WAX(t)(AX(t)=O,O,Axj(t),.,0r)=-Axi(t)Axi(t)2Wiiy=i20o(1)只有当状态不变时,AE才为0。(2)通常w0,此时也是如此。当Xe0,l时也有同样结论。定理2.5:(l)DHNN同步工作方式,(2)W对称,则神经网络最终收敛到2态极限环或平衡态
22、。证明:构造能量函数:E(t)=-XT(t)WX(t-1 )+(X(t)+X(t-1 )T0AE=E(t+l)-E(t)=-xT(t+i)w x(t)+(x(t+1)+x(t)Te-xT(t)w x(t-1)+(x(t)+x(t-1)T0=(%+1)-X#-i=(Qi(t)=;=10.因能量函数有界,所以收敛。A E=0时只有两种情况,即定理中的情况。定理2.5:(l)DHNN,(2)同步方式工作,(3)W对称且非负定。则对任意初态,神经网络总能收敛到平衡态。证明:E(t)=-1 XT(t)WX(t)+XT。AE(t)=E(t+l)-E(t)=-一lAXT(t)WAX(t)0rl2(1)前面一
23、项前面已经证明是不会大于0,后面一项由W非负定保证。故得证。3 联想记忆(Associate Memory)HAM问题:给定向量:X l=(X n,X 1 2,.,X ln)TX 2=(X21,X22,X2n)TXN=(XN 1 ,XN2,.,XNn)T要求:构造神经网络,使 XI,X2,.,XN是神经网络的吸引子或稳定点。W=X1X1T+X2X2T+X3X3T+.+XNXNT-NI(1)利用Hebb规则解释(2)例子w=(1,1-,-1)+-1-11(00000、0100000010000001000000101000001-1.(02-2-2-2-2、20-2-2-2-2-2-20222-
24、2-22022-2-222022-2222神经网络如下:上次内容:(1)多层感知器,离散作用函数(2)BP神经网络,连续作用函数(3)Hopfield神经网络,上次讲到工作方式,现在先回忆,再继续。*两种工作方式,异步:一次只有一个神经元改变状态,同步:一次所有神经元改变状态。2DHNN神经网络的稳定性,看神经网络改变状态到什么状态。将神经网络看作一个非线性动力学系统,系统稳定,则从一个初始状态可以运动到平衡态。什 么是平衡态,稳定点。A=/(WX-6=/(WX),解释:w=?严,“通常:6=0 O/(WX)=)开 始是混沌态,最终是稳定态。这应该是万物的运动规律。这 种规律干什么用?定理2.
25、4:(l)DHNN异步工作模式,(2)W对称,(3加心0则对任意初态,网络最终收敛到稳定态。证明:下面的方法在Hopfield之前没有人用过:构造能量函数:E(t)=-ixT(t)w x(t)+xT(t)e说明:该函数有界,上界和下界都有。考察能量变化:AE=E(t+l)-E(t)=-1XT(t+1 )WX(t+1 )+XT(t+1)0-lXT(t)WX(t)+XT(t)0=-1 X(t)+AX(t)TWX(t)+AX(t)+X(t)+AX(t)6-1 XT(t)WX(t)+XT(t)6(因为:X(t+l)=X(t)+AX(t)=-AXT(t)WX(t)-0-lAXT(t)WAX(t)(AX尸
26、0,0,Ax,(/),.,0r)=-Axz(0 x w/j(o-0,AX,(02WZ71(1)只有当状态不变时,AE才为0。(2)通常 产0,此时也是如此。当Xe0,l时也有同样结论。定理2.5:(l)DHNN同步工作方式,W对称,则神经网络最终收敛到2态极限环或平衡态。证明:构造能量函数:E(t)=-xT(t)w x(t-1)+(x(t)+x(t-1)TeAE=E(t+l)-E(t)=-xT(t+i)w x(t)+(x(t+1)+x(t)Te-xT(t)w x(t-1)+(x(t)+x(t-1)丁 0=-力(X,+1)-x&-1)0 向 0.1=1(Qi(t)=”(/)-q)y=i因能量函数
27、有界,所以收敛。AE=0时只有两种情况,即定理中的情况。定理2.5:(l)DHNN,(2)同步方式工作,(3)W对称且非负定。则对任意初态,神经网络总能收敛到平衡态。二次型,碳性代发中销过。证明:E(t)=-1 xT(t)w x(t)+xT(t)eAE(t)=E(t+l)-E(t)lAXT(t)WAX(t)0=i2(1)前面一项前面已经证明是不会大于0,后面一项由W 非负定保证。故得证。3 联想记忆神经网络(Associate Memory)HAM问题:给定向量:X l=(X n,X 12,.,X ln)TX2=(X21,X22,.,X2n)TXN=(XN 1 ,XN2,.,XNn)T要求:构
28、造神经网络,使 X|,X2,XN是神经网络的吸引子或稳定点。W=X1X1T+X2X2T+X3X3T+.+XNXNT-M 利 用 Hebb规则解释例子X2=(-1,-1,1,1,1,-1)Tw=-1-1101000000100000010000000、000002-2-2-2220-2-2-2-2-2-20222-2-22022-2-22202-2、-2222(1,1,1,-1,1,-1)+0000神经网络如下:连续Hopfield神经网络结构:三n个微分方程表述。6 =Z%x厂 qJ=l姿dyt=1乂+巴at THopfield神经网络的稳定性,从任意初态均可收敛到平衡态定理2 6 任意连续H
29、opfield神经网络,若:(l)W ij=W ji(2)f()单调增则神经网络从任意初态开始均能收敛到网络平衡态。是稳定的。证明:能量函数:E(t)=-1支X”为。)勺(/)+f 再仇+fj广)沏/=1;=1/=1/=1盯 0=_;/吠+x7W +:j广()沏需 要 证 畔.下 面 证 明:dE dE dxi/、n 1 ,z、dxj瓦2嬴/22%xm+,+N一 也 也=上 也(也 丫 0A 出dt 占dXj l 力,因 为 f()单调增,所 以 产(X i)单调增。所 以:等 0,因而有上式ax.的 不 大 于0。2.3 Bo l tz m a n n 机单层反馈神经网络,工作方式是一个随机
30、收敛过程,随机动力学模型:结构如下:神 经 元 的 工 作 模 式:离 散 的,状 态 离 散 变 化,不 连 续。5 =z%x,(-i)-q1P(x )=D=l+e P(x,)=O)=上+e 下一个状态时什么?抛硬币决定。根据前面的概率。最后结果怎么样,也会稳定,稳定概率为1。这种神经网络也能用来求解优化问题,怎么做:构造一个由问题的参数组成的函数,恰好是一个二次型,根据二次型可以构造神经网络,认为函数是神经网络的能量函数。可以证明,利用这种机器可以求得最优解的概率为1。实际效果不见得好。2.4Hamming神经网络:例子:X1=(O,O,1,1,1,1)T.X2=(1,OQ1,1)T,X3
31、=(l,l,1,1,0,O)T需要建立神经网络存储上述向量,存储器的容错能力应该较强。不带附加的存储模式向量。只有三个平衡态。能否做到。Hamming网络就能做到。神经元使什么样的:饱和线性函数。0,cr 0y=f(a)=o-,oo-uhamming 距离计算:X l=(X ll,X 1 2,.,X ln)T,X 2=(X 21,X 22,.,X 2n)T(2 X 1 1-1)(2 X 2 1-1)+.+(2 x m-l)(2 x 2 n-l)=-d(X i,X 2)+n-d(X i,X2)=n-2d(Xi,X2)n-d(X 吊尸 1 n+(2X.-I)(2X2,.-I)2 i=构造神经网络:
32、给定X=(xi,.,xn),求 X 与 X i之间的hamming距离:2.5自组织神经网络(1)神经网络结构背景:视网膜是怎样辨别东西的?怎样成象?Kohonen总结出一套自组织工作的机制。(3)工作过程 输 入信息x 输出层竞争,只有一个神经元取胜,取胜神经元输出1,变成兴奋态,其他神经元输出0。取胜神经元修改权值,怎样修改?希望什么?一个神经元代表一类。举例说明:声音键盘:(1)a,b,x,y,z的声音编码,(2)结果是当输入不同声音时有不同区域的神经元兴奋,实验结果确实如此。但是需要说明确实要达到这个效果。(3)说明上述内容中的一些情况:*=(X1,X2,Xn)T,%(W l,W 2,
33、.,W n)T,看 X和平距离有多么近,那个最近那个神经元取胜,取胜以后,再去学习X,朝着X移动一点。第三章模式分类与神经网络学习说明什么是模式分类问题:给定向量对:(XI,Y.,(XN,YN),构造神经网络使输入X i,则输出Yi,i=l,2,N,最一般的认为:X是n维实数向量,Yi是m维实数向量。下面一点一点看:先看单个神经元是怎样学习的:Xi1歹 6=春,O=tW ix,-0这样情况下,输入向量为 维,输出向量为1维。怎样学习:X l=(X l l,.X l n)T,dlXN=(XN1,X Nn)T,(1N神经网络连接权值是任意的话,误差是多少?E=A (di-y i)2+(d2-y2)
34、2+.+(dN-yN)2上面函数是误差函数。若E=0,则少是所求的,否则不行。其他情况下,石越小越好。怎样使误差减小?怎样改变w。有一个基本规则梯度下降:朝着梯度的反方向去改变w会使得误差减小最快。Wi=Wi-r/,i=l,2,.,n量=*23)(嗡)+.+2(*y n)(-电=3 -(力平夕(5)%1 L-(dN-y N (CT V)XM可以给出一个算法:(1)随机选定W/,0(2)若 则 输 出 明。,停止。(3)计算 等,W i f i-卓,i=l,2,/dwi 刎(4)转(2)感知器是怎样学习的?(1)样 本,(Xi,Yi),(X 2 Y),(XN,YN)(2)求神经网络实现样本映射。
35、单个神经元的学习:作用函数为:(1)先随机确定Wl,.,Wn,0(2)然后修改连接权值和门限值(3)怎样修改Awi=-喘单个感知器怎样学习,算法是相同的,不同之处在与去掉系数:A w-吟-(d-yi)xu-.-(dN-yN)X M 单个感知器学习算法:误差函数:E=(di-yi)2+(d2-y2)2+.+(dN-yN)2(1)随机确定 Wl,.,Wn,0(2)计算E,若E ,则停止。(3)计算/m,AO,Z=1,2,.,/7O 用=-十-(di-y i)XI L.-(dN-yN)%M】A0=-*(%-y)+.+(dN-yN)(4)w/=w/+Awz,0=&rA3。(5)转 。例子:与运算,样本
36、如下:Xl,X2D先随机取值:w l=0.5,w 2=0.5,9=0.4 o0,000,101,001,11MO)=O;AO,I)=I;X I,O)=I;X i,1)=1A w i=-0.0 5;AW2=-0.0 5;A=0.1i v i=0.4 5;W 2=0.4 5;户0.5M 0)=0;X O,1)=O;X I,0)=0;A i,i)=i o还有一个问题,一般的感知器学习怎么办?有点办法,难度大了。下面最好证明一个定理:定理:若训练样本是线性可分的,则算法经过有限步一定会收敛。*这个留着,下面是BP算法:先要有网络结构:(a)讲清楚网络的连接权值是怎么标记的河(b)门限值怎么标记”,(c
37、)给定样本:(X p,dp),X p=(X p l,X p 2,X p n)T,dp=(dp l,dp 2,dp m)T(d)第t层第i个神经元当输入为Xp时的输出用x;”表示,对应的受到作用力总和:叫”算法是怎样来的:(1)构造误差函数:_ 1 N inp=/=l分析:若石=o,则显然观和e即为所求,若EO,则要修改w和。使E减小。怎样修改?A w尸 鸟d wijA 6 -7 7*az)吗)1 z ,、/dypj-1 dypi d(j 0 -1 q q_丽 一 而 一%)(-您)一 万(%r )再 西 一 五(外 一 力”,)最后一层的神经元示意图。吗=吗 时“吟=岁吗M黄帆;呢,幺8哨 巡
38、dapi=-W W W)k=lA吗和的计算方法见课本p 3 6。上次内容:(1)离 散 Hopfield神经网络,稳定性分析。异步工作模式,同步工作模式,分别具有不同的稳定性结论。(2)联想存储器X|AX A3 联想记忆神经网络(Associate Memory)HAM问题:给定向量:X l=(X n,X 1 2,.,X ln)TX 2=(X21,X22,X2n)TXN=(XN 1 ,XN2,XNn)T要求:构造神经网络,使XI,X2,.,XN是神经网络的吸引子或稳定点。W=X 1 X1 T+X2X2T+X3X3T+.+XNXNT-N/(1)利用Hebb规则解释例子w=1-1-1-1-1、-1
39、111(-1,-1,1,1,1,1)-200000 0 0000010)00001 00 10 0001000W0000 0 2-22 0-2-2 -2 0-2-2 2-2-2 22-2 2-2-2-2、-2-2-222202220222神经网络如下:*联想记忆神经网络的性质,要考虑什么问题:(1)要把想存储的数据都存上,能存那么多吗?存储了数据以后,联想能力怎么样。(3)实际就是怎样才叫好,很多指标,先不考虑指标,观察性质。说明什么叫吸引子,就是平衡态。性 质 1:x是吸引子,V i,6 i=0,则-x 也是该网络六1的吸引子。不存与6用力篝孑。的借况。证明:X=fWX),/(w-xy)=f
40、 -WX)=-X所以得证。总聂有一个多分的吸引孑。多存一个。性 质2:乂。)是网络吸引子,d/G廿)=1,则X。)一定不是该网络的吸引子。*说明什么是海明距离证明:不失一般性,设 X(a)=(x i ,,X*),X(b)=(X i(b),.,Xn(b),X i(a)w x j b),X i(a)=X i(b),i=2,n。另外m 1=0。所以:X1 =/(卬后。)一 q )=/(却%*)-d)w x 1(b)。六2 ;=2说明:X已知是吸引子,所以有第一个等式,第二个不等式说明X(b)不是吸引子。推论:乂消是网络吸引子,d H(x m),X(”=-l,则X S)一定不是该网络的吸引子。为d”(
41、X(a),-X S)=l,电傕底2 7另明-X不聂吸引孑,出傕房1蜴明与彳聂吸引孑。前面说明会有假的吸引子,也就是一个吸引子周围的点都不是吸引子。*下面罢蜴明静程存储器的存碗容量H o p f i e l d 的实验结果:m 1 Ti at(dyi dxi台 dt dt 0因为加,)单调增,所以尸(为单调增。所以:号 0,因而有上式a x,的不大于0。d Q Hopfield神仔网侑干什Z用,用孑够和存磁器,存侏色般的致 就。上次讲的内容:(1)Boltzman机,随机神经网络(2)Haiming神经网络,误差修正自组织神经网络。自组织分类。第三章模式分类与神经网络学习说明什么是模式分类问题:
42、简单说明人的学习。修改连接权值。神经网络,连接权值的改变,固定即学习成功。给定向量对:(X,di),(Xv,dv),构造神经网络使输入X,则 输 出 原i=l,2,.W,最一般的认为:X是维实数向量,匕是相维实数向量。X i=(X i/2,.,X i n),di=(dil,di2,.,册0 下面一点一点看:先看单个神经元是怎样学习的:产/3=/O=tW ix,-0这样情况下,输入向量为维,输出向量为1维。怎样学习:内)7,dXN=N1,jNn),,dN神经网络连接权值是任意的话,误差是多少?,任给连接权值由,E=*(di-yi)2+(d2-y2)2+.+(dN-yN)2上面函数是误差函数。若E
43、=0,则乎是所求的,否则不行。其他情况下,越小越好。怎样学习使越来越小。W=(W M2,.MZ 焉=(蚤普察 梯 度。oW(dwy ow2 own J怎样使误差减小?怎样改变W。有一个基本规则梯度下降:朝着梯度的反方向去改变W会使得误差减小最快。A w=(A wi,AW2,A w,;)r,A wi=-半刎,要 有 一 个 系 数 小阴=阴-箓,i=1,2,.,n兼423M(嚼)+.+2(源沙X-翼)=q -(di-y i/g)孙-(加沙(g)双=-(1 平)火 6)(1 VC 5 )X1,-(,2也)火 6)(1 次 6)%2,-(dv-y v)/(O X)(1 -A O!v)x,wN6=2吗
44、%-仇J=1可以给出一个算法:(1)随机选定叫e(2)若 E&则输出叫0,停止。(3)计算刎芸,Wowi=W i-7 j-,i=l,2,.,nt(4)转(2)算法学习是否会成功。什么是成功,达到目标,不是所有样本都能达到目标。样本是线性可分的,则会成功。感知器是怎样学习的?(1)样本,(Xi/i),(生,力),(XN,YN)(2)求神经网络实现样本映射。单个神经元的学习:作用函数为:/9)=上(1)先随机确定Wl,.,Wn,0(2)然后修改连接权值和门限值(3)怎样修改:wi=-7/0(4)箓=5-(d 1/了3ML.-(dN-y 3)矶单个感知器怎样学习,算法是相同的,不同之处在与去掉系数:
45、A w=-*-(di -y 1)%i 尸.单个感知器学习算法:误差函数:石=5(dl -y 1)2+(办-夕2)2+(办沙)2(1)随机确定 wi,.,w.,e计算E,若 E 族例Vi e。转(2)。例子:与运算,样本如下:先随机取值:wi=0.5,W2=0.5,0=0.4OXl X2di0 000 101 00111M 0)=0;X0,i)=i;Xi50)=i;Xhi)=iA wi -d 1 -y 1 )%11 -(力-歹2)%21-(3-3)X3 l-(4-4)X4 1=-唳-(0-0)0-(0-1 )0-(0-1)1 -(1 -1)1 =-0.2*(1 /4)(l)=-0.0 5;W2=
46、-*-(0-0)0-(0-1)1 -(0-1 )0-(1-1)1 =-0.0 5A 0,则要修改W和。使E减小。怎 样 修 改?梯 度 下 降。“尸-普d wue=F 辿863E=8 Epdwi 片 i dwy呜丽)(-野 得 色)聋 翳=9)唱%/最后一层的神经元示意图。9=当 空k=_ 产 0;*i=W;X+W:X;T +%_怎 一,:加才a心S x Pi 制,=一引以啸?()0pk=wkxP+崂巾+-M;X”,-琛八吟和Ao;的计算方法见课本p36o说明:1.没法举例子2.算法程序容易实现,很多现成的程序,可以用V C或V B实现。3.算法在神经网络规模较小时速度还行,规模大时速度太慢。
47、4.有很多改进方法,但解决不了根本问题。5.说算法坏是正常的,总是要改进,算法的关键就是要求微分,6.这个微分求了 30年,实际上被人家求出来了,发现很简单。7.B P算法求解原理是什么?局部搜索算法,开始选择随机初始点,计算到局部最优解时若没达到要求,则重新选择开始点。7 .改进算法自己去看吧,什么原理呢,就是调整步长,理局部最优解远时步长加长,离局部最优解近时步长缩短。8 .有一次我真是认真分析了一下时间复杂度,可以说明是指数的。空间复杂度很小,所以算法很实用。上次内容:(D 什么是学习(2)单个神经元的学习算法关于单层感知器学习的结论。定理:若训练样本是线性可分的,则算法经过有限步一定会
48、收敛。*这个留着,现在不证明。下面是B P算法:先要有网络结构:讲清楚网络的连接权值是怎么标记的有门限值怎么标记外,(k)给定样本:(X p,dp),Xp=(Xpl,Xp2,Xpn)T,dp=(dpl,dp2,.,dpm)T 第t层 第i个神经元当输入为X p时的输出用心表示,对应的受到作用力总和:算法是怎样来的:(1)构造误差函数:共N个样本。_ 1 Af m=而2 (”-为 万Z/V P=/=1分析:若石=0,则显然。使E减小。怎样修改?(5E 无 舶 泥丽;丽:丽;1,3w;5E 3E dE 5E而j 派:四 加;1 加 北3E 3E aE d 加厂 加15 w厂 派:反产 畸命 尸 嚼
49、无=寸吗训j p=河叫 f)(一则)1塌仁 )c0,则要修改w和梯度下降法。0E 比 而;而 JHE 3E 5W:1 3W:n n2J n2nlE SE _ 3 E _ n 5 w 5w;nTlq_ riq 1 nql)q_idyD i da1:一 i.pypi)d 蓑 N F”_Yi最后一层的神经元示意图。啜T 3 RF a r/+l rhe 巧+i 吆行-就尸?眼 喏“吟 吟 )1 =M;匕+唠 X,+一。广说=-鲁=-(厂 为 揽-&)=(-(吗)=(%)/(吗)(1(琮)O(J N Cl(y-N NA%=为,P=l%和Aq的计算方法见课本p36o说明:8.没法举例子9.算法程序容易实现
50、,很多现成的程序,可以用VC或 VB实现。10.算法在神经网络规模较小时速度还行,规模大时速度太慢。11.有很多改进方法,但解决不了根本问题。12.说算法坏是正常的,总是要改进,算法的关键就是要求微分,13.这个微分求了 30年,实际上被人家求出来了,发现很简单。14.BP算法求解原理是什么?局部搜索算法,开始选择随机初始点,计算到局部最优解时若没达到要求,则重新选择开始点。7.改进算法自己去看吧,什么原理呢,就是调整步长,理局部最优解远时步长加长,离局部最优解近时步长缩短。8.有一次我真是认真分析了一下时间复杂度,可以说明是指数的。空间复杂度很小,所以算法很实用。3.3联想存储器学习算法英文