《BP神经网络RBF神经网络自组织竞争型神经网络(1).pptx》由会员分享,可在线阅读,更多相关《BP神经网络RBF神经网络自组织竞争型神经网络(1).pptx(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第五章 自组织竞争型神经网络5.1概述概述5.25.2竞争学习机制和自稳学习机制竞争学习机制和自稳学习机制5.35.3自适应共振理论神经网络(自适应共振理论神经网络(ARTART) BP网络虽已得到广泛应用,然而,它在构成网络时未能充分借鉴人脑工作的特点,因而其功能有许多不足之处: 对比之下,人脑的优越性就极其明显了。人的大脑是一个庞大、复杂的神经网络系统,它不仅可以记忆来自外界的各种信息,即具有可塑性,而且还可以将新、旧信息保存下来,即具有稳定性。人的脑神经系统既能牢固地记住学得的各种知识又能适应各种复杂多变的环境,能够通过“自学”来认识未学习过的新事物并解决不熟悉的新问题。因此,我们在研究
2、、设计和开发人工神经网络时,应该充分借鉴人脑的学习方法: (1)BP神经网络只适用于平稳的环境,这就是说,输入模式的各项统计特征不能随时间而变化(各种客体、客体间的关系以及相应的观察矢量具有统计平衡性)。但是,真实的世界不是或不完全是这样。 (2)BP网络的学习是在教师指导下的有监督学习,它不能自学;另一方面,网络的学习状态与工作状态是截然分开的,它不能边学习边工作。 (3)学习过程中神经网络的所有权值系数都要调整,而且为了防止振荡现象出现,学习的步幅必须取为较小的数值,这就使学习速度非常缓慢。 (4)在完成分类功能时如果被区分的客体类别数超出了神经网络可区分的最大极限,而学习方式仍按照原来方
3、式进行,那么根本不可能给出正确的学习结果。 (5)有可能陷入均方误差的局部最小点,从而造成错误的分类结果。 (6)误差准则是固定的,不能随着环境的变化而进行相应的调整或改变。(1)自主的(自治的);(2)自组织;(3)自学习;(4)联想(双向)。这正是自适应谐振理论(ART)的研究出发点。 竞争学习的原理可借助于图5.1给出的示意图加以描述。 第一步,我们暂且不考虑图中虚线表示的自稳机制部分。假设输入观察矢量是一个N维二进矢量X,X=x0 x1xN-1,它的各个分量只能取0或1,即xj=0或1,j=0(N-1)。系统的输出是一个M维二进矢量Y,Y=y0y1yM-1,它的各个分量也只能取值为0或
4、1。此系统分成三层,F2和F1分别称为上、下短期记忆层,并记之为STM(STM是“short time memory”的缩写,F2和F1之间是一个长期记忆层,记之为LTM(“long time memory”的缩写)。各层的运算功能分别介绍如下:F1层(层(STM) 此层的输入是观察矢量X,输出是N维矢量S,S=s0s1sN-1。在最简单的情况下,S的各个分量Sj可以用下列公式计算: j=0(N-1) (5-1) 易于证明,矢量S的模为1, 。这就是说,F1层的作用是使任何输入观察矢量规格化,即使之成为具有同样模值的矢量。111122200,jjjNNjjjjxxsXX( )1S k F1和和
5、F2之间的中层(之间的中层(LTM) 在此层由矢量S计算出一个M维矢量,T=t0t1tM-1。T的各分量按下式计算: (5-2) 由于其中的各权值系数wij的变化相对于F1、F2而言缓慢得多(下面将指出,每输入一次观察矢量,它们只作微小的变化),所以它们保留的是系统的长期记忆内容。10,0 (1)Niijjjtw s iM F2层(层(STM) 此层的作用是由矢量T计算输出矢量Y,其计算公式为 若 (5-3) 可以看出,在输出层F2进行的是一种竞争抉择运算:在t0tM-1之间,有一个最大的分量,其对应输出即定为1,而所有其它分量所对应的输出皆定为0。 1,max,0,IiiiIttyiI当则当
6、下面讨论此系统用于分类时的学习策略 在学习开始以前,首先需要对LTM层中的各个权值系数置以随机初值wij(0),然后依次送入观察矢量X(k),随时按照下列公式将各个权重系数调整成一组新的数值: j=0(N-1),i=0(M-1) (5-4) (1)( )( )( )( ),ijijjijiw kw ks kw ky k其中是步幅值,取一个小正数值。可以看到,由于在y0(k)yM-1(k)之中只有一项等于1而其它各项皆为0,因而只有与该非零项相应的权值系数才做调整,也就是说,只改变与竞争得胜者有关的各个权重系数,而其它所有权重值系数皆维持不变。对于竞争得胜者,与其有关的各权重系数对于竞争得胜者,
7、与其有关的各权重系数的调整策略是使各的调整策略是使各wij(此处设得胜者的编号为此处设得胜者的编号为i=I)与规格化输入矢量与规格化输入矢量S(k)的各分量的各分量Sj(k)趋于一致。趋于一致。如果设Wj= wI0 wI1 wIN-1,那么这种调整就是使WI趋向于S(k)。 由于 ,所以调整的结果也是使 趋向于1。 ( )1S kIW由于这种算法中只有竞争得胜者的有关系数才有机会进行学习,所以称之竞争学习算法。若通过学习,不同客体的观察矢量集合都找到了各自相应的得胜输出分量,因而根据得胜者的编 号 就 能 自 然 地 对 它 们 进 行 分 类(classification)。这种通过竞争学习
8、完成分类功能的过程也可以用其它术语称之为聚类(cluster)、分割(partition)、编码(coding)、正交化(orthogonalization)或自适应矢量量化(adaptive VQ),在思维心理学 中 常 称 之 为 分 类 感 知 ( c a t e g o r i c a l perception)。 可以看到,如果输入观察矢量所表示的客体类别数小于输出矢量Y的维数M,而且每个类别的观察矢量所占据的空间足够“紧凑”(这就是说,同一类别矢量所占空间内的观察矢量十分接近,而不同类别矢量所占空间的观察矢量相距较远),那么学习可以趋于稳定并收到很好的分类效果。但是,也可以举出一些
9、反例,如果在相隔较远的两个时间点上两次输入同一观察矢量,而在其间插入若干其它观察矢量,那么第二次分类的结果会出现与第一次分类结果不一致的现象。这说明第一次分类后新学习得到的记忆内容有可能冲掉原有的学习记忆内容,从而导致了第二次分类的错误。这也说明简单的竞争学习机制不能保证记忆具有足够的牢固性。 为了解决这个矛盾,可以在竞争学习算法中再加上一个由顶向下的自稳机制,如图5-1中的虚线所示。其工作原理介绍如下:(1)竞争选择的原理不改变,即每输入一观察矢量X(k),输出矢量的各个分量是Y0(k),Y1(k),YM-1(k),其中只有一项为1,其它各项均为零。设竞争胜利者(即非零项)为YI(k)。(2
10、)对学习算法进行下述修正。首先,由输出矢量Y(k)产生一个由顶向下矢量Z(k),Z(k)=z0(k)z1(k)zN-1(k),其中各分量zi(k)按下列公式计算: j=0(N-1) (5-5) 其中 是由顶向下的权重系数,由于诸yi(k)中只有yI(k)为1,其它均为0,所以式(5-5)可以表示为 j=0(N-1) (5-6)10( )( )( ),Mjjiiiz kwk y kjiw( )( ),jjiz kwk此式中的各个由顶向下的权重系数 是在时序k以前的各次学习中“记忆”下来的。后面将指出,记忆的算法是使得当某个yI为获胜输出端时,各个 与当时的规格化输入矢量S的各分量Sj趋于一致。设
11、由顶向下的第I号权重矢量为 , ,由式(5-6)可知, Z(k)= 。jiwjiw( )IW k011,( )( )( )( )IIINIW kwk wkwk( )IW k为了判断本次(即第k次)输入的规格化矢量S(k)与以前I输出端获胜时的规格化矢量S是否相似,我们只要比较S(k)与Z(k)之间的相似度。两个空间矢量的相似度可以用它们之间的夹角大小来衡量,而此夹角又与S(k)和Z(k)的规格化点积有单调依存关系。的计算公式是 (5-7) ( )( )| ()|( )|S kZ kS KZ k越接近于1则两个矢量的相似度越高。需要说明,当两个矢量的模对于衡量它们的相似度无关紧要时,利用是适宜的
12、。如果模本身对于衡量相似度也是重要的,则应采用两个矢量的欧氏距离|S(k)-Z(k)|来衡量其相似度。但是,当这两个矢量的模都已规格化为1时,用欧氏距离或规格化点积来衡量相似度是等价的。 根据S(k)和Z(k)的相似度衡量值的不同,神经网络可以采取不同的运行策略,下面分步骤给出这些策略。 (a)如果两个矢量的相似度很高,即值很接近于1,那么神经网络立即转入后面第(3)项规定的运算。 (b)如果两个矢量相似度不够高,从而使低于某个阈值,这时就立即摒弃第一次选择的优胜输出yI,再由所余的各个yi中选出一个优胜者。这就要回到前面第(1)项重新开始竞争选择。需要强调,在新一轮的竞争中前优胜者I已被排除
13、在外。假设在过去的学习中F2 层的M个输出端中只有K个被占用且KM,那么搜索优胜者的竞争显然只能在这K个被占用输出端之间进行。一旦在这K个输出端中找到一个胜利者,它的由顶向下矢量Z(k)与S(k)足够相似,则立即转入(3)。否则,就一个一个找下去。如果K个端都搜遍了,仍找不到足够相似者,则新开辟一个输出端作为新的一类。类别数从K增至(K+1),然后转入第(3)项。 (c)如果开辟一个新端后仍保持(K+1)M,则允许在下一次学习时继续开辟新类别。如果(K+1)=M,这表明所有网络的容量都已占满,这时不再允许开辟新类别,以免破坏网络中已存储的记忆内容。(3)如果在已被占用的输出端中找到一个优胜者,
14、它的由顶向下矢量Z(k)与S(k)的相似度足够高,或者开辟了一个未被占用的新输出端,则对于该端相应的由底向上和由顶向下权重系数进行调整。设此端的编号为L,那么被调整的系数是 和 。下面给出系数调整的计算公式: ( )Liwk( ),0 (1)jLwkjN (5-8) 其中是步幅,其值取为一个小正实数。 (1)( )( )( ) ,0 (1)(1)( )( )( ) ,0 (1)LjLjjLjjLjLjjLwkwks kwkjNwkwks kwkjN 可以看到,按照上面给出的算法,只有当新的输入矢量与已存入记忆中的某个矢量足够相似时,两者才能互相融合,即对有关的权重系数进行调整,从而使长期记忆得
15、以改变。这造成一种自适应谐振(adaptive resonance)状态,这就是ART这个名称的来源。需要指出,上面给出的(1)和(2)两项运算,其运算速度相对而言是快的,在运算时只有F1和F2这两个STM层的输出发生变化,而LTM层中的系数不产生改变。当进入自适应谐振状态时(即进入第(3)项运算时)LTM层中的有关系数才发生变化。这类似于人的记忆过程,当输入一个观察矢量时,大脑必须在已有的记忆内容中搜索与之相似的矢量,如果得到了印证,那么对其记忆就会加强。另一方面,如果输入的是一个完全新奇的矢量,这也会造成深刻的印象并被植入长期记忆库之中。 概括而言,按照ART(也就是以竞争学习和自稳机制为
16、原则所建立的理论)构成的ANN有如下特点: (1)它能对任何输入观察矢量(包括非平衡输入)进行“实时学习”,这就是说,学习和工作是分不开的。这种学习保证能够达到稳定、可靠的结果,直至记忆容量全部用完为止。任何情况下都不会造成新记忆破坏老记忆的灾难性后果。 (2)学习是自治和自组织的,学习过程无需教师指导,因此是一种无监督(unsupervised)学习。(3)学习过程受由顶向下传送的模式矢量指导,因而可以形成“集中注意”的状态,也就是说可以有选择地学习,把注意力集中于某些特定的内容(包括过去学过的或新奇的)。由于加权系数的修正只涉及少量系数,因而较之前向神经网络有更高的学习效率(后者需调整所有
17、系数)。(4)此系统可以完全避免陷入局部最小点的问题 上面只给出了用ART构成ANN的粗略轮廓,为了具体实现一个可实际运行的神经网络,尚有许多问题需要解决。S.Grrossberg和A.Carpenter提出的自适应共振理论(Adaptive Resonance TheoryART),使寻找一个能完全模拟人脑记忆可塑性与稳定性的人工神经网络的努力获得了成功。这一理论的特点是:用生物神经细胞自兴奋与侧抑制的动力学原理指导学习,让输入模式通过网络双向连接权的识别与比较,最后达到共振来完成自身的记忆,并以同样的方式实现网络的回想。当提供给网络的输入模式是一个网络已记忆的或与已记忆的模式十分相似时,网
18、络会把这个模式回想出来,并提供正确的分类。如果输入模式是一个网络不曾记忆的新模式,则网络将在不影响原有记忆的前提下,将这个模式记忆下来,并分配一个尚未使用过的输出层神经元作为这一记忆模式的分类标志。下面对ART网络的结构、工作原理、学习方法及网络的性能进行分析。ART网络的结构及工作原理网络的结构及工作原理 ART网络主要有ART1和ART2两种模型。其主要区别是前者为二值输入,后者为模拟输入。下面主要介绍ART1网络。ART1网络的结构如图5.2所示。输入层和输出层神经元数分别为n和m,二值输入模式和输出矢量分别为 , , (k=1,2,p)其中p为输入模式的个数。前馈连接权和反馈连接权分别
19、为wij和 (i=1,2,n;j=1,2,m)。 12,kkk TknUu uu12,kkkTkmVv vvjiwART1网络的学习及工作,是通过反复地将输入学习模式由输入层向输出层自下而上地识别比较来实现的。当这种识别的比较达到共振时,则输出矢量可以正确地反映输入学习模式的分类,且网络原有的记忆不受影响。至此,对一个输入学习模式的分类和记忆即告完成。下面对ART1网络的工作过程做详细介绍。(1)初始化阶段。ART1网络需要初始化的参数有三个,即wij, 和,其中为网络的警戒参数,其作用及取值后面再介绍。wij和 的初始化不是取随机值,而是设置为一种固定模式。反馈连接权 通过比较最终将记忆已学
20、的输入模式,故其值取0和1二值形式。为了使初始比较不丢失信息,故将 的初值全部设置为1,即 =1 (i=1,2,n;j=1.2,m) (5-9) jiwjiwjiwjiwjiw前馈连接权wij是网络学习结束后,承担着对学习模式的记忆任务。在对wij初始化时应给所有学习模式提供一个平等竞争的机会,然后通过对输入模式的竞争按一定规则调整wij。wij的初值按下式设置: (i=1,2,n;j=1.2,m) (5-10) 1,1ijwn(2)识别阶段。网络的识别阶段类似于前面介绍的竞争型神经网络的学习过程。实际上如果去掉反馈连接权 ,ART1网络就与竞争型网络完全相同。ART1网络的学习识别过程就发生
21、在输入学习模式 由输入层向输出层的传递过程中。这里假设输出层不存在神经元之间的相互抑制,在这一阶段,首先将输入学习模式 提供给输入层,然后用竞争学习算法寻找输出层获胜神经元。故识别阶段实际上是输出层各 神经元竞争对输入模式的响应过程。实现算法如下: jiw12,kkk TknUu uu (5-11) (5-12) 当然,这种竞争也可通过抑制的方法来实现。至此,网络的识别过程只是暂告一段落,并未最后结束。此时获胜神经元j=g能否代表输入模式Uk的正确分类,还有待于下阶段进一步确定。 1,(1,2,)nkjjiiiSw ujm1,(1,2,)0,()kjjikjvSSim ijvij(3)比较阶段
22、。是ART1网络学习工作过程中重要的最具特色的一个阶段,如前所述,ART1网络的最大特点在于它既能模拟人脑的可塑性,又能模拟人脑的稳定性,而比较阶段与寻找阶段是ART1网络实现这一功能的两个主要阶段。如果ART1网络的学习工作只到识别阶段为止,那么它与前面介绍的基本竞争型网络完全一样。在这种情况下,如果网络输出层m个神经元已分别代表了m个输入学习模式的分类,若现在又让网络再记忆一个未学过的新模式,按竞争规则,它总能在输出层找到一个神经元j代表自己的分类。 然而这样做原来这个神经元j所代表的学习模式的分类则被破坏。解决这一问题的方法是,每当给已学习结束的网络提供一个供识别的输入模式时,首先检查一
23、下这个模式是否已学习过,如果是,则让网络回想出这个模式的分类结果;如果不是,则对这个模式加以记忆,并分配一个还未用过的输出层神经元来代表这个模式的分类结果。比较阶段主要就是完成这一检查任务。比较阶段的具体过程如下:把学习过的输入模式存储在反馈连接权 (j=1,2,m)中,即让矢量 与输出层第j个神经元所代表的某一输入学习模式 完全相等。当网络需要对某个输入模式进行回想时,这个输入模式经过识别阶段,竞争到神经元g作为自己的分类结果。 12,TjjjjmWWWW,jW12,kkk TknUu uu此时要检查反馈回来的矢量 是否与这个输入模式相等。如果相等,则说明这是一个已记忆过的学习模式,神经元g
24、代表了这个模式的分类结果,即识别与比较产生了共振,网络不需要再经过寻找阶段,直接进入下一个模式的识别阶段;如果不相等,则放弃神经元g的分类结果,进入寻找阶段,图5.3是比较检查示意图。 gW对于模式分类而言,同一类的模式不一定要求完全相等。因此,当用矢量 与输入模式Uk进行比较时,允许两者之间有一定的差距,允许差距的大小由警戒参数确定。在ART1网络中定义 (5-13) 作为差距的测度。 11ngiiigniiwucu式中 表示矢量 与输入模式 逻辑“与”。由于 和Uk都是二值矢量,所以这个和式实际上就是 和Uk中同时为1的元素的个数, 表示uk中元素为1的个数。故式(5-13)的cg表示了
25、与Uk拟合度。当 = Uk时,cg=1说明两个矢量完全相等;当cg时,说明拟合度大于要求,没有超过警戒线,以上两种情况均可以承认其识别结果。 1ngiiiwu12,TggggnWwww12,kkk TknUu uugWgW1niiugWgW同时,当cg1且cg时,按下式对前馈连接权矢量Wg=wg1,wg2,wgnT 和反馈连接权矢量 向着与Uk更接近的方向调整 (i=1,2,n) (5-14) (i=1,2,n) (5-15) 12,TggggnWwww1( )(1)0.5( )giiigngiiiwt uwtwt u(1)( )gigiiwtwtu显然,式(5-14)的调整意图是要使 趋于U
26、k。对于式(5-15)后面还要做详细分析。当cg时,说明拟合度未达到要求,超过了警戒线,则拒绝识别结果,将神经元g重新置0,并将这个神经元排除在下次识别范围之外,网络转入寻找阶段。gW(4)寻找阶段。在这一阶段,网络将在余下的输出层神经元中搜索输入模式Uk的恰当分类。只要在输出矢量 中含有与这一输入模式Uk相对应的分类单元,则网络总可以得到与记忆模式相符的结果。如果在已记忆的分类结果中找不到与该输入模式对应的分类,但在输出层中还有未使用过的单元,则可以给这个输入模式分配一个新的分类单元,在以上两种情况下,网络的寻找过程总能成功,即共振终将发生。12,kkk TknVv vv 2.ART1ART
27、2网络的学习工作规则网络的学习工作规则 可总结归纳如下: (1)初始化 (5-16) (i=1,2,n;j=1,2,m) (5-17) (2)将输入模式 提供给网络的输入层。 (0)1jiW1(0)1ijWn12,kkk TknUu uu(3)计算输出层各神经元的输入加权和 (j=1,2,m) (5-18) (4)选择Uk 的最佳分类结果 (5-19) (5)计算以下三式,并进行判断 (5-20) (5-21) (5-22) 1nkjijiiSw u1maxmgjjSS1|nkkiiUu1|nkgkgiiiWUWu|gkkWUU当上式成立时,转入步骤(7),否则转步骤(6)。 (6)取消识别结
28、果,将输出层神经元g的输出置0,并将这个神经元排除在下次识别范围之外,返回步骤(4),当所有已记忆过的神经元都不满足式(5-22)时,则选择一个新的神经元作为分类结果,进入步骤(7)。 (7)承认识别结果,并按下式调整连接权: (i=1,2,n) (5-23) (i=1,2,n) (5-24) (8)将步骤(6)置0的所有神经元重新列入识别范围之内,返回步骤(2),对下一输入模式进行识别。 1( )(1)0.5kgiiignkgiiiwt uwtw u(1)( )kgigiiwtwtu下面对上述算法规则做几点分析和说明:下面对上述算法规则做几点分析和说明: (1)网络的学习和回想都使用此规则。
29、只不过网络在运行时,只对那些与未使用过的输出神经元有关的连接权wij和 才按式(5-16)和式(5-17)初始化。其他连接权仍保持网络学习的值不变。当输入模式是一个网络已记忆的学习模式时,不需要按步骤(7)进行连接权的调整。但是,当输入模式是全新的学习模式,并需要网络对其加以记忆时,则必须按步骤(7)进行连接权的调整。jiw(2)前馈连接权wij调整的规一化处理。在式(5-23)中,如果忽略分母中的常数项,则相当于对 进行了规一化处理。规一化处理在许多迭代算法中都使用,其目的是平滑地计算出调整量,以避免在某些特殊情况下搜索不到正确的结果。例如,当输入模式不完全正交时,就可能出现这种情况。( )
30、kgiiwt u (3)快速与慢速学习方式。ART1网络有快速和慢速两种学习方式。前面介绍的是快速学习方式。其优点是学习速度快,适合于实时应用。缺点是容易引起噪声,抗干扰能力差。慢速学习方式和快速学习方式不同之处在于连接权的调整不是一次性完成的,而是随着输入模式的方向变化,即以统计平均的方法,将输入模式的统计特征分布存储在连接权上。这种方式的优点是能有效地抑制噪声干扰,提高分类的准确性。 (4)警戒参数的设定。的大小由网络分类的精度确定,它为一确定值,但在学习过程中是可以变化的。例如,在学习过程的初始阶段,取较小值,作粗略分类,然后逐渐增大,最后达到要求值以形成精细分类。 ART1网络具有如下
31、的优点:网络具有如下的优点: (1)可以完成实时学习,并适应非平稳环境。 (2)对已学习过的对象具有稳定快速的识别能力。同时又能迅速地适应未学习的新对象。 (3)具有自归一能力。根据某些特征在全体中所占的比例,有时把它们作为关键特征,有时又作为噪声处理。 (4)不需要事先知道样本结果,可实现无教师示教学习。 (5)容量不受输入通导数的限制,存储对象也不要求是正交的。 ART1网络的缺点是分类的脆弱性,即ART1网络是仅以输出层某个神经元代表分类结果,而不是像Hopfield网络那样把分类结果分散在网络各神经元上。所以,一旦输出层某个神经元失效(硬件损坏或软件出错),则导致该神经元所代表的类别信息消失。人们把这个神经元形象地称为“祖母细胞”(Grandmother Cell),意思是指,一旦记忆祖母相貌的细胞损坏,一个人一夜之间将不认识自己的祖母了。此讲结束,欢迎听讲! 下节课再见! 见再课节下!