《人工神经网络研究现状(20页).doc》由会员分享,可在线阅读,更多相关《人工神经网络研究现状(20页).doc(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-人工神经网络研究现状-第 20 页人工神经网络发展现状引言 人工神经网络(Artificial Neural Network,简称ANN)可以概括的定义为:由大量简单的高度互连的处理元素(神经元)所组成的复杂网络计算系统。它是在现代神经科学研究成果基础上提出的,反映了人脑功能的若干基本特征,是模拟人工智能的一条重要途径。最普通形式的神经网络就是对人脑完成特定任务或感兴趣功能的方法进行建模的机器。人工神经网络既可以用硬件实现,也可以用软件实现;既可以看做一种计算模式,也可以看做一种认知模式。因此,从某种意义上说,人工神经网络、并行分布处理(Parallel Distributed Proces
2、sing,简称PDP)、神经计算机是同一概念。神经网络在两个方面与人脑相似:神经网络获取的知识是从外界环境中学习得来的;互连神经元的连接强度,即突触权值,用于存储获取的知识。1神经网络基础知识神经元是神经网络的基本处理单元,它是人工神经网络的设计基础。人工神经网络是模拟或学习生物神经网络(Biological Neural Network,BNN)信息处理功能的信息处理模型。因此,要了解人工神经元模型首先必须了解生物神经元模型。生物神经元是大脑的基本单元。虽然存在多种生物神经元,但其基本结构是相似的,即一个生物神经元由一个细胞体、大量的树突和轴突构成。细胞体相当于一个初等处理器,由细胞核、细胞
3、质和细胞膜等组成。树突也称枝晶,为细胞体向外伸出的许多树状分枝,它相当于细胞的输入端,接受来自四面八方的传入神经冲动、兴奋或抑制信号。轴突即神经纤维,是由细胞体向外伸出的最长的一条分枝。轴突相当于细胞的输出电缆,其端部有许多神经末梢作为信号输出端子,用于传出神经冲动、兴奋或抑制信号。神经元之间通过轴突(输出)与树突(输入)相互连接,其接合部称为突触,即神经冲动通过突触从一个神经元传递到另一个神经元。它决定了神经元之间的联接强度和性质(兴奋或抑制)。图1-1为一个典型的生物神经元结构。图1-1神经元是大脑结构的基本单位,它的一个主要功能是放大和处理信号。神经元通过轴突的长纤维将电化学脉冲从一个神
4、经元送到另一个神经元。这些脉冲沿轴突传播,直到达到与另一个神经元联接的神经突触为止。在这一点处,由轴突终端释放的化学传递物质越过突触的间隙激励或抑制目标神经元。若来自几个突触输入的激励超过一个确定的值,目标神经元将产生它自己的一个输出脉冲。按照生物控制论的观点,作为控制和信息处理基本单元的神经元具有如下一些重要的功能和特性: 时空整合功能。它对于不同时间通过同一突触传入的神经冲动具有时间整合功能;对于同一时间通过不同图触传入的神经冲动具有空间整合功能。两种功能相互结合,具有时空整合功能。 两种工作状态。当传入冲动的时空整合结果使细胞膜电位升高至超过动作电位阈值时,细胞进入兴奋状态,产生兴奋冲动
5、,由轴突输出;若下降至低于动作电位阈值时,细胞进入抑制状态,无神经冲动输出。 脉冲电位转换功能。突触界面具有将离散的传入神经信号通过神经介质以量子化学方式转换为连续的细胞膜电位的功能。 突触对神经冲动的传递有延时和不应期现象。 突触的传递作用有增强、减弱和饱和三种可能,所以细胞相应的具有学习功能、遗忘和疲劳(饱和)效应。根据生物神经元的结构和功能,从20世纪40年代开始,人们提出了大量的人工神经元模型,其中影响较大的是1943年美国心理学家McCulloch和数学家Pitts共同提出的形式神经元模型,通常称之为MP模型。图1-2为一个典型的MP模型结构。图1-2它的基本构成如下所示:输入,联接
6、权,是由输入信号线性组合后的输出,是神经元的净输入,为神经元的阈值或称为偏差用表示,为激励函数,是神经元的输出。 人工神经网络是人脑的某种抽象、简化或模拟。它由大量神经元广泛互联而成。网络的信息处理由神经元之间的相互作用来实现并以大规模并行分布方式进行,信息的存储体现在网络中神经元互联分布形式上,网络的学习和识别取决于神经元间联接权系数的动态演化过程。神经网络的互联结构的基本特点可归纳为:(1)神经网络由大量的神经元互相联接而成。(2)大量神经元按不同方式联接,构成不同类型的神经元网络。(3)各神经元间联接强度由神经网络内部权值决定。当一个神经网络的结构确定后,将根据学习规则调整神经元间联接强
7、度,从而获得有关问题领域的知识,即学习自适应和自组织。(4)各神经元的操作可以是同步的,也可以是非同步的。按神经网络的性能可分为连续型神经网络和离散型神经网络,又可分为确定型神经网络和随机型神经网络;按神经网络的结构可分为反馈型神经网络和前馈型神经网络;按学习方式可分为有导师学习网络和自组织学习网络。学习是智能的基本特征之一,对于神经网络具有首要意义的性质是网络能从环境中学习的能力,并通过学习改变权值达到预想的目的。神经网络通过施加于它的权值和阈值调节的交互过程来学习它的环境。人工神经网络有近似于人类学习的能力,是其一个关键的方面。在构造一个网络时,一个神经元的活化函数和转换函数就确定了。若想
8、改变输出大小但在学习过程中又不能改变,则只有改变加权求和的输入。神经元只能对环境做出反响而不能产生环境,故它不能控制输入模式。因此,改变加权输入的唯一方法只能是修改作为加在个别输入上的权系数。所以网络的学习形式表现在改变权值上。神经网络的工作过程主要由两个阶段组成,一个阶段是学习期,此时各计算单元学习状态不变,执行学习规则,即执行修正权系数(通过学习样本或其他方法)的算法,获取合适的映射关系或其他的系统性能。另一个阶段是工作期,此时各联接权值固定,计算单元的状态变化,最终达到一个稳定状态。前一阶段学习期工作过程较慢,权值及联接方式亦称为长期记忆(LTM);后一阶段工作较快,由输入模式可迅速得到
9、精确的或近似的输出模式,各单元的状态亦称为短期记忆(STM)。在人工神经网络中,学习规则就是修正权值的一种算法。对学习算法的分类也有多种,如以来自环境刺激的多少可分为联想式或非联想式,以学习时有无教师示教可分为监督或非监督(有指导或无指导),以网络联接方式可分为阶层或相互联接等。下面是最有普遍意义的几个学习规则:(1) 误差修正型学习规则。这是一种监督学习过程,其基本思想是利用神经元期望输出与实际输出之间的偏差作为联接权调整的参考,最终减小这种偏差。(2) 赫布(Hebb)型学习规则(相关规则)。其基本思想是仅根据联接的神经元的活化水平改变权,即两种神经元间联接权的变化与两神经元的活化值(激活
10、值)相关。若两神经元同时兴奋,则联接加强。(3) 随机型学习规则。此规则为结合随机过程、概率和能量等概念来调整网络的变量,从而使网络的能量函数最小(或最大)。在学习过程中,网络变量的随机变化不是完全随机的,而是据能量函数的改变有指导的进行。网络的变量可以是联接权,也可以是神经元的状态。能量函数可定义为问题的目标函数或者网络输出的均方差函数。(4) 竞争型学习规则。指网络的某神经元群体中所有神经元相互竞争对外界刺激模式响应的能力,竞争取胜的神经元的联接权变化向着对这一刺激模式竞争更为有力的方向进行。2前馈神经网络模型2.1自适应线性神经网络(Adaline)自适应线性神经网络(Adaptive
11、Linear,简称Adaline) 是由威德罗(Widrow)和霍夫(Hoff)首先提出的。它与感知器的主要不同之处在于其神经元有一个线性激活函数,这允许输出可以是任意值,而不仅仅只是像感知器中那样只能取0或1。它采用的是WH学习法则,也称最小均方差(LMS)规则对权值进行训练。自适应线性元件的主要用途是线性逼近一个函数式而进行模式联想。 图2-1为其网络结构:图2-1第一步 设置变量和参量: 为输入向量,或称训练样本。为权值向量。为偏差,为实际输出,为期望输出,为学习速率,为迭代次数。第二步 初始化,赋给各一个较小的随机非零值,。第三步 对于一组输入样本和对应的期望输出,计算:第四步 判断是
12、否满足条件,若满足算法条件,则结束。若不满足,将值加1,转第三步重新执行。优点:(1)Adaline网络可以学习输入输出矢量之间的线性关系,并产生一个具有误差平方和最小的线性逼近;(2)对于一些实际问题,常常并不需要求出其完美的零误差时的解。也就是说允许存在一定的误差。这时,采用Adaline网络求解,可以很快地训练出满足一定要求的网络权值。缺点:(1)输入和输出之间的非线性关系不能用Adaline网络精确地设计出。(2)对于特别简单的问题,采用自适应线性网络的训练不一定能够得到足够精确的解。因为当训练误差达到期望误差值后,训练即被终止。 单层感知器(Perceptron)是由美国计算机科学家
13、罗森布拉特()于1957年提出的。它是一个具有单层神经元的网络,由线性阈值逻辑单元所组成。它的输入可以是非离散量,而且可以通过学习而得到,这使单层感知器在神经网络研究中有着重要的意义和地位:它提出了自组织、自学习的思想,对能够解决的问题,有一个收敛的算法,并从数学上给出了严格的证明。当给定一个输入向量,在阈值和权值的作用下,单层感知器的输出为: (2-1)如果输入向量有个样本,即,把样本看作是维空间的一个向量,那么个样本就是输入空间的个向量。由于单层感知器神经元的输出只有两种可能,即1或-1。这样方程(2-1)就把这维输入空间分为两个子空间,其分界线为维的超平面。通过调节权值和阈值可以改变这个
14、维超平面的位置以达到对样本的正确划分。图2-2为其网络结构:图2-2单层感知器的具体学习步骤如下:(1) 给定初始值:各赋给和一个较小的随机非零值,这里为时刻第个输入上的权。(2) 输入一样本和它的希望输出,如果类,;如果类,。(3)计算实际输出:(4) 修正权:式中为比例系数,用于控制权值的修正速度,也称为学习速度。通常要适中,不能太大也不能太小,太大会影响的稳定,太小会使的收敛速度太慢。当实际输出与已知的输出值相同时,不变。(5) 转到步骤(2)直到对个样本均稳定不变为止。优点:单层感知器适用于线性分类,在多维样本空间中起到一个将两类模式样本分开的超平面作用。缺点:(1)由于单层感知器的激
15、活函数采用的是阀值函数,输出矢量只能取0或1,所以只能用它来解决简单的分类问题; (2)单层感知器仅能够线性地将输入矢量进行分类,并且不能对非线性可分的输入模式进行分类。如:异或问题; (3)当输入矢量中有一个数比其他数都大或小得很多时,可能导致较慢的收敛速度。 单层感知器由于只有一个神经元,功能单一,只能完成线性决策或实现“与”、“或”、“非”等单一逻辑函数。多层感知器(Multilayer Perceptron)是在单层感知器的基础上发展起来的,它是一种在输入层与输出层之间含有一层或多层隐含结点的具有正向传播机制的神经网络模型。多层感知器克服了单层感知器的许多局限,它的性能主要来源于它的每
16、层结点的非线性特性(节点输出函数的非线性特性)。如果每个结点是线性的,那么多层感知器的功能就和单层感知器一样。在人工神经网络中,应用最普遍的是多层前馈网络模型。在1986年,Rumelhant和McClelland提出了多层前馈网络的误差反向传播(Error Back Propagation)学习算法,简称BP算法,这是一种多层网络的逆推学习算法。由此采用BP算法的多层前馈网络也广泛被称为BP网络。2.3.1网络结构:图2-3为其网络结构,它由输入层、输出层和中间层(隐层)组成。 X1X2XnOmO2O1输出层隐藏层输入层图2-32.3.2 BP算法BP算法由信号的正向传播和误差的反向传播两个
17、过程组成。(1) 正向传播,输入样本从输入层进入网络,经隐层逐层传递至输入层,如果输入层的实际输出与期望输出(导师信号)不同,则转至误差反向传播;如果输出层的实际输出与期望输出(导师信号)相同,结束学习算法。(2) 反向传播,将输出误差(期望输出与实际输出之差)按原通路反传计算,通过隐层反向,直至输入层,在反传过程中将误差分摊给各层的各个神经元,获得各层各神经元的误差信号,并将其作为修正各单元权值的根据。这一计算过程使用梯度下降法完成,在不停地调整各层神经元的权值和阈值后,使误差信号减小到最低限度。对于输入输出对,网络的实际输出为,为前一层第个神经元输入到后一层第个神经元的权重,当神经元为输入
18、层单元时,。 激发函数为半线性函数。BP算法的学习规则为:推理过程:(注意:表示上一层到下一层的输入,不同函数的不同) 带势态项的BP算法学习规则:其中a为常数,它决定过去权重的变化对目前权值变化的影响程度。为上一次权值的变化量。以激活函数全部取为例,则BP算法步骤详细描述如下:(1) 置各权值或阈值的初始值:, 为小的随机数。(2) 提供训练样本:输入矢量, ,期望输出, 对每个输入样本进行下面(3)到(5)的迭代。(3) 计算网络的实际输出及隐层单元的状态:(4) 计算训练误差:(5) 修正权值和阈值:(6) 当每经历1至后, 计算为网络实际输出。如果,则到(7),否则到(3)。(7) 结
19、束。2.3.3 优缺点优点:(1)具有强泛化性能:使网络平滑地学习函数,使网络能够合理地响应被训练以外的输入;(2)应用广泛,如:函数逼近、模式识别和分类、数据压缩等。缺点:(1)需要较长的训练时间;(2)BP算法可以使网络权值收敛到一个解,但它并不能保证所求为误差超平面的全局最小解,很可能是一个局部极小解;(3)泛化性能只对被训练的输入输出对最大值范围内的数据有效,即网络具有内插值特性,不具有外插值性。超出最大训练值的输入必将产生大的输出误差。3 反馈神经网络模型反馈神经网络模型可用一完备的无向图表示。从系统的观点看,反馈神经网络模型是一反馈动力学系统,它具有极复杂的动力学特性。在反馈神经网
20、络模型中,我们关心的是其稳定性,稳定性是神经网络相联存储性质的体现,可以说稳定就意味着完成回忆。从计算的角度讲,反馈神经网络模型具有比前馈神经网络模型更强的计算能力,它包括Hopfield神经网络、海明神经网络和双向联想存储器。3.1 Hopfield神经网络1982年,美国神经网络学者霍普菲尔德(J.J.Hopfield)提出了反馈型的全连接神经网络,是一种对记忆功能的较好模拟。Hopfield神经网络的结构特点是:每一个神经元的输出信号通过其它神经元后,反馈到自己的输入端。这种反馈方式有利于通过联想记忆实现最优化,经过分析比较与判断确定最优解决问题的方法。网络状态的演变是一种非线性动力学系
21、统的行为描述过程,作为一种非线性动力学系统,系统从初始化出发后,系统状态经过演变可能发生如下结果:(1)渐进稳定形成稳定点,又称为吸引子。(2) 极限环状态。(3) 混沌状态。(4) 发散状态。发散状态是不希望看到的。对于人工神经网络而言,由于选取网络的变换函数为一个有界函数,因此系统状态不会演变成发散。在Hopfield网络中,如果其传输函数是一个二值型的硬函数,则称此网络为离散型Hopfield网络;如果传输函数是一个连续单调上升的有界函数,则称此网络为连续型Hopfield网络。离散Hopfield网络是单层全互连的, 共有个神经元。每个神经元都通过连接权接收所有其他神经元输出反馈来的信
22、息,其目的是为了让任一神经元的输出能接受所有神经元输出的控制,从而使各神经元能相互制约。为神经元的阈值;为神经元与的连接权值。图3-1为其网络结构:图3-13.1.1.2连续Hopfield神经网络结构 模仿生物神经元及其网络的主要特性,连续型Hopfield网络利用模拟电路构造了反馈人工神经网络的电路模型,图3-1为其网络结构:图3-23.1.2 学习算法Hopfield网络按动力学方式运行,其工作过程为状态的演化过程,即从初始状态按“能量”减小的方向进行演化,直到达到稳定状态,稳定状态即为网络的输出状态。3.1.2.1 Hopfield网络工作方式Hopfield网络的工作方式主要有两种形
23、式:(1)串行(异步)工作方式:在任一时刻,只有某一神经元(随机或确定的选择)变化,而其他神经元的状态不变。(2)并行(同步)工作方式:在任一时刻,部分神经元或全部神经元的状态同时改变。3.1.2.2 Hopfield网络运行步骤下面以串行方式为例说明Hopfield网络的运行步骤:第一步 对网络进行初始化;第二步 从网络中随机选取一个神经元;第三步 求出神经元的输入: 第四步 求出神经元的输出,此时网络中的其他神经元的输出保持不变;说明:,为激励函数,可取阶跃函数或符号函数。如取符号函数,则Hopfield网络的神经元输出取离散值1或1,即:第五步 判断网络是否达到稳定状态,若达到稳定状态或
24、满足给定条件,则结束;否则转至第二步继续运行。这里网络的稳定状态定义为:若网络从某一时刻以后,状态不再发生变化。即:。Hopfield网络主要用于从片段中进行图像和数据的完全恢复。缺点是处理单元间连接权值需预先设置,并且单元之间的连接是要对称的,它没有学习能力。3.2海明神经网络(Hamming)海明(Hamming)网络由匹配子网和竞争子网组成。匹配子网在学习阶段将若干类别的样本记忆存储在网络的连接权值中;在工作阶段(回忆阶段),该子网计算输入模式和各个样本模式的匹配程度,并将结果送入竞争子网中,由竞争子网选择出匹配子网中最大的输出。从而,实现了对离散输入模式进行在海明距离最小意义下的识别和
25、分类。图3-3为其网络结构:图3-33.2.2.1 Hamming距离如果将模式用向量来表示,Hamming距离是指两个模式不同元素的个数。如:A(0 0 1 1 0) ,B=(1 0 1 0 1)则:H(A, B)=3。3.2.2.2 Hamming网络的学习之权值设置竞争子网的连接权值设置方法:匹配子网的连接权值设置方法:3.2.2.3 Hamming网络的学习之阈值设置:竞争子网神经元的阈值设置为0;匹配子网神经元阈值的设置为:;为匹配子网中神经元的个数。3.2.2.4 Hamming网络学习算法描述网络的学习过程采用竞争学习算法,而竞争学习包含以下主要过程:网络对刺激做出响应,具有最大
26、响应的神经元被激活,该神经元成为获胜神经元并获得学习的机会,更改获胜神经元的权值。其中,只有最大响应的神经元被激活的这一特征被称为“胜者为王”机制。其具体学习算法描述如下:第一步 设置变量和参量:为输入向量,其元素均为二进制元素。,为前向子网络的权值向量;为竞争子网络的权值。为实际输出。为学习速率,代表Hamming网络的第次训练,为竞争子网络迭代过程中的迭代步数,而为预设的总的训练次数。第二步 初始化:对于前向子网络权值,用小的随机值进行初始化并满足约束条件对于(),而神经元的输出函数选取线性函数并且给定总的迭代次数。第三步 选取训练样本。第四步 计算竞争子网络神经元的初始输入即前向子网络的
27、输出:第五步 计算竞争子网络的迭代过程:第六步 观察竞争子网络的输出,当输出达到要求时(只有一个输出为正,其余为零)转第七步,否则等于,转到第五步继续迭代。第七步 将输出最大的神经元定为获胜神经元,并将其输出置为1,其他神经元的输出置为0,实现“胜者为王”。第八步 更新获胜神经元的权值向量: 其中,为在输入向量中元素为1的个数。第九步 判断网络的当前训练次数是否大于,如果小于,则等于,回到第三步进行新的一次训练,否则结束网络训练过程。Hamming网络与Hopfield网络不同,它分别计算未知输入模式与每个已知标准样本模式的Hamming距离,对应距离最小的那个标准样本模式即是可以和输入模式匹
28、配的模式。而对Hopfield网络而言,作为一识别器,要么精确地找到一个可以匹配的标准样本模式,要么找不到,即得到“不能匹配”的结果。3.3双向联想存储器(BAM)双向联想存储器(BAM)是由日本的Kosko提出的一种神经网络模型,它是ART网络模型的一种简化形式, 是一种异联想存储器。它能存储成对的模式,。和是不同向量空间中的向量。如果模式输入到BAM,输出是模式,且若与最为接近,就是在BAM所存储的向量。BAM网络模型中的神经元为非线性单元,每个神经元的作用相当于一个非线性函数,这个函数一般取为型函数:。3.3.1 网络结构在中有个处理单元,在中有个处理单元。每一个域中的神经元均与另一个域
29、中所有神经元相连。图3-4为其网络结构:图3-43.3.2.1 BAM模型神经元的输出一般情况下,每个处理单元的输出取0,1之间的值,但在应用中通常取输出值为二值:0或1,这样按处理单元门限规定,每个处理单元要么为开状态,要么为关状态。若输入大于阈值,则输出为1;若输入小于阈值,则输出为0;当输入与阈值相等时,处理单元输出保持原来状态不变。3.3.2.2 BAM模型的信息存储在双向联想存储模型中,所有的信息都是包含在一个的矩阵中的。这个矩阵实际上是一个权值矩阵,信息就是由这个权值矩阵来表达。如果产生一个稳定的双向联想存储器,则所有的输入都可以很快地映射到稳定的输出模式。由于要将不同的联想模式对
30、收敛到局部能量极小点上,所以所要学习的模式对或联想个数必须小于域和域中处理单元的个数,即:3.3.2.3 BAM模型学习基础:双极矩阵(向量):双极矩阵(或向量)是在二元矩阵(或向量)的基础上,将0代之以1而得到的。如: 二元向量和,其相应的双极向量为和。双向联想存储器在学习时,先将二元向量对转换成双极向量对,然后计算双极伴随矩阵,最后将所有的双极伴随矩阵相加起来便得到权值矩阵,即:3.3.2.4 BAM模型记忆模式擦除要从双向联想存储器中擦去某个记忆模式,例如要去掉模式对,只要在权值矩阵中减去该联想对的双极伴随矩阵,即:3.3.2.5 BAM模型的联想过程联想过程是一个自适应调整过程,目的是
31、使最后的输出能够更加逼近理论上的输出值。3.3.2.6 BAM模型的学习过程:(1) 将输入模式送入双向联想存储器域中。(2) 域中的各神经元计算其接收值,对于域中的处理单元有: (3) 域中每个神经元也可计算其接收值,即:(4) 修改域和域中各处理单元的状态:(5) 当或时,则神经元保持原来状态不变。(6) 然后重复上述过程,直到系统进入稳定状态,也即与的状态不再改变为止。这时域的输出即为最终所得结果。优点:BAM模型的联想和学习方式具有纠错功能,也就是说当输入模式与学习模式不完全相同时,它可以联想出正确的模式;主要用作按内容寻址的相联存储。缺点:存储容量小而且需很好地进行编码。4自组织神经
32、网络模型4.1自适应谐振理论(ART)自适应谐振理论(adaptive resonance theory,简称ART)的目的是为人类的心理和认知活动建立一个统一的数学理论。1976年,美国学者Carpenter和Grossberg提出了ART神经网络模型。它是利用生物神经细胞的自兴奋与侧抑制的原理来指导学习,让输入模式通过网络的双向连接权的作用来进行比较与识别,最后使网络对输入模式产生所谓的谐振,因此来完成对输入模式的记忆,并以同样的方式实现网络的回想。当网络已经存储了一定的内容之后,则可用它来进行识别。在识别过程中,如果输入是已记忆的或与已记忆的模式十分相似,则网络会把它回想出来。如果是没有
33、记忆的新模式,则在不影响原有记忆的前提下,把它记忆下来,并用一个没用过的输出层神经元作为这一新模式的分类标志。ART网络主要有三种形式:ART1是处理双极型或二进制数据,即观察向量的每个分量是二值的,只能取0或1;ART2是用于处理连续型模拟信号,即观察向量的每个分量可取任意实数值,也可用于二进制输入;ART3是分级搜索模型,它兼容前两种结构的功能并将两层神经元网络扩大为任意多层神经元网络,并在神经元的运行模型中纳入人类神经元生物电化学反应机制,因而具备了相当强的功能和扩展能力。ART神经网络模型是一个两层神经网络,下层为输入神经元,上层为输出神经元,记从上到下神经元间连接权值为,从下到上神经
34、元间连接权值为。其中,。图4-1为其网络结构:图4-1ART神经网络模型的学习过程具体描述如下:(1)初始化阶段:对所有的,(),设置,。置为(0,1)区间内的一个值。 其中:为输入处理单元个数;为输出单元个数;为警戒线值,表示两个样本拟合程度多大才认为是匹配的。(2)匹配阶段:将一新的样本向量送入输入神经元。计算匹配度,也就是计算输出神经元的输出值: 其中:是输出神经元的输出;是输入神经元的输入,取值为0或1。(3) 比较搜索阶段:选择一最佳匹配:;警戒线检查:。若,则转向权值调整阶段;若,则重新寻求最佳匹配。把刚找到的最佳匹配处理单元置上标志,下次选择较优匹配时不予参加,选择下一较优匹配,
35、重复上述过程。如果在上述比较搜索过程中没有找到一个满足警戒线检测条件的神经元。则生成一个新的输出神经元,并将其从上至下的连接权值设置为输入向量的各个分量值,输入神经元到它的连接权值按初始化阶段设置权值的方法进行设置。并结束对该样本的学习。否则转入权值调整阶段。(4)权值调整阶段:网络自上而下权值和网络自下而上权值按如下两式进行调整:,。优点:ART神经网络模型可以完成对随机输入模式的实时响应识别编码,且可适应非平稳的环境,对已学过的模式它具有稳定的快速识别能力,同时也能对未学过的模式进行稳定编码,不需要知道模式的标准输出结果,所以它的学习是一种非监督学习方式。它的容量也不受输入通道的限制,而且
36、存储的模式不要求是正交的。自适应谐振理论神经网络模型广泛应用于对任意多和任意复杂的二维模式进行自组织、自稳定和大规模并行处理,可用于如雷达、声纳信号识别等领域。缺点:对转换、失真及规模的变化较为敏感。4.2自组织映射神经网络模型(SOM)在人的感觉通道上一个很重要的组织原理是神经元有序地排列着,并且往往可以反映出所感觉到外界刺激的某些物理特性。如在听觉通道的每一个层次上,其神经元与神经纤维在结构上的排列与外界刺激的频率关系十分密切,对于某个频率,相应的神经元具有最大的响应,这种听觉通道上的有序排列一直延续到听觉皮层,尽管许多低层次上的组织是预先排好的,但高层次上的神经组织则是通过学习自组织而形
37、成的。由此生物背景,提出了自组织映射神经网络模型(SOM)。图4-2为其网络结构:图4-2SOM的学习算法具体步骤如下:第一步 设置变量和参量:为输入向量,为权值向量,。设置迭代总次数为。第二步 初始化:将权向量用小的随机值进行初始化;设置初始学习速率;对权值向量初始值(0)和所有的输入向量进行归一化处理。其中,它们分别是权值向量和输入向量的欧氏范数。第三步 采样:从输入空间中选取训练样本X。第四步 近似匹配:通过欧氏距离最小的标准:来选取获胜神经元,从而实现了神经元的竞争过程。第五步 更新:对获胜神经元拓扑领域内的兴奋神经元,以Hebb学习规则:更新神经元的权值向量,从而实现了神经元的合作和
38、更新过程。第六步 更新学习速率及拓朴领域并对学习后的权值重新进行归一化处理:第七步 判断迭代次数是否大于,如果小于等于,回到第三步进行新的一次训练,否则结束网络训练过程。主要用于从一个几何区域到另一个几何区域的映射,缺点是需要彻底的训练。4.3对流神经网络模型(CPN)CPN是由SOM模型和Grossberg外星网络组合而形成的一种神经网络模型。是由美国Hecht-Nielsen和Robert-Nielsen于1987年首先提出来的。一般认为,这种由两种或多种网络组合而成的新型网络往往具有比原网络模型更强的能力,它能够克服单个网络的缺陷,而且学习时间较短。CPN各层之间的神经元采用全互连连接,
39、下图所示的结构就是CPN的标准三层结构。它是由输入、竞争和输出三层构成。输入层与竞争层构成自组织特征影射(self organizing feature map,SOFM)神经网络。竞争层与输入层构成基本竞争型网络。 输入层与竞争层之间的连接权的调整是按SOFM学习规则来进行的,这是一种典型的无导师学习型网络,由自组织特征影射方式产生获胜神经元并调整相应的连接权的值。竞争层至输出层连接权的调整采用有导师的最小均方规则,即Hoff规则进行学习,通过误差校正调整连接权。经过反复学习,可将任意输入模式影射为输出模式。网络的学习规则由无导师学习和有导师学习组合而成,因此训练样本集中输入向量与期望输出向
40、量应成对组成,即,。式中:为训练集中的模式总数。 在学习过程中,竞争层是在无监督学习方式下进行自组织学习的,以求能区分不同类型的输入向量。输出层是在有监督学习方式下进行训练的,要求产生希望的结果。 CPN具体学习步骤如下:(1) 初始化。将权值和各分量分别赋予0,1区间内的随机值,对和训练集内的所有输入模式进行归一化处理,得和。(2) 输入一个模式,计算净输入,。(3)确定竞争获胜神经元,使,。(4) CPN的竞争算法不设优胜邻域,因此只调整获胜神经元的权向量,调整规则为式中:为学习率,是随时间下降的退火函数。由以上规则可知,调整的目的是使权向量不断靠近当前输入模式类,从而将该模式类的典型向量
41、编码到获胜神经元的权向量中。(5) 重复步骤(2)至步骤(4)直到下降至某个精度或学习次数达到给定值,从而结束输入层到竞争层的学习。需要注意的是,权向量经过调整后必须重新作归一化处理。(6) 针对给定的输入模式对,计算净输入,其中输入层到竞争层的权值矩阵保持上面的训练的结果。(7) 确定竞争获胜神经元,使 (4-1)(8) 调整竞争层到输入层的权向量,调整规则为, (4-2)式中:为学习率,也是随时间下降的退火函数;是输出层神经元的输出值,由式(4-3)计算。 (4-3)将式(4-1)代入式(4-3),得 (4-4)将式(4-4)代入式(4-2),得权向量调整规则如下: (4-5)由以上规则可
42、知,只有获胜神经元的权向量得到调整,调整的目的是使权向量不断靠近并等于期望输出,从而将该输出编码到权向量中。(9) 重复步骤(6)至步骤(8)直到下降至某个给定精度或学习次数达到给定值,从而结束竞争层到输入层的学习。CPN主要用于图像压缩、统计分析、贷款应用打分等,且训练时间较短,大概为BP的1%。但是它对任何类型的问题均需大量的处理单元和连接。5随机神经网络模型在物理学中,对固体物质进行退火处理时,通常先将它加温溶化,使其中的粒子可自由地运动,然后随着物质温度的下降,粒子也形成了低能态的晶格。若在凝结点附近的温度下降速度足够慢,则固体物质一定会形成最低能量的基态。对于组合优化问题来说,它也有
43、类似的过程,也就是说物理中固体物质的退火过程与组合优化问题具有相似性。组合优化问题也是在解空间寻求花费函数最小(或最大)的解。图5-1为其网络结构:能量曲线AB全局极小局部极小图5-1在神经网络系统中,设系统所有可能状态为,与系统相对应有一能量,它是系统状态的函数,即。设控制参数为温度,我们的目的便是找到某一系统状态,使:让从一个足够高的值慢慢下降,对每个,用Metropolis抽样法在计算机上模拟该系统在此下的热平衡状态,即对当前状态经过随机扰动产生一个新状态,计算系统的能量增量:,并以概率接受作为新的当前状态。当重复地如此随机扰动数次后,状态又重新作为当前状态的概率将服从Boltzmann
44、分布:其中::,为常数.若下降足够慢,且,从上式可知,系统所处的当前状态将具有最小的能量值。(1)初始化。任给一初始状态,计算,将参数置一初始温度值。 (2)产生一随机扰动,按下式计算:(3)若,则转5,否则在(0,1)区间上产生一个均匀分布的随机数。(4)若,则转2。(5)用来取代原来的,并令。(6)在该下,检验系统是否稳定,若不稳定则转2。(7)以某一方式取,令。(8)退火过程是否基本结束,是就停止,不是则转2。Boltzmann机是由Hinton和Sejnowski提出来的一种统计神经网络模型,是在Hopfield网络基础之上引入了随机性机制而形成的。与Hopfield神经网络不同的是B
45、oltzmann机具有学习能力,即其权值通过学习来调整,而不是预先设置。Boltzmann机是一种约束满足神经网络模型。Boltzmann机的结构图5-2为其网络结构:图5-25.2.2.1 Boltzmann机的学习规则 Boltzmann机的学习规则是根据最大似然规则,通过调整权值,通过调整权值最小化似然函数或其对数。假设给定需要网络模拟其概率分布的样本集,是样本集合中的一个状态向量,可代表网络中可见点的一个状态 ,假设向量表示网络中不可见节点的一个可能状态,则可表示整个网络所处的状态。 由于网络学习的最终目的是模拟外界给定样本集合的概率分布,而Boltzmann机含有可见节点和不可见节点
46、,因此Boltzmann机的学习过程包括以下两个阶段:(1)主动阶段:网络在外界环境约束下运行,即由样本集合中的状态向量控制可见节点的状态。定义神经元和的状态在主动阶段的平均关联为 其中概率表示网络的可见神经元约束在下不可见神经元处于的条件概率,它与网络在主动阶段的运行过程有关。(2)被动阶段:网络不受外界环境约束,可见神经元和不可见神经元自由运行。定义神经元和的状态在被动阶段的平均关联为:式中,为网络处于状态时的概率;和分别为神经元和的输出状态。由于网络在自由运行阶段服从Boltzmann分布,因此式中:为网络处于状态时的能量。为得到最小化似然函数或其对数,网络的权值需遵循下面的调整规则:
47、(5-1)式中:为在第步时神经元,之间的连接权值;为学习速率;为温度参数。 网络在学习过程中,将样本集合的所有样本状态送入网络运行,在主动阶段达到热平衡状态时,统计出;从被动阶段运行的热平衡状态中统计出,在温度下根据式(5-1)对网络权值进行调整,如此反复,直至网络的状态能够模拟样本集合的概率分布为止,这就是Boltzmann机学习的整个过程。5.2.2.2 Boltzmann机的运行步骤设一个Boltzmann机具有个随机神经元(个显见神经元,个隐见神经元),第个神经元与第个神经元的连接权值为,。为初始温度,为迭代次数,Boltzmann机的运行步骤为:第一步 对网络进行初始化。设定初始温度、终止温度和