《机械故障诊断学钟秉林第7章神经网络诊断原理课件.ppt》由会员分享,可在线阅读,更多相关《机械故障诊断学钟秉林第7章神经网络诊断原理课件.ppt(122页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第7章 神经网络诊断原理l 人工神经网络的拓扑结构及其学习规则l 多层前向神经网络模型及BP算法l 径向基函数(RBF)网络及其学习算法l 模糊神经网络原理机械故障诊断理论与方法第2篇 基于人工智能的故障诊断技术 2023/1/51内容安排一、概述人工神经网络(Artificial Neural Networks,简称ANN),是近年来得到迅速发展的一个前沿课题。ANN是在现代神经生理学和心理学的研究基础上,模仿人的大脑神经元结构特性而建立的一种非线性动力学非线性动力学网络系统,它由大量的简单的非线性处理单元(类似人脑的神经元)高度并联并联、互互联联而成,具有对人脑某些基本特性简单的数学模拟能
2、力。2023/1/52神经网络由于其大规模并行处理、容错性、自组织和自适应能力和联想功能强等特点,已成为解决很多问题的有力工具。如汽车自驾系统、图像处理(如汽车自驾系统、图像处理(人脸识别)、文字识别)、文字识别(手写识别)、语音识别、故障诊断等。)、语音识别、故障诊断等。与传统计算机的比较 传统计算机神经网络设计算法和/或求解规则,编制软件 无需算法或求解规则,软件编制任务相对简单 指令串行执行 高度并行处理 不能解决形象思维问题,如感知、视觉等 易于实现感知和视觉等形象思维问题 脆弱鲁棒性(Robust)、容错性强,自适应能力差 自适应性强 强有力的数字和逻辑运算能力,计算精度高 可以处理
3、模糊的、概率的、含噪的或不相容的信息 2023/1/53一、概述 目前,已经提出的神经网络模型大约有几十种,较为著名著名的有:p贺浦费特模型-Hopfieldp多层感知器(MultiLayer Perceptron,MLP)模型-Rumelhartp自适应共振理论(Adaptive Resonance Theory,ART)-Grossberg 和 Carpententp玻尔兹曼(Boltzmann)机-Hintonp自组织特征映射(Self-Rrganizing Map,SOM)模型-Kohonenp双向联想记忆模型-Kosko2023/1/54一、概述人工神经网络在故障诊断领域的应用主要集
4、中在如下三个方面:p一是从模式识别角度应用神经网络作为分类器进行故障诊断;p二是从预测角度应用神经网络作为动态预测模型进行故障预测;p三是从知识处理角度建立基于神经网络的诊断专家系统。2023/1/55本章首先介绍神经网络的基本原理,然后着重从第一方面出发介绍几类在故障诊断领域应用较为广泛的神经网络模型。人工神经网络发展简史人工神经网络发展简史p最早的研究可以追溯到20世纪40年代。1943年,心理学家McCulloch和数学家Pitts合作提出了形式神经元的数学模型。这一模型一般被简称M-P神经网络模型,至今仍在应用,可以说,人工神经网络的研究时代,就由此开始了就由此开始了。p1949年,心
5、理学家Hebb提出神经系统的学习规则,为神经网络的学习算法奠定了基础。现在,这个规则被称为HebbHebb规则规则,许多人工神经网络的学习还遵循这一规则。一、概述2023/1/56p1957年,F.Rosenblatt提出“感知器”(Perceptron)模型,第一次把神经网络的研究从纯理论的探讨付诸工程实践工程实践,掀起了人工神经网络研究的第一次高潮。p20世纪60年代以后,数字计算机的发展达到全盛时期,人们误误以为数字计算机可以解决人工智能、专家系统、模式识别问题,而放松放松了对“感知器”的研究。于是,从20世纪60年代末期起,人工神经网络的研究进入了低潮。一、概述2023/1/57p19
6、82年,美国加州工学院物理学家Hopfield提出了离散的离散的神经网络模型,标志着神经网络的研究又进入了一个新高潮。1984年,Hopfield又提出连续连续神经网络模型,开拓了计算机应用神经网络的新途径。p1986年,Rumelhart和Meclelland提出多层网络的误差反传(Back Propagation)学习算法,简称BPBP算法算法。BP算法是目前最为重要、应用最广的人工神经网络算法之一。一、概述p自20世纪80年代中期以来,世界上许多国家掀起了神经网络的研究热潮,可以说神经网络已成为国际上的一个研究热点。2023/1/58二、人工神经网络的拓扑结构及其学习规则1.生物神经元与
7、人工神经元模型 生物神经元(NU)p神经元是大脑处理信息的基本单元;p人脑约由101l-1012个神经元组成,其中,每个神经元约与104-105个神经元通过突触突触联接,形成极为错纵复杂而且又灵活多变的神经网络;p神经元以细胞体为主体,由许多向周围延伸的不规则树枝状纤维构成的神经细胞,其形状很像一棵枯树的枝干;p主要由细胞体细胞体、树突树突、轴突轴突和突触突触(Synapse,又称神经键)组成。2023/1/59二、人工神经网络的拓扑结构及其学习规则2023/1/510p细胞体细胞体对这些输入信号进行整 合并进行阈值处理;p树突树突是树状的神经纤维接收网络,它将电信号传送到细胞体;p轴突轴突是
8、单根长纤维,它把细胞 体的输出信号导向其他神经元;p一个神经细胞的轴突和另一个 神经细胞树突的结合点称为突触突触 兴奋型、抑制型,膜外为正、膜内为负神经元的神经元的排列排列和突触的和突触的强度强度(由复杂的化学过程决定由复杂的化学过程决定)确立了确立了神经网络的功能。神经网络的功能。二、人工神经网络的拓扑结构及其学习规则2023/1/511p生物学研究表明一些神经结构是与生俱来的,而其他部分则是在学习的过程中形成的。p在学习的过程中,可能会产生一些新新的连接,也可能会使以前的一些连接消失消失。这个过程在生命早期最为显著。二、人工神经网络的拓扑结构及其学习规则2023/1/512p 突触的信息处
9、理p生物神经元传递信息的过程为多输入、单输出;p神经元各组成部分的功能来看,信息的处理与传递主要发生在突触突触附近;p当神经元细胞体通过轴突传到突触前膜的脉冲幅度达到一定强度,即超过其阈值电位后,突触前膜将向突触间隙释放神经传递的化学物质;p突触有两种类型,兴奋性突触和抑制性突触。前者产生正突触后电位,后者产生负突触后电位。p 生物神经元的主要功能与特点 时空整合能力:对不同时间通过同一突触传入的神经冲动(激励),具有时间整合功能;对同一时间通过不同突触传入的神经冲动,具有空间整合功能。兴奋与抑制状态:传入神经冲动的时空整合结果时空整合结果,使神经元膜电位升高膜电位升高,超过超过神经元动作电位
10、的阀值阀值(约约40mV)时,神经元进入兴奋状态;传入神经冲动的是时空整合结果时空整合结果,使神经元膜电位低于电位低于电位阀值之下阀值之下,神经元进入抑制状态。脉冲与电位转换 突触延时和不应期:一般为0.3lms 学习、遗忘和疲劳:存在学习、遗忘或疲劳(饱和)效应二、人工神经网络的拓扑结构及其学习规则2023/1/513可塑性:突触传递信息的强度是可变的,即具有学习功能 人工神经元二、人工神经网络的拓扑结构及其学习规则2023/1/514 1943,神经生理学家 McCulloch 和数学家 Pitts 基于早期神经元学说,归纳总结了生物神经元的基本特性,建立了具有逻辑演算功能的神经元模型以及
11、这些人工神经元互联形成的人工神经网络,即所谓的 McCulloch-Pitts 模型,MP模型。MP模型是世界上第一个神经计算模型,即人人工工神经系统神经系统。令:X=(-1,x1,x2,xn)T Wj=(j,wj 1,wj 2,wjn)T二、人工神经网络的拓扑结构及其学习规则2023/1/515典型人工神经元结构:n 作用函数:n 求和操作:图中表示求和,j为阀值x1,x2,,xn为输入,即其他神经元的轴突输出;n为输入数目;j1,j2,jn为其他n个神经元与神经元j的突触连接强度,通常称为权重,ji可正可负,表示为兴奋型突触和抑制型突;f(.)通常为一非线性函数,称为神经的激活函数或转移函
12、数;sj为神经元的求和输出,常称为神经元的激活水平,yj为输出。二、人工神经网络的拓扑结构及其学习规则2023/1/516 MP模型 f(x)是作用函数是作用函数(Activation Function),也称,也称激发函数激发函数。MP神经元模型中的作用函数为神经元模型中的作用函数为单位阶跃函数单位阶跃函数:其表达式为:其表达式为:可知当神经元i的输入信号加加权和权和超过阈值时,输出为“1”,即“兴奋”状态;反之输出为“0”,是“抑制”状态。二、人工神经网络的拓扑结构及其学习规则2023/1/517例例1 实现逻辑函数“与门”(AND gate)运算。1 真,0假二、人工神经网络的拓扑结构及
13、其学习规则2023/1/518二、人工神经网络的拓扑结构及其学习规则2023/1/519常见的神经元激发函数 MP 神经元模型是人工神经元模型的基础,也是神经网络理论的基础。在神经元模型中,作用函数除了单位阶跃函数之外,还有其它形式。不同的作用函数,可构成不同的神经元模型神经元模型。激发函数的基本作用控制输入对输出的激活激活作用对输入、输出进行函数转换转换将可能无限域的输入变换成指定的有限范围内的输出 二、人工神经网络的拓扑结构及其学习规则2023/1/520I 对称型对称型SigmoidSigmoid函数函数 或或二、人工神经网络的拓扑结构及其学习规则2023/1/521II 非对称型非对称
14、型SigmoidSigmoid函数函数或或二、人工神经网络的拓扑结构及其学习规则2023/1/522III 对称型阶跃函数对称型阶跃函数采用阶跃作用函数的神经元,称为阈值逻辑单元。采用阶跃作用函数的神经元,称为阈值逻辑单元。二、人工神经网络的拓扑结构及其学习规则2023/1/523IV 线性函数线性函数(1 1)线性作用函数:输出等于输入,即)线性作用函数:输出等于输入,即 (2 2)饱和线性作用函数)饱和线性作用函数 (3 3)对称饱和线性作用函数)对称饱和线性作用函数 二、人工神经网络的拓扑结构及其学习规则2023/1/524V 高斯函数高斯函数 反映出高斯函数的宽度反映出高斯函数的宽度
15、0 xf(x)0 xf(x)10 xf(x)1-1二、人工神经网络的拓扑结构及其学习规则2023/1/525高斯函数型 双曲正切型 Sigmoid型 斜坡型 0 xf(x)1-1-aa0.51f(x)0 x1f(x)0 x-1-50500.10.20.30.40.50.60.70.80.911x0 cf(x)二、人工神经网络的拓扑结构及其学习规则2023/1/5262.人工神经网络的拓扑结构二、人工神经网络的拓扑结构及其学习规则2023/1/527p众所周知,神经网络强大的计算功能是通过神经元的互连而达到的。根据神经元的拓扑结构形式不同,神经网络可分成以下两两大类:p目前,神经网络模型的种类比
16、较多,已有近4040余种神经网络模型,其中典型的有BP网络、Hopfield网络、CMAC小脑模型、ART自适应共振理论和Blotzman机网络等q 不含反馈的前向网络 2.人工神经网络的拓扑结构二、人工神经网络的拓扑结构及其学习规则2023/1/528p神经元分层排列,顺序连接。由输入层施加输入信息,通过中间各层,加权后传递到输出层后输出。每层的神经元只只接受前一层神经元的输入,各神经元之间不存在反馈。p感知器(Perceptron)、BP神经网络和径向基函数(RBF-Redial Basis Function)神经网络都属于这种类型。q 反馈网络 全互连网络二、人工神经网络的拓扑结构及其学
17、习规则2023/1/529p在互连网络模型中,任意两个神经元之间都可能有相互连接的关系。其中,有的神经元之间是双向的,有的是单向的。Hopfield网络、Boltzman机网络属于这一类。p 在无反馈的前向网络中,信号一旦通过某个神经元,过程就结束结束了。而在互连网络中,信号要在神经元之间反复往返传递,神经网络处在一种不断改变状态的动态动态之中。从某个初始状态开始,经过若干次的变化,才会到达某种平衡状态,根据神经网络的结构和神经元的特性,还有可能进入周期振荡或其它如浑沌等平衡状态平衡状态。状态反馈网络二、人工神经网络的拓扑结构及其学习规则2023/1/530p在前向神经网络中有的在同一层中的各
18、神经元相互有连接,通过层内神经元的相互结合,可以实现同一层内神经元之间的横向抑制横向抑制或兴奋兴奋机制,这样可以限制每层内能同时动作的神经元数,或者把每层内的神经元分为若干组,让每组作为一个整体来动作。(层内有互联的前向神经网络)状态反馈网络输出反馈网络 二、人工神经网络的拓扑结构及其学习规则2023/1/531输出反馈网络 p在层次网络结构中,只在输出层到输入层存在反馈,即每一个输入节点都有可能接受来自外部的输入和来自输出神经元的反馈。这种模式可用来存储某种模式序列模式序列,如神经认知机即属于此类,也可以用于动态时间序列动态时间序列过程的神经网络建模。(有反馈的前向神经网络)3.人工神经网络
19、的学习方式、规则及分类二、人工神经网络的拓扑结构及其学习规则2023/1/532 神经网络的学习规则p 相关规则 Hebb学习规则(无指导学习)p 纠错规则 Delta()学习规则(有指导学习)p 竞争学习规则(无指导学习)p 随机学习规则(有指导学习)p 强化学些规则(增强学习)神经网络的学习方式p有监督(误差校正)学习方式p无监督学习方式3.人工神经网络的学习方式、规则及分类二、人工神经网络的拓扑结构及其学习规则2023/1/533n人工神经网络连接权值的确定通常有两种方法两种方法p根据具体要求,直接计算,如Hopfield网络作优化计算;p通过学习得到的。大多数人工神经网络都采用这种方法
20、。n学习学习是改变各神经元连接权值的有效方法有效方法,也是体现人工神经网络智能特性最主要最主要的标志。离开了学习,神经网络就失去了诱人的自适应、自组织能力。学习方法是人工神经网络研究中的核心问题学习方法是人工神经网络研究中的核心问题3.人工神经网络的学习方式、规则及分类二、人工神经网络的拓扑结构及其学习规则2023/1/534p有监督学习方式特点:特点:不能保证得到全局最优解;不能保证得到全局最优解;要求大量训练样本,收敛速度慢;要求大量训练样本,收敛速度慢;对样本地表示次序变化比较敏感;对样本地表示次序变化比较敏感;神经网络根据实际输出与期望输出的偏差,按照一定的准则调整各神经元连接的权系数
21、,见下图。期望输出又称为导师信号,是评价学习的标准,故这种学习方式又称为有导师学习。神经网络的学习方式3.人工神经网络的学习方式、规则及分类二、人工神经网络的拓扑结构及其学习规则2023/1/535p无监督学习方式神经网络的学习方式 无导师信号提供给网络,神经网络仅仅仅仅根据其输入调整连接权系数和阈值,此时,网络的学习评价标准隐含于内部。其结构见下图。这种学习方式主要完成聚类操作聚类操作。ANN的学习规则 q 相关规则 仅依赖于连接间的激活水平改变权重,常用于自联想网络,执行特殊记忆状态的死记式学习。如Hebb规则 3.人工神经网络的学习规则及分类二、人工神经网络的拓扑结构及其学习规则2023
22、/1/536q 纠错规则 依赖输出节点的外部反馈修正权重,等效于梯度下降法。p如感知器学习规则:如果一节点的输出正确,权重不变不变;如果输出本应为零而为1,减小权重;如果本应为1而为0,增加权重;规则(最小均方LMS算法、Widrow-Haff算法):二、人工神经网络的拓扑结构及其学习规则2023/1/537广义 规则(BP学习规则):q 竞争学习规则 类似于聚类分析算法,学习表现为自适应于输入空间的事件分布,如矢量量化(Learning Vector Quantization,简称 LVQ)算法、SOM算法、以及ART训练算法都利用了竞争学习规则。二、人工神经网络的拓扑结构及其学习规则202
23、3/1/538q 随机学习规则 利用随机过程、概率统计和能量函数的关系来 调 节 连 接 权。如 模 拟 退 火(Simulated Annealing)算法。此 外,基 于 生 物 进 化 规 则 的 基 因 遗 传(Genetic Algorithm GA)算法在某种程度上也可视为一类随机学习算法。二、人工神经网络的拓扑结构及其学习规则2023/1/539q 强化学习规则 通过网络输出的正误修正权权重重,又称有评判的学习,强化信号仅仅说明输出正确与否。包括非联想的增强学习、联想增强、自适应评判学习等。二、人工神经网络的拓扑结构及其学习规则2023/1/540三类学习规则:q 有指导学习 不
24、仅需要学习用的输入事例(也称训练样本,通常为一矢量),同时还要求与之对应的表示所需期望输出的目标矢量。学习时,根据网络实际输出与目标输出间的误差改变权重。如纠错规则、随机学习规则。二、人工神经网络的拓扑结构及其学习规则2023/1/541q 无指导学习 不需要目标矢量,网络通过自身的“经历”来学会某种功能,学习在于调整权重以反映学习样本的分布。整个训练过程实质是抽取训练样本集的统计特性。如竞争学习规则。q 增强学习 不需要目标矢量,但要求提供外部的增强信号。二、人工神经网络的拓扑结构及其学习规则2023/1/542 ANN的分类q 按性能 连续型或离散型网络 确定性或随机性网络q 按结构 前向
25、或反馈网络q 按学习方式 有指导(教师)、无指导或强化学习网络 二、人工神经网络的拓扑结构及其学习规则2023/1/5431.感知器(Perceptron)其中:X=(x0,x1,x2,xN)T,x0=-1Wk=(wk0,wk1,wkN)Twk0=k,为神经元k的阈值 三、多层前向神经网络模型及BP算法2023/1/544令Y=(y1,y2,yM)T,F()=(f1(),f2(),fM()T 则:Y=F(W X)三、多层前向神经网络模型及BP算法2023/1/545三、多层前向神经网络模型及BP算法2023/1/546多层感知器:多层感知器:其中:三、多层前向神经网络模型及BP算法2023/1
26、/547H表示第层的隐节点数。H0=N 三、多层前向神经网络模型及BP算法2023/1/548感知器特点感知器特点:网络输出仅与仅与输入及网络权矩阵有关,输出为输 入的显式表达,由输入计算得到输出;多层网络所有神经元的激活函数不能不能全部为线性 函数,否则,多层网络等效于单层网络。三、多层前向神经网络模型及BP算法2023/1/549感知器感知器性能分析性能分析:单层感知器的分类特性输入矢量为两个分量(N=2)时,在几何上构成平面上的两维集,此时判决边界判决边界为直线:wk1x1+wk2x2-k=0 三、多层前向神经网络模型及BP算法2023/1/550N=3时,三维数据集,判决边界判决边界为
27、一平面 N3时,高维数据集,判决边界判决边界为一超平面 三、多层前向神经网络模型及BP算法2023/1/551 单层感知器表示能力三、多层前向神经网络模型及BP算法2023/1/552矛盾三、多层前向神经网络模型及BP算法2023/1/553单层感知器的单一超平面判决边界判决边界决定了其只适用于线性可分问题。高维时,线性可分性通常无法判别,因此,单层感知器通常用于简单的分类问题。三、多层前向神经网络模型及BP算法2023/1/554 多层感知器的分类特性三、多层前向神经网络模型及BP算法2023/1/555三、多层前向神经网络模型及BP算法2023/1/556三、多层前向神经网络模型及BP算法
28、2023/1/557 上表给出了利用硬限幅非线性函数(阶跃函数、符号函数)的一层、二层及三层网络的类区分功能,阴影阴影部分表示类A的判定区。从表中可以看出:(1)无隐层网络仅能仅能形成半平面决策区域;(2)单隐层网络可以可以形成开或闭的凸决策区域;(3)两个隐层的网络形成任意复杂形状的决策区域。因此,一般在应用中,网络不需要超过两个隐层。感知器学习算法感知器学习算法:Hebb规则算法规则算法 p适用于符号单元:p适用于符号或阈值单元:(0,1)称为学习系数(率),用于控制权重修正速度。三、多层前向神经网络模型及BP算法2023/1/558Hebb规则算法步骤:三、多层前向神经网络模型及BP算法
29、2023/1/559三、多层前向神经网络模型及BP算法2023/1/560三、多层前向神经网络模型及BP算法2023/1/561HebbHebb规则规则dede缺陷:缺陷:本质上不可能不可能对隐层单元权重进行调节,因为隐单元的期望输出未知未知,因而不能应用于多层网络的学习;对非线性可分问题,算法不收敛。三、多层前向神经网络模型及BP算法2023/1/562 规则算法规则算法 考虑线性线性激活函数情形。定义输出误差测度函数(目标函数、耗费函数)为 学习的目的目的是通过调节权重W W使得上述误差函数越小越好。三、多层前向神经网络模型及BP算法2023/1/563根据梯度算法,权重W W的修正量W
30、W正比于当前W W上 E 的梯度:即:其中k为输出节点k的误差。显然,上式与基于Hebb规则得到的权重修正公式相同。但是两者的原理是不同的,前前者者基于误差梯度,要求激活函数可微,能够应用于多层感知器情形。三、多层前向神经网络模型及BP算法2023/1/564上面权重修正公式权重修正公式也可表示为矩阵形式:非线性激活函数激活函数时:此时,三、多层前向神经网络模型及BP算法2023/1/565线线性性激激活活函函数数写成矩阵形式有:一般的连续可微激活函数有Sigmoid函数和双曲正切函数,即:三、多层前向神经网络模型及BP算法2023/1/566梯度算法(规则算法)的步骤与前面Hebb训练算法步
31、骤类似,仅仅是误差表达式不同。算法特点:算法特点:要求神经元激活函数可微,易于推广到非 线性激活单元 算法过程原理上永不停止永不停止,并逐渐接近最 优解,即k不等于0。当误差函数存在多个局部极小点时,一般 而言,梯度算法得不到得不到全局最小解。三、多层前向神经网络模型及BP算法2023/1/5672.BP网络模型(Back Propagation)三、多层前向神经网络模型及BP算法2023/1/568p一个具有任任意意的压缩(Squashing)型激活函数(如Sigmoid函数、双曲正切函数等)的单单隐层前向网络,只要有充分多的隐层单元,就能够以任意的精度逼近任意一个有限维的波波莱莱尔尔可可测
32、测函函数数(Borel measurable function),从而表明BP网络是一个通用的函数逼近器。三、多层前向神经网络模型及BP算法2023/1/569考虑单样本学习的BP算法,定义网络的目标目标函数函数为:对单隐层网络,3.BP算法(误差反向传播:Back Propagation)三、多层前向神经网络模型及BP算法2023/1/570p对于隐层至输出层权重权重W W2:p对于输入层至隐层权重权重W W1:三、多层前向神经网络模型及BP算法2023/1/571三、多层前向神经网络模型及BP算法2023/1/572p一般,对于多于一个隐层的 BP 网络,最后一隐层与输出层之间的权重修正公
33、式权重修正公式仍与上面第一个公式相同,其它层间权重修正公式可统一表示为:上式中:三、多层前向神经网络模型及BP算法2023/1/573BP算法特点 将神经网络学习输入输出的映射问题转变转变为 非线性优化问题,使用最优化中的梯度下降 算法,用迭代运算修正网络权重,实现网络 输出与期望输出间的均方误差均方误差最小化。算法由前向计算过程和误差反向传播过程组 成。在前向计算过程中,每一层神经元的状 态只影响下一层神经元的状态。若输出层得 不到期望的输出,则转向反向传播,将误差 信号延原来的连接通路返回,通过修改修改各层 的权重,使得误差信号最小。三、多层前向神经网络模型及BP算法2023/1/574
34、权重修正量权重修正量只与该权重联接的两个相关量 (前一节点的输出;后一节点的误差)有 关,使得BP算法易于并行实现。三、多层前向神经网络模型及BP算法2023/1/575BPBP网络的应用中的几个实际问题 样本集的产生样本集的产生 包括原始数据的收集、数据分析、变量选择以及数据的预处理等。确定模式变量(特征)确定模式变量(特征)通过对原始数据的统计分析,检验输入间的相关性。对于具有很强相关性的输入仅取其中之一之一即可。三、多层前向神经网络模型及BP算法2023/1/576 输入尺度变换(归一化)和预处理 p 尺度变换常常将输入变换到-1,1或0,1的范围。一方面,避免由于输入变量数值相差过大,
35、导致训练的困难。另一方面,避Sigmoid函数陷入饱和。p 在进行尺度变换前必须先检查是否存在异常点(或称野点),这些点必须剔除。p 对数据的预处理包括检验其是否是否存在周期性、固定变化趋势或其它关系等。三、多层前向神经网络模型及BP算法2023/1/577 样本数量 p一般说来一般说来数据越多,学习和训练的结果越能正确反映输入输出关系。但太多的数据将增加增加收集、分析数据以及网络训练所付出的代价付出的代价,而太少的数据则可能得不到正确得不到正确的结果。p事实上数据的多少取决于许多因素,如网络的大小、网络测试的需要以及输入输出的分布等。其中网络大小最关键。通常较大的网络需要较多的训练数据。一个
36、经验规则是:训练模式应是连接权总数的5至10倍。三、多层前向神经网络模型及BP算法2023/1/578p影响数据多少的另一个因素是输入模式和输出结果的分布,对数据预先预先加以分类可以减少减少所需的数据数。相反,数据稀薄不均甚至互相覆盖则势必势必要增加数据量。测试样本 p测试数据应是独立的独立的数据集合。最简单的方法是:将收集到的可用数据随机地随机地分成两部分,如其中三分之二用于网络的训练网络的训练,另外三分之一用于将来的测试将来的测试,随机选取的目的是为了尽量减小这两部分数据的相关性。三、多层前向神经网络模型及BP算法2023/1/579 训练样本的完备性要求 训练样本必须覆盖必须覆盖所有可能
37、的输入和输出的映射区域,即要求训练样本集必须是完备的,否则,当BP网络进行决策时,对没有学习过的样本区域可能会给出完全错误的结果。三、多层前向神经网络模型及BP算法2023/1/580 作为分类器时的输出表示 每个输出节点对应对应一种类别;通过编码(二进制)表示表示不同的类别;训练和测试 BP网络解决问题的能力与训练次数不不成正比。网络训练的目的目的在于找出蕴含在样本数据中的输入和输出间的本质联系,从而对未经训练未经训练的输入也能给出合适的输出,即具备泛化功能。三、多层前向神经网络模型及BP算法2023/1/581均方误差训练次数训练数据测试数据 误差曲线的典型形状如上图,从误差曲线误差曲线可
38、见,测试数据均方误差并非单调减小,测试误差最小点所对应的训练次数即为适当的训练次数,若再训练即为“过度训练”(过拟合)。三、多层前向神经网络模型及BP算法2023/1/582四、径向基函数(RBF)网络及其学习算法2023/1/583 1.网络的权重权重具有关联性、网络本身的非线性特性,使得应用者很难理解每个权重权重的意义,并追踪检查基决策过程。这种无解释的推理结果往往难以难以让用户接受,并且缺少说服力。2.若训练样本训练样本和测试样本测试样本两者都不能不能充分反映实际系统的行为,网络的可靠性仍然得不到保证;3.对于一个实际系统,尤其是一个复杂系统,由于无法判断所给定的样本样本是否是否真正反映
39、了系统具有代表性的行为,因此,也给BP网络的实际应用带来了限制。BPBP网络存在的问题:网络存在的问题:0 引言四、径向基函数(RBF)网络及其学习算法2023/1/584正因为BPBP网络网络存在如上所述的诸多问题,为此许多研究者寻求了各种替代方案,其中最有效的解决方案之一之一就是径向径向基函数网络基函数网络(Radial Basis Function,RBF)。RBF网络起源于数值分析中的多变量插值的径向基函数方法。RBFRBF网络能力与性质:网络能力与性质:同BP网络一样具有具有任意精度的泛函逼近能力;具有具有传统BP网络所不具备的最佳逼近特性,即它存在一个权重集合,其逼近效果在所有可能
40、的权重集合中是最佳的最佳的。(学者季洛立Girori和朴基奥Poggio已证明)四、径向基函数(RBF)网络及其学习算法2023/1/5851 RBF网络结构特性 RBF网络结构如图所示,RBF网络通常是一种两层两层的前向网络,由图可见,RBFRBF网络的结构与BPBP网络结构十分相似,但有着本质的区别:(1)RBF网络隐单元的激活激活函数函数为具有局部接受域性质的非线性函数,即即仅当隐单元的输入落在输入空间中一个很小的制定区域中时,才会做出有意义的非零响应。而不是如同BP网络的激活函数一样在输入空间的无限大区域内非零。四、径向基函数(RBF)网络及其学习算法2023/1/586(2)在RBF
41、网络中,输入层至隐层之间的所有权重所有权重固定为1,隐层RBF单元的中心及半径通常也预先确定,仅隐层至输出层之间的权权重可调重可调。RBF网络的隐层执行一种固定不变固定不变的非线性变换,将输入空间Rn映射映射到新新的隐层空间Rh,输出层在该新的空间中实现线性组合。显然由于输出单元的线性特性,其参数调节极为简单,且不存在不存在局部极小问题;(3)RBF网络的局部接受特性使得其决策时隐含了距离的概念,即即只有当输入接近接近RBF网络的接受域时,网络才会对之做出响应。这就避免了BP网络超平面分割所带来的任意划分特性。前向网络 隐单元的激活函数通常为具有局部接受域的函数,即即仅当输入落在输入空间中一个
42、很小的指定区域中时,隐单元才作出有意义的非零响应。因此,RBF网络有时也称为局部接受域网络(Localized Receptive Field Network)。RBF网络最常用最常用的非线性激活函数为高斯函数四、径向基函数(RBF)网络及其学习算法2023/1/587结构特性结构特性高斯激活函数 式中,j为隐层第j个单元的输出;X X=(x1,x2,xn)T;|表示矢量范数(距离),通常取为欧氏范数,即:四、径向基函数(RBF)网络及其学习算法2023/1/588cj通常称为隐层单元的中心(第j个高斯单元的中心),也可视为隐单元的权向量。j为规一化参数,用于控制接受域的大小,称为半径。四、径
43、向基函数(RBF)网络及其学习算法2023/1/589由上式可知:当X X=cj 时,j取得最大值1;而当X X远离 cj时,j取值逐渐减少,直至最后趋于0。以一维情形为例,当X X落在区间cj-3 j,cj+3 j之外时,j近似为0,即即其接受域为区间cj-3 j,cj+3 j。四、径向基函数(RBF)网络及其学习算法2023/1/590 如图所示,为=0.8,c=5,5T二维情形。p显然,当x=cj时,j(x)取得最大值1,当x远离cj时,j(x)逐渐减小趋近于零。其接受域的大小近似为c-3j,c+3j,即j决定了接受域的大小。此外,j(x)关于中心径向对称。pRBF网络的局部接受特性使得
44、其决策时隐含了距离的概念,即即只有当输入接近接近RBF网络的接受域时,网络才会对之作出响应响应。这就避免避免了BP网络超平面分割所带来的任意划分特性。四、径向基函数(RBF)网络及其学习算法2023/1/591四、径向基函数(RBF)网络及其学习算法2023/1/592 常用的其他类型RBF激活函数还有:薄板样条函数:多二次函数(multiquadric function):逆多二次函数(inverse multiquadric function):一般认为,RBF网络所采用的非线性激活函数形式形式对网络性能的影响并非至关重要,而而关键因素是基函数中心的选取。在RBF 网络中,输入层至输出层之
45、间的所 有权重固定为 1,隐 层RBF单 元 的 中 心 及 半 径通 常 也 预先确定,仅仅隐层至输出层之间 的权重可调。RBF 网络的隐层执行一种 固固 定定 不不 变变 的非线性变换,将 输 入 空 间Rn 映映 射射 到一个 新 的 隐层空间Rh,输 出 层在该新的空 间中实现 线性组合。显然由于输出单元的 线 性特性,其参数调节 极为简单,且 不不存存在在 局 部极小问题。四、径向基函数(RBF)网络及其学习算法2023/1/593 RBF网络的数学模型 2.RBF网络模型四、径向基函数(RBF)网络及其学习算法2023/1/594写成矩阵形式:式中,X X=(x1,x2,xn)T
46、T为输入矢量;Y Y=(y1,y2,ym)T T为输出矢量;W W=(W W1,W W2,W Wm)T T为隐层至输出层矩阵,W Wk为输出层第k个单元的权矢量;=(1(X X),2(X X),n(X X))T T为隐层输出矢量。四、径向基函数(RBF)网络及其学习算法2023/1/595 规一化 规一化的RBF网络 除除上述RBF网络结构模型外,在实际应用中还经常采用归一化的网络结构,如图所示:归一化表达式:RBF网络的性能 RBF网络与BP网络一样是一类通用的函数逼近器;尽管RBF的激活函数可以多多种多多样,但可以证明,当应用指数函数作非线性项时,RBF网络拥有“最佳逼近”特性,即即存在一
47、个权重集合,其逼近效果在所有可能的权集合中是最佳的最佳的。这种最佳逼近特性,传统的BP网络是不具不具备备的。四、径向基函数(RBF)网络及其学习算法2023/1/596 RBF网络的网络的K均值聚类均值聚类学习算法学习算法 RBF网络依然是典型的有指导学习网络,其学习包括两个步骤:1)确定确定每一个RBF单元的中心c cj 和半径j;2)调节调节权矩阵W W。四、径向基函数(RBF)网络及其学习算法2023/1/5973.RBF网络学习算法 问问题题:在多变量插值的RBF方法中,中心Cj一般定位在所所有有输入的矢量点,这样有多多少少输入数据就有多多少少隐RBF单元,然而,由于数据的类聚性,导致
48、许多RBF单元中心相距很很近近,出出现现许多冗余单元,造成了“过度拟合”,减低了网络的推广能力。四、径向基函数(RBF)网络及其学习算法2023/1/598q 中心cj 的确定 方方法法:目前通常先采用聚类分析技术,对输入数据进行预处理,找找出出有代表性的数据点(不一定位于原始数据点)作作为为RBF单元的中心,从而减减少少隐RBF单元的数目,减低减低网络的复杂性。四、径向基函数(RBF)网络及其学习算法2023/1/599 RBF网络学习常用常用的聚类分析技术是K-均值算法,其具体过程可描述为:四、径向基函数(RBF)网络及其学习算法2023/1/5100q 半径j 的确定 半径j j 决决定
49、定了RBF单元接受域的大小,对网络的精度有极大极大的影响。半径选择的基基本本原原则则:使得所有RBF单元的接受域之和覆盖覆盖整个训练样本空间。如下图所示:四、径向基函数(RBF)网络及其学习算法2023/1/5101RBF网络接受域示意图(二维情形)四、径向基函数(RBF)网络及其学习算法2023/1/5102图中给出了RBF单元接受域 的 示 意 图,其 中,“*”表表示示样本,Dj(j=1,2,)表表示示第j个RBF单元的接受域。通常应用K-均值聚类算法后,对每一个类中心C Cj 可以令相应的半径j j等等于于其与属于该类的训练样本之间的平均距离,即:四、径向基函数(RBF)网络及其学习算
50、法2023/1/5103另另一一个个选择j j的方法是对每一个中心C Cj求取它与其最最邻邻近近的N个近邻单元中心距离的平均值作为j j的取值。研究表明,取N=1时,不不仅仅可以简化计算,而而且且能满足大部分应用要求。q 调节权矩阵W 线性最小二乘法 四、径向基函数(RBF)网络及其学习算法2023/1/5104 在得到中心C Cj和半径j j后,就可以对RBF网络进行训训练练,调调节节权重W使得目标函数最最小小,一般调节权矩阵W的方法有两种:梯度法:线性最小二乘法:由于RBF网络的输输出出与权权重重W为线性关系,因此可以采用一般的线性最小二乘法求得W。也就是令网络输出:Y=W=U则:四、径向