《机械故障诊断6.pptx》由会员分享,可在线阅读,更多相关《机械故障诊断6.pptx(129页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、故障诊断与分类故障诊断与分类机械故障诊断的基本过程聚类分析:原理聚类分析:原理已知各状态下的机器的特征向量样本已知各状态下的机器的特征向量样本 kj=(x1j,x2j,xnj),j=1,2,N 求得各状态下特征点的聚类中心,将这些聚类中心的求得各状态下特征点的聚类中心,将这些聚类中心的特征向量特征向量K1,K2,Km作为标准模式。作为标准模式。对待检的某台机器,其特征向量为对待检的某台机器,其特征向量为KT,分别计算它到各分别计算它到各聚类中心的距离聚类中心的距离d(KT,Kj),j=1,2,m。按最临近原则来确定待检机器的状态。按最临近原则来确定待检机器的状态。状态识别过程状态识别过程状态状
2、态D1状态状态D2状态状态Dm待检状态待检状态DT特征向量特征向量 最邻近原则最邻近原则DT Db db=mind(Kb,Kj)j=1,2,m K1 K2 Km KT 状态识别状态识别 距离函数距离函数距离函数:分类器距离函数:分类器Distance function:Classifier空间距离空间距离Space Distance相似性指标相似性指标Similarity Index信息距离信息距离Information Distance空间距离空间距离Space Distance欧氏距离欧氏距离Euclidean distance马哈劳林比斯距离马哈劳林比斯距离 Mahalauobias d
3、istance明考斯基距离明考斯基距离 Minkowski distance欧氏距离欧氏距离Euclidean distance欧氏距离欧氏距离加权欧氏距离加权欧氏距离马哈劳林比斯距离马哈劳林比斯距离加权欧氏距离中的权矩阵:根据对诊断起作用的大小,给特征加权欧氏距离中的权矩阵:根据对诊断起作用的大小,给特征向量中各参数加不同的权重。向量中各参数加不同的权重。马哈劳林比斯距离是加权欧氏距离中用得较广泛的一种。马哈劳林比斯距离是加权欧氏距离中用得较广泛的一种。Rj 为为KT 和和 Kj 的协方差矩阵,的协方差矩阵,Vrs为为XrXs的互协方差。的互协方差。DM不但对各参数加了权,而且可消除参数之间
4、相关影响。不但对各参数加了权,而且可消除参数之间相关影响。明考斯基距离明考斯基距离 Minkowski distance简称明氏距离,也称为广义距离,记为:简称明氏距离,也称为广义距离,记为:Q=1 时,称为绝对距离:时,称为绝对距离:Q=2 时,即为欧氏距离:时,即为欧氏距离:时,称为切比雪夫距离:时,称为切比雪夫距离:信息距离信息距离Kullback-Leibler 信息距离信息距离Itakura 信息距离信息距离标准模式确实定标准模式确实定确定标准模式(聚类中心)方法:设第确定标准模式(聚类中心)方法:设第p类状态的类状态的特征点有特征点有Np个,它们为:个,它们为:Xi j(p),i=
5、1n,j=1 Np,p=1 m i:第第 i 个参数,个参数,j:第第 p 类状态中第类状态中第 j 个特征点。个特征点。取样本点集的重心。取样本点集的重心。相似性指标相似性指标角度相似性指标:角度相似性指标:相关系数:相关系数:主分量分析主分量分析 Principal component Analysis Principal component Analysis用较少的特征参数来表征一个系统。用较少的特征参数来表征一个系统。例:特征向量有分量例:特征向量有分量x1、x2,并有,并有N个样本点,个样本点,x11,x12,x1N;x21,x22,x2N,X1y2y1X2要寻找新的坐标系要寻找新的
6、坐标系y1,y2,使原来的点集对使原来的点集对 y1 的分的分散性最大,即表达了最散性最大,即表达了最多的分类信息。就可能多的分类信息。就可能用一个参数用一个参数 y1 代替原来代替原来的参数的参数 x1、x2。主分量分析:坐标变换主分量分析:坐标变换作线性变换:变换前先零均值化。作线性变换:变换前先零均值化。一般地,对一般地,对m维特征向量作线性变换:维特征向量作线性变换:Cx 和和Cy为为X和和Y的协方差矩阵。的协方差矩阵。主分量分析:求协方差矩阵特征值主分量分析:求协方差矩阵特征值选择适当的选择适当的A,使使Cy协方差矩阵对角化,即协方差矩阵对角化,即Y的各分量的各分量 线性独立。线性独
7、立。主分量分析:特征抽取主分量分析:特征抽取从从m个主分量中选取个主分量中选取p个较大的分量,个较大的分量,pm。特征抽取后的信息保存度为:特征抽取后的信息保存度为:主分量分析:例主分量分析:例特征向量X的协方差矩阵主分量分析:从主分量分析:从CX求转换矩阵和主分量求转换矩阵和主分量由协方差矩阵由协方差矩阵Cx的特征向量组成转换矩阵的特征向量组成转换矩阵A 由协方差矩阵由协方差矩阵Cx求主分量:求主分量:因为因为Cx和和Cy为对称阵,矩阵为对称阵,矩阵A为正交矩阵,为正交矩阵,Cy=A Cx为相似变换,为相似变换,Cx和和Cy有相同的秩和相有相同的秩和相同的特征值。所以可从同的特征值。所以可从
8、CX求求Cy的主分量。的主分量。Fisher线性判别函数Fisher准则的基本原理,就是要找到一个最适宜的投影轴,使两类样本在该轴上投影的交迭局部最少,从而使分类效果为最正确。基本思路分析分析w w1 1方向之所以比方向之所以比w w2 2方向优越,可以归方向优越,可以归纳出这样一个准则,即向量纳出这样一个准则,即向量W W的方向选择的方向选择应能使两类样本投影的均值之差尽可能应能使两类样本投影的均值之差尽可能大些,而使类内样本的离散程度尽可能大些,而使类内样本的离散程度尽可能小。这就是小。这就是FisherFisher准则函数的基本思路。准则函数的基本思路。要求类间距离大,类内分布散度小。两
9、类,Fisher准则函数为多类,Fisher准则函数为在一维空间(1)各类样本均值 (2)样本类内离散度 和总类内离散度 使用Fisher准则求最正确法线向量的解基本思想:基本思想:通过选用适宜的核函数作为非线通过选用适宜的核函数作为非线性映射函数,就可以将输入空间中的线性不可性映射函数,就可以将输入空间中的线性不可分问题转化为高维特征空间中的线性可分问题。分问题转化为高维特征空间中的线性可分问题。核方法的理论基础核方法的基本原理 线性核函数 d 阶多项式核函数 高斯径向基(RBF)核函数 常用的核函数常用的核函数 一个分类问题实例特征空间中的最优分类面核方法的独特思路核方法使用了与传统方法完
10、全不同的思路,不是像传统方法那样首先试图将原输入空间降维(即特征选择和特征变换),而是设法将输入空间升维,以求在高维特征空间中问题变得线性可分(或接近线性可分);由于升维后只是改变了内积运算,并没有使算法复杂性随着维数增加而增加,而且在高维空间中的推广能力并不受维数影响,因此这种方法是可行的。基于核函数主元分析的机械故障特征提取主元分析是一种基于线性相关的特征提取方法,难于处理不同模式类别与特征向量间的随机关联问题。而且输入变量的变化往往会改变主元特征值的结果,对于模式类别具有复杂边界的情况,特征提取计算复杂。机械运行中出现的故障往往呈现出非线 ,需要利用非线性主元分析分析故障信号。核函数主元
11、分析B.Schlkopf等人在研究支持向量分类算法时提出的一种非线性主元方法。与其他非线性主元分析方法相比,它不需要具体的非线性优化问题,而只需要解决矩阵特征值问题。通过选取不同核函数可以得到不同的非线性特征;与传统的主元分析相比,这一方法更适于提取数据的非线性特征。核函数主元分析核函数主元分析(KPCA)的实质的实质 nKPCA就是对特征空间中的映射数据做主元分析。它能更好地反映数据的结构。KPCA在齿轮箱故障特征提取中的应用齿轮箱不同状态时的时域信号波形齿轮箱不同状态时的时域信号波形齿轮箱正常与裂纹状态的功率谱利用KPCA检测齿轮裂纹故障KPCA对齿轮箱三种工作状态的分类识别KPCA相对于
12、PCA的优点核函数主元分析保持了主元分析的优点,它在主元子空间自动地按照各个特征对故障的敏感程度进行排序,根据主元的奉献率可以有直观的解释;利用在原始空间中的内积运算实现原始特征的非线性映射,求取原始特征集的非线性主元,而无需考虑这一映射的具体形式,这样即使变换空间维数增加很多,但求解分类问题却没有增加计算复杂度。试验结果说明,与传统的线性主元分析方法相比,核函数主元分析对于机械故障的非线性特征更为敏感,更适于非线性数据的处理。基于核的判别分析KDA在特征空间中,定义总类内离散度由样本自协差阵来度量,类间离散度由各类样本的互相关矩阵B来度量,参考Fisher判别准则,类判别准则函数可写为set
13、osaversicolorvirginicaIris数据的非线性不可分现象Iris数据的分类LDA分类结果KPCA与KDA分类结果(多项式核函数)KPCA与KDA分类结果(RBF核函数)风机不同状态下的轴心轨迹图KPCA与KDA用于风机状态识别齿轮不同状态的时域信号KPCA与KDA用于齿轮故障模式分类KDA与KPCA的联系两者的出发点不同,KPCA是为了捕捉数据的内部结构,它尽可能的以非线性方式降低样本的维数,以利于数据的展开,数据展开是指对于某一类中的输入样本数据用较少的特征进行压缩,使得在特征空间中数据所蕴含的信息损失最小。KDA是从分类的目的出发提取特征,可称为判别特征,以使不同类别之间
14、的样本尽可能被分开,同类样本尽可能凝聚。KPCA是解决非线性特征提取问题的一个非常有用的工具,可用于无监督学习。而基于核的判别分析(KDA)借助核方法提取非线性特征的同时考虑了分类的需要,属于监督式学习,因此可以得到更好的分类效果。模糊诊断原理模糊诊断原理设备的特征和状态有某种不确定性:即偶然性和设备的特征和状态有某种不确定性:即偶然性和模糊性。偶然性可用概率论方法解决,模糊性要模糊性。偶然性可用概率论方法解决,模糊性要用模糊集合论方法解决。用模糊集合论方法解决。模糊性:区分或评价客观事物差异的不清楚性。模糊性:区分或评价客观事物差异的不清楚性。例如机器的特征例如机器的特征“振动大振动大”、“
15、回转频率成分大回转频率成分大”,机器的状态,机器的状态“轴不对中轴不对中”、“偏心大偏心大”、“磨损严峻磨损严峻”等都是模糊的概念。等都是模糊的概念。由逻辑诊断扩展为模糊诊断:逻辑诊断中用一个由逻辑诊断扩展为模糊诊断:逻辑诊断中用一个阈值阈值x0 区分两种状态,区分两种状态,则为振动大。成绩则为振动大。成绩大于等于大于等于60分为及格,分为及格,59分就不及格。分就不及格。模糊逻辑将二值逻辑扩展为多值或连续值逻辑。模糊逻辑将二值逻辑扩展为多值或连续值逻辑。隶属度函数隶属度函数 Membership function Membership function模糊逻辑将模糊逻辑将0,1 二值逻辑扩展
16、为二值逻辑扩展为0,1区间中任意值区间中任意值的连续逻辑。此时特征函数就叫做隶属度函数的连续逻辑。此时特征函数就叫做隶属度函数(x),对所论的特征对所论的特征K,叫做叫做x对对K的隶属度。的隶属度。x0 xK(x)10隶属度函数隶属度函数(x)01二值逻辑二值逻辑连续逻辑连续逻辑二值逻辑的特征函数是隶属度函数的特例,隶属度函数是二二值逻辑的特征函数是隶属度函数的特例,隶属度函数是二值特征函数的推广。值特征函数的推广。隶属度和概率的区别隶属度和概率的区别隶属度:认定客观事物具有某种特征或状态的可能度。隶属度:认定客观事物具有某种特征或状态的可能度。概率:事件(出现某种特征或状态)客观发生的时机。
17、概率:事件(出现某种特征或状态)客观发生的时机。例:某类机器根据油中磨粒的多少来判断其磨损的状态:例:某类机器根据油中磨粒的多少来判断其磨损的状态:磨损率磨损率x(毫克(毫克/小时)在各个区间时的隶属度和概率如下小时)在各个区间时的隶属度和概率如下常用的隶属度函数常用的隶属度函数升(降)半矩形分布升(降)半矩形分布 升(降)半正态分布升(降)半正态分布升(降)半梯形分布升(降)半梯形分布升(降)半柯西分布升(降)半柯西分布(x)x10aa(x)x10(x)x10a(x)x10a2a1常用的隶属度函数常用的隶属度函数升(降)半指数分布升(降)半指数分布升(降)半凹凸分布升(降)半凹凸分布(x)x
18、10aa(x)x100.5隶属度函数与近似的多值逻辑函数隶属度函数与近似的多值逻辑函数很很差差(x)x10较较差差一一般般较较好好很很好好模糊关系方程模糊关系方程设备的模糊特征向量:设备的模糊特征向量:K=K1,K2,Kn设备的模糊状态向量:设备的模糊状态向量:D=D1,D2,DmDi 的隶属度函数为的隶属度函数为 ,i=1,2,mKj 的隶属度函数为的隶属度函数为 ,j=1,2,n模糊关系方程模糊关系方程:模糊关系矩阵模糊关系矩阵模糊关系矩阵模糊关系矩阵R R表示故障原因和特征之间表示故障原因和特征之间的因果关系,有的因果关系,有 ,表示特征表示特征 K Kj j 对状态对状态 D Di i
19、 的权(奉献)因的权(奉献)因子。子。广义模糊算子广义模糊算子 为广义模糊算子,按其含义不同分为:为广义模糊算子,按其含义不同分为:最大最小法:最大最小法:概率算子法:概率算子法:权矩阵法:权矩阵法:最大最小法最大最小法 合成运算算子合成运算算子 也称最大最小算子。其运算法则为:也称最大最小算子。其运算法则为:对两个模糊向量对两个模糊向量X=x1,x2,xn、Y=y1,y2,yn,其中其中 ,简写为简写为 最大最小法中模糊关系方程为最大最小法中模糊关系方程为最大最小法最大最小法 算例算例已知:作合成运算:概率算子法概率算子法最大最小法突出了主要因素,不能反映次要因素队诊最大最小法突出了主要因素
20、,不能反映次要因素队诊断故障的作用。概率算子法能综合考虑各因素的影响。断故障的作用。概率算子法能综合考虑各因素的影响。概率算子运算法则:概率算子运算法则:比较概率计算公式:比较概率计算公式:与以上形式完全相同,这是概率算子法名称的来源。与以上形式完全相同,这是概率算子法名称的来源。概率算子法的模糊关系方程:概率算子法的模糊关系方程:权矩阵法权矩阵法归一化条件:归一化条件:算例比较算例比较用特征参数用特征参数K1,K2来诊断故障来诊断故障D1时,时,R11=0.8,R12=0.6,K1(x1)=0.7,K2(x2)=0.5,概率算子法概率算子法:权矩阵法:权矩阵法:归一化归一化 最大最小法:最大
21、最小法:模糊诊断实例模糊诊断实例 FUZZY DIAGNOSIS FUZZY DIAGNOSIS EXAMPLEEXAMPLE 三级齿轮减速器(三级齿轮减速器(Gear reduction box)Gear reduction box):模糊特征变量模糊特征变量k1k1 peak value peak valuek3k3 impulse factor impulse factork2k2 kurtosis value kurtosis valuek4k4 energy in mesh frequency energy in mesh frequencyk5k5 energy in rotati
22、ng frequency energy in rotating frequencyk6k6 energy in cepstrum(T=1/fn)energy in cepstrum(T=1/fn)模糊状态变量模糊状态变量 d1 d1 tooth breaktooth break d2 d2 pitch error of gearpitch error of gear d3 d3 tooth surface weartooth surface wear d4 d4 eccentricity of geareccentricity of gear 隶属度函数隶属度函数 Membership fun
23、ctionembership function升(降)半凹凸分布升(降)半凹凸分布j=1,2,3,.,6j=1,2,3,.,6(x)x10aj模糊关系矩阵模糊关系矩阵Fuzzy relationship matrix RFuzzy relationship matrix R 各根轴的模糊特征向量的隶属度:各根轴的模糊特征向量的隶属度:k k(L1)(L1)=0.2,0.8,0.5,0.2,0.2,0.4=0.2,0.8,0.5,0.2,0.2,0.4 k k(L2)(L2)=0.0,0.4,0.0,0.2,0.0,0.1=0.0,0.4,0.0,0.2,0.0,0.1 k k(L3)(L3)=
24、0.0,0.2,0.0,0.4,0.0,0.2=0.0,0.2,0.0,0.4,0.0,0.2用最大最小法进行诊断用最大最小法进行诊断 6 6 didi(y(yi i)=)=(R(Rijij kjkj(x(xj j)j=1j=1e.g.for axis L1:e.g.for axis L1:d1d1(y(yi i)=(0.2)=(0.2 0.2)0.2)(1.0(1.0 0.8)0.8)(1.0(1.0 0.5)0.5)(0.4(0.4 0.2)0.2)(0.4(0.4 0.2)0.2)(0.4(0.4 0.4)0.4)=0.2 =0.2 0.80.8 0.50.5 0.20.2 0.20.2
25、 0.4=0.80.4=0.8 d d(L1)(L1)=0.8,0.5,0.5,0.2=0.8,0.5,0.5,0.2 d d(L2)(L2)=0.4,0.4,0.4,0.2=0.4,0.4,0.4,0.2 d d(L3)(L3)=0.4,0.4,0.4,0.2=0.4,0.4,0.4,0.2From From d1d1(L1)(L1)(y(y1 1)=0.8 we can conclude:)=0.8 we can conclude:tooth break on axis L1 occurstooth break on axis L1 occurs遗传算法遗传算法的描述例子例子:为四个连锁饭
26、店寻找最好的经营决策,其中一个经营饭店的决策包括要做出以下三项决定:(1)价格汉堡包的价格应该定在50美分还是1美元?(2)饮料和汉堡包一起供给的应该是酒还是可乐?(3)服务速度饭店应该提供慢的还是快的服务?目的:找到这三个决定的组合以产生最高的利润。上述问题的表示方案:串长(l3)字母表规模(k2)映射共有8种表示方案用遗传算法解这个问题的第一步就是选取一个适当的表示方案。饭店问题的表示方案(其中的饭店问题的表示方案(其中的4个)个)群体规模N4初始群体中经营决策的适应值初始群体中经营决策的适应值一个简单的遗传算法由复制、杂交、变异三个算子组成使用复制算子后产生的交配池使用复制算子后产生的交
27、配池1.复制算子:采用盘选择2.杂交算子:采用一点杂交作用过程:a)产生一个在1到l1之间的随机数ib)配对的两个串相互对应的交换从i1到l的位段例如:从交配池中选择编号为1和2的串进行配对,且杂交点选在2(用分隔符|表示),杂交算子作用的结果为:01|101011|0111对交配池中指定百分比的个体应用杂交算子,假设杂交概率pc50,交配池中余下的50个体仅进行复制运算,即复制概率pr50。使用复制和杂交算子的作用结果使用复制和杂交算子的作用结果遗传算法利用复制和杂交算子可以产生具有更高平均适应值和更好个体的群体3.变异算子:以一个很小的概率pm随机改变染色体串上的某些位。对于二进制串,就是
28、将相应位上的0变为1或将1变为0。例如:选交配池中编号为4的串进行变异,且变异点在2,则010000变异算子相对而言,是次要算子,但在恢复群体中失去的多样性方面具有潜在的作用。上述遗传算法描述了从第0代产生第1代的过程,然后遗传算法迭代地执行这个过程,直到满足某个停止准则。在每一代中,算法首先计算群体中每个个体地适应值,然后利用适应值信息,遗传算法分别以概率pc、pr和pm执行杂交、复制和变异操作,从而产生新的群体。应用遗传算法求解问题需完成四个主要步骤:1.确定表示方案2.确定适应值度量3.确定操作算法的参数和变量4.确定指定结果的方法和停止运行的准则基本遗传算法的构成要素1.染色体编码方法
29、最常用的是二进制编码,对于离散性变量直接编码,对于连续性变量先离散化后再编码2.适应度函数评估函数用来评估一个染色体的优劣的绝对值适应度函数评估一个染色体相对整个群体的优劣的相对值的大小3.遗传算子复制算子、交叉算子、变异算子4.基本遗传算法运行参数N:群体大小,即群体中所含个体的数量,一般取20100T:遗传算法的终止进化代数,一般取100500pc:杂交概率,一般取0.40.99pm:变异概率,一般取0.00010.1pr:复制概率基本遗传算法的一般框架算法过程:1.随机产生一个由确定长度的特征串组成的初始群体2.对串群体迭代地执行下面的步(i)和步(ii),直到满足停止准则:(i)计算群
30、体中每个个体的适应值(ii)应用复制、杂交和变异算子产生下一代群体3.把在任一代中出现地最好地个体串指定为遗传算法的执行结果,这个结果可以表示问题的一个解(或近似解)GEN0产生初始群体是否满足停止准则指定结果结束计算每个个体的适应值i0iN?以概率选择遗传算子GENGEN1选择一个个体 选择两个个体 选择一个个体执行复制ii1执行变异复制到新群体执行杂交插入到新群体将两个子代串插入到新群体ii1是否是否prpcpmGEN当前代数N群体规模遗传算法的基本实现技术1.编码方法:编码规则:i)应使用能易于产生与所求问题相关的且具有低阶、短定义长度模式的编码方案ii)应使用能使问题得到自然表示或描述
31、的具有最小编码字符集的编码方案2.适应值函数适应值函数必须是正数,出现负数时应进行变换,常用变换方式有三种:线性比例法:g(x)af(x)b(b大于0)指数比例法:g(x)exp(af(x),(a不等于0)幂指数比例法:g(x)(f(x)a(a为偶数)3.复制算子:盘选择、余数随机选择、全局随机选择4.杂交算子:一点杂交、两点杂交、一致杂交5.变异算子遗传算法的特点1.直接对结构对象操作,不存在求导和函数连续性的限定;2.遗传算法不是从单个点,而是从一个点地群体开始搜索;3.具有内在的隐并行性和较好的全局寻优能力;4.采用概率化寻优方法,能自动获取搜索过程中的有关知识并用于指导优化,自适应地调
32、整搜索方向,不需要确定地规则;5.鲁棒性遗传编程GeneticProgramming 斯坦佛大学的Koza在遗传算法基础上提出了用层次化的计算机程序来表达问题的遗传编程方法。遗传规划的基本思想是:随机产生一个适用于所给问题环境的初始种群,即搜索空间,种群中的每个个体为树状结构,计算每个个体的适应值;依据优胜劣汰原则,选择遗传算子(复制、交叉、变异等)对种群不断进行迭代优化,直到在某一代上找到最优解或近似最优解。遗传编程应用步骤在实际应用中,遗传编程需要五个主要的准备步骤:字符集,是表示树的树叶;函数或运算符集,是表示树的节点;适合度计算;运行参数的操作;运行结果的设计方法和终止程序运行的标准。
33、遗传操作遗传编程有三个主要的操作:复制、杂交和变异。1)复制复制操作的目的是为了从当前群体中选出优良的个体,使它们有时机作为父代繁殖下一代。判断个体优良与否的准则就是各自的适合度。根据达尔文适者生存的进化原则,个体的适合度越高,被选择复制的时机就越大。通过选择复制,提高了群体的平均适合度。适合度的几种选择方法中,最基本也是最常用的轮选择法。遗传操作2)杂交杂交的目的是为了增加群体中的新个体,从而扩大了群体的搜索空间,使算法的搜索能力得以迅速提高。遗传编程的杂交操作涉及到子树结构的拆合。3)变异变异是遗传编程中的次要算子,主要是为了维持群体的多样性,变异概率取值一般比较小。在遗传编程中,有两种变
34、异方式:运算符变异和终端符变异。Xn1=plus(minus(minus(X4,X2),X5),minus(plus(X2,plus(X1,X7),plus(times(X1,X2),X4)Xn2=mysqrt(plus(X3,minus(plus(minus(X7,X3),plus(plus(X6,X6),X1),X3)人工神经网络生物神经元神经元是大脑处理信息的基本单元人脑大约由1011个神经元组成,神经元互相连接成神经网络神经元以细胞体为主体,由许多向周围延伸的不规则树枝状纤维构成的神经细胞,其形状很像一棵枯树的枝干主要由细胞体、树突、轴突和突触(Synapse,又称神经键)组成 生物神
35、经元示意图 突触的信息处理生物神经元传递信息的过程为多输入、单输出神经元各组成局部的功能来看,信息的处理与传递主要发生在突触附近当神经元细胞体通过轴突传到突触前膜的脉冲幅度到达一定强度,即超过其阈值电位后,突触前膜将向突触间隙释放神经传递的化学物质突触有两种类型,兴奋性突触和抑制性突触。前者产生正突触后电位,后者产生负突触后电位人工神经网络结构人工神经网络人工神经元模型常见响应函数人工神经网络典型结构人工神经网络直观理解 神经网络是一个并行和分布式的信息处理网络结构它一般由大量神经元组成每个神经元只有一个输出,可以连接到很多其他的神经元每个神经元输入有多个连接通道,每个连接通道对应于一个连接权
36、系数通用模型求和操作响应函数人工神经元模型 人工神经元模型响应函数的基本作用操作输入对输出的激活作用对输入、输出进行函数转换将可能无限域的输入变换成指定的有限范围内的输出 (a)阈值单元(b)线性单元(c)Sigmoid函数 (d)非线性单元:常见神经元响应函数常见神经元响应函数人工神经元的响应函数 神经元的模型确定之后,一个神经网络的特性及能力主要取决于网络的拓扑结构及学习方法人工神经网络连接的几种基本形式前向网络(a)从输出到输入有反响的前向网络(b)用来存储某种模式序列层内互连前向网络(c)限制层内同时动作的神经元;分组功能相互结合型网络(d)人工神经网络典型结构神经网络的典型结构权值确
37、定Hebb学习规则误差校正(纠错)学习规则相近(无教师)学习规则神经网络基本学习算法人工神经网络连接权确实定通常有两种方法根据具体要求,直接计算,如Hopfield网络作优化计算通过学习得到的。大多数人工神经网络都采用这种方法 学习方法是人工神经网络研究中的核心问题权值确定Donall Hebb根据生理学中条件反射机理,于1949年提出的神经元连接强度变化的规则如果两个神经元同时兴奋(即同时被激活),则它们之间的突触连接加强 a为学习速率,Vi,Vj为神经元i和j的输出Hebb学习规则是人工神经网络学习的基本规则,几乎所有神经网络的学习规则都可以看作Hebb学习规则的变形 Hebb学习规则用已
38、知样本作为教师对网络进行学习学习规则可由二次误差函数的梯度法导出误差校正学习规则实际上是一种梯度方法不能保证得到全局最优解要求大量训练样本,收敛速度慢对样本地表示次序变化比较敏感误差校正规则无教师学习规则这类学习不在于寻找一个特殊映射的表示,而是将事件空间分类为输入活动区域,并有选择地对这些区域响应,从而调整参数一反映观察事件的分部输入可以是连续值,对噪声有较强地抗干扰能力对较少输入样本,结果可能要依赖于输入序列在ART、Kohonen等自组织竞争型网络中采用三层BP神经网络的结构局限在网络参数的学习过程中,由于学习样本有限,常常出现网络过学习的现象,即网络学习性能指标函数到达最小值后并不能保
39、证网络对未知样本有较好的预测和推广能力.统计学习理论支持向量机统计学习理论是针对小样本统计估计和预测学习的最正确理论理论上研究了经验风险最小化原则成立的条件,经验风险最小化原则下统计学习一致性的条件;有限样本条件下经验风险与期望风险的关系分类器的泛化能力一个泛化能力很差的分类器:相对于训练样本的数量,特征的维数太大(维数危机问题)与分类器相关联的未知参数太大;分类器优化过于依赖于训练样本(过训练问题)泛化能力的重要性识别系统鲁棒性统计学习理论60年代提出,利用有限样本对非参数(无分布)关系估计的理论;统计学习理论原是基于对经验风险最小ERM准则的分析,ERM是基于最小训练误差估计算法;VC理论
40、导出ERM准则一致性和快速收敛充要条件,这些条件(及VC理论的大多数结果)和分布无关;用结构风险最小SRM准则代替ERM准则于统计学习算法,SRM最小化泛化误差导上界,代替ERM最小化训练数据误差。统计学习理论在应用于有限训练样本学习成功的泛化利用VC维作为逼近函数集合复杂性(容量)的测度,代替古典理论的参数数目或自由度;在最简单线性模型情况,VC维与自由参数的数目相一致,而非线性估计器的VC维与参数数目不同;SVM支持向量机方法能够利用有限高维数据到达高水平泛化;SVM应用成功证明开展基于VC理论的结构学习方法的潜在优势,推动了统计学习理论的实际应用。故障分类中的学习问题每一个学习样本Z,观
41、测矢量 其相应的“真实性”标记 损失函数可表示为,概率分布表示为,学习问题是从给定指示函数集 中选择出能够最正确预测监督者响应者,使风险函数最小化,损失函数为,经验风险及经验风险最小化原则经验风险最小化ERM准则定义如下:用基于训练样本集的经验风险函数代替风险函数:用将经验风险 最小化的函数 代替使风险 最小化的逼近函数 用最小平方误差损失函数,则最小经验风险函数为指示函数集合的VC维指示函数集合 的VC维是利用函数集中的函数的所有可能 种的方式,能够被分割为两类的向量 的最大数 h如存在一组n个任意向量集合,能被一组函数集打散,其VC维等于无限。指示函数集合的VC维(而不是参数的数目)是关系
42、着学习机的泛化能力。据此,可以有时机克服“维数危机”,和很好的泛化能力(具有很大数量的参数但却有小的VC维的函数集)平面上直线的VC维置信范围和泛化能力由上可知,实际风险由经验风险和置信范围两局部组成,即:置信范围反映由经验风险最小化准则得到学习机的泛化能力,称为推广性的界置信范围和函数的VC维h及训练样本数n有关,随的增加单调地减少,泛化能力增加。结构风险最小化归纳准则模式识别中,分类器形式地选定,就确定两学习机的VC维,就确定了其置信范围,确定了其泛化能力。简单的分类器(如线性分类器)具有较低的VC维,较好的泛化能力。在分类器确定后,按照最小经验风险准则具体设计分类器。结构风险最小化归纳准
43、则ERM准则是处理大样本情况,当n/h大时,第二项风险很小,实际风险逼近经验风险。当n/h小时,尽管经验风险很小,也不能保证较小当实际风险,因为第二项风险可能很大。为使风险最小化,需要有新的准则,使经验风险和依赖于集合VC维的第二项同时最小化结构风险最小化准则是关于经验风险和函数集合VC维二者的最小化风险准则。支持向量机SupportVectorMachine60年代提出的统计学习理论的理论分析直到92年支持向量机的提出,和SVM在实际中的应用,才引起人们极大的关注。SVM的基本思想是通过非线性变换将输入空间变换到高维空间,在此高维空间求取最优线性分割,而这变换是适当到内积函数实现的。在高维空间构造一个具有较小的分类超平面,就有较小的VC维,较好的泛化能力。最优分割超平面训练数据:能够被一个超平面所分割:最优分割:假设超平面和最近向量间的距离最大,且分割没有误差。谢谢观看/欢送下载BY FAITH I MEAN A VISION OF GOOD ONE CHERISHES AND THE ENTHUSIASM THAT PUSHES ONE TO SEEK ITS FULFILLMENT REGARDLESS OF OBSTACLES.BY FAITH I BY FAITH