《中科院模式识别第三章.ppt》由会员分享,可在线阅读,更多相关《中科院模式识别第三章.ppt(75页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章 判别函数第三章 判别函数3.1 线性判别函数3.2 广义线性判别函数3.3 分段线性判别函数3.4 模式空间和权空间3.5 Fisher线性判别3.6 感知器算法3.7 采用感知器算法的多类模式的分类3.8 可训练的确定性分类器的迭代算法3.9 势函数法 一种确定性的非线性分类算法3.10 决策树简介3.1 线性判别函数3.1.1 用判别函数分类的概念模式识别系统的主要作用判别各个模式所属的类别对一个两类问题的判别,就是将模式x划分成1和2两类。3.1 线性判别函数3.1.1 用判别函数分类的概念描述:两类问题的判别函数3.1 线性判别函数3.1.1 用判别函数分类的概念用判别函数进行
2、模式分类依赖的两个因素(1)判别函数的几何性质:线性的和非线性的函数。线性的是一条直线;非线性的可以是曲线、折线等;线性判别函数建立起来比较简单(实际应用较多);非线性判别函数建立起来比较复杂。(2)判别函数的系数:判别函数的形式确定后,主要就是确定判别函数的系数问题。只要被研究的模式是可分的,就能用给定的模式样本集来确定判别函数的系数。3.1 线性判别函数3.1.2 线性判别函数n维线性判别函数的一般形式权向量增广模式向量增广权向量分类问题两类情况:判别函数d(x)多类情况:设模式可分成1,2,M共M类,则有三种划分方法多类情况1多类情况2多类情况33.1 线性判别函数3.1.2 线性判别函
3、数分类问题多类情况1判别函数图例例子3.1 线性判别函数3.1.2 线性判别函数分类问题多类情况2判别函数图例例子3.1 线性判别函数3.1.2 线性判别函数分类问题多类情况3判别函数图例例子3.1 线性判别函数3.1.2 线性判别函数小结:线性可分模式分类若可用任一个线性函数来划分,则这些模式就称为线性可分的,否则就是非线性可分的。一旦线性函数的系数wk被确定,这些函数就可用作模式分类的基础。3.1 线性判别函数3.1.2 线性判别函数多类情况1和多类情况2的比较对于M类模式的分类,多类情况1需要M个判别函数,而多类情况2需要M*(M-1)/2个判别函数,当M较大时,后者需要更多的判别式(这
4、是多类情况2的一个缺点)。采用多类情况1时,每一个判别函数都要把一种类别的模式与其余M-1种类别的模式分开,而不是将一种类别的模式仅于另一种类别的模式分开。由于一种模式的分布要比M-1种模式的分布更为聚集,因此多类情况2对模式是线性可分的可能性比多类情况1更大一些(这是多类情况2的一个优点)。作业(1)在一个10类的模式识别问题中,有3类单独满足多类情况1,其余的类别满足多类情况2。问该模式识别问题所需判别函数的最少数目是多少?作业(2)一个三类问题,其判别函数如下:d1(x)=-x1,d2(x)=x1+x2-1,d3(x)=x1-x2-11.设这些函数是在多类情况1条件下确定的,绘出其判别界
5、面和每一个模式类别的区域。2.设为多类情况2,并使:d12(x)=d1(x),d13(x)=d2(x),d23(x)=d3(x)。绘出其判别界面和多类情况2的区域。3.设d1(x),d2(x)和d3(x)是在多类情况3的条件下确定的,绘出其判别界面和每类的区域。3.2 广义线性判别函数出发点线性判别函数简单,容易实现;非线性判别函数复杂,不容易实现;若能将非线性判别函数转换为线性判别函数,则有利于模式分类的实现。3.2 广义线性判别函数基本思想设有一个训练用的模式集x,在模式空间x中线性不可分,但在模式空间x*中线性可分,其中x*的各个分量是x的单值实函数,x*的维数k高于x的维数n,即若取x
6、*=(f1(x),f2(x),.,fk(x),kn则分类界面在x*中是线性的,在x中是非线性的,此时只要将模式x进行非线性变换,使之变换后得到维数更高的模式x*,就可以用线性判别函数来进行分类。描述3.2 广义线性判别函数广义线性判别函数的意义线性的判别函数fi(x)选用二次多项式函数x是二维的情况x是n维的情况fi(x)选用r次多项式函数,x是n维的情况例子d(x)的总项数说明d(x)的项数随r和n的增加会迅速增大,即使原来模式x的维数不高,若采用次数r较高的多项式来变换,也会使变换后的模式x*的维数很高,给分类带来很大困难。实际情况可只取r=2,或只选多项式的一部分,例如r=2时只取二次项
7、,略去一次项,以减少x*的维数。3.2 广义线性判别函数例子:一维样本空间-二维样本空间作业两类模式,每类包括5个3维不同的模式,且良好分布。如果它们是线性可分的,问权向量至少需要几个系数分量?假如要建立二次的多项式判别函数,又至少需要几个系数分量?(设模式的良好分布不因模式变化而改变。)3.3 分段线性判别函数出发点线性判别函数在进行分类决策时是最简单有效的,但在实际应用中,常常会出现不能用线性判别函数直接进行分类的情况。采用广义线性判别函数的概念,可以通过增加维数来得到线性判别,但维数的大量增加会使在低维空间里在解析和计算上行得通的方法在高维空间遇到困难,增加计算的复杂性。引入分段线性判别
8、函数的判别过程,它比一般的线性判别函数的错误率小,但又比非线性判别函数简单。3.3 分段线性判别函数图例:用判别函数分类可用一个二次判别函数来分类也可用一个分段线性判别函数来逼近这个二次曲线3.3 分段线性判别函数分段线性判别函数的设计采用最小距离分类的方法最小距离分类3.3 分段线性判别函数图例:分段线性分类设计3.4 模式空间和权空间分类描述模式空间对一个线性方程w1x1+w2x2+w3x3=0,它在三维空间(x1 x2 x3)中是一个平面方程式,w=(w1 w2 w3)T是方程的系数。把w向量作为该平面的法线向量,则该线性方程决定的平面通过原点且与w垂直。3.4 模式空间和权空间模式空间
9、若x是二维的增广向量,此时x3=1,则在非增广的模式空间中即为x1,x2 二维坐标,判别函数是下列联立方程的解 w1x1+w2x2+w3=0 x3=1即为这两个平面相交的直线AB此时,w=(w1 w2)T为非增广的权向量,它与直线AB垂直;AB将平面分为正、负两侧,w离开直线的一侧为正,w射向直线的一侧为负。3.4 模式空间和权空间模式空间(a)增广向量决定的平面(b)非增广向量决定的直线3.4 模式空间和权空间权空间若将方程x1w1+x2w2+w3=0绘在权向量w=(w1 w2 w3)T的三维空间中,则x=(x1 x2 1)T为方程的系数。若以x向量作为法线向量,则该线性方程所决定的平面为通
10、过原点且与法线向量垂直的平面,它同样将权空间划分为正、负两边。在系数x不变的条件下,若w值落在法线向量离开平面的一边,则wTx0,若w值落在法线向量射向平面的一边,则wTx 0。3.4 模式空间和权空间权空间中判别界面的平面示意图3.5 Fisher线性判别出发点应用统计方法解决模式识别问题时,一再碰到的问题之一就是维数问题。在低维空间里解析上或计算上行得通的方法,在高维空间里往往行不通。因此,降低维数有时就会成为处理实际问题的关键。3.5 Fisher线性判别问题描述考虑把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维。然而,即使样本在d维空间里形成若干紧凑的互相分得开的集
11、群,当把它们投影到一条直线上时,也可能会是几类样本混在一起而变得无法识别。但是,在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分得开。3.5 Fisher线性判别问题描述问题:如何根据实际情况找到一条最好的、最易于分类的投影线,这就是Fisher判别方法所要解决的基本问题。3.5 Fisher线性判别从d维空间到一维空间的一般数学变换方法假设有一集合包含N个d维样本x1,x2,xN,其中N1个属于1类的样本记为子集1,N2个属于2类的样本记为子集2。若对xn的分量做线性组合可得标量:yn=wTxn,n=1,2,N这样便得到N个一维样本yn组成的集合,并可分为两个子集1和2
12、。3.5 Fisher线性判别从d维空间到一维空间的一般数学变换方法实际上,w的值是无关紧要的,它仅是yn乘上一个比例因子,重要的是选择w的方向。w的方向不同,将使样本投影后的可分离程度不同,从而直接影响的分类效果。因此,上述寻找最佳投影方向的问题,在数学上就是寻找最好的变换向量w*的问题。3.5 Fisher线性判别Fisher准则函数的定义几个必要的基本参量我们希望投影后,在一维Y空间中各类样本尽可能分得开些,即希望两类均值之差越大越好,同时希望各类样本内部尽量密集,即希望类内离散度越小越好。Fisher准则函数定义最佳变换向量w*的求取3.5 Fisher线性判别基于最佳变换向量w*的投
13、影w*是使Fisher准则函数JF(w)取极大值时的解,也就是d维X空间到一维Y空间的最佳投影方向。有了w*,就可以把d维样本x投影到一维,这实际上是多维空间到一维空间的一种映射,这个一维空间的方向w*相对于Fisher准则函数JF(w)是最好的。利用Fisher准则,就可以将d维分类问题转化为一维分类问题,然后,只要确定一个阈值T,将投影点yn与T相比较,即可进行分类判别。3.6 感知器算法出发点一旦判别函数的形式确定下来,不管它是线性的还是非线性的,剩下的问题就是如何确定它的系数。在模式识别中,系数确定的一个主要方法就是通过对已知样本的训练和学习来得到。感知器算法就是通过训练样本模式的迭代
14、和学习,产生线性(或广义线性)可分的模式判别函数。3.6 感知器算法基本思想采用感知器算法(Perception Approach)能通过对训练模式样本集的“学习”得到判别函数的系数。说明这里采用的算法不需要对各类别中模式的统计性质做任何假设,因此称为确定性的方法。3.6 感知器算法背景“感知器”一词出自于20世纪50年代中期到60年代中期人们对一种分类学习机模型的称呼,它是属于有关动物和机器学习的仿生学领域中的问题。当时的一些研究者认为感知器是一种学习机的强有力模型,后来发现估计过高了,但发展感知器的一些相关概念仍然沿用下来。3.6 感知器算法感知器的训练算法感知器算法实质上是一种赏罚过程对
15、正确分类的模式则“赏”,实际上是“不罚”,即权向量不变。对错误分类的模式则“罚”,使w(k)加上一个正比于xk的分量。当用全部模式样本训练过一轮以后,只要有一个模式是判别错误的,则需要进行下一轮迭代,即用全部模式样本再训练一次。如此不断反复直到全部模式样本进行训练都能得到正确的分类结果为止。3.6 感知器算法例子感知器算法的收敛性只要模式类别是线性可分的,就可以在有限的迭代步数里求出权向量。(证明作为练习)作业及编程用感知器算法求下列模式分类的解向量w:1:(0 0 0)T,(1 0 0)T,(1 0 1)T,(1 1 0)T2:(0 0 1)T,(0 1 1)T,(0 1 0)T,(1 1
16、1)T编写求解上述问题的感知器算法程序。3.7 采用感知器算法的多类模式的分类采用3.1的多类情况3,将感知器算法推广到多类模式。感知器算法判别函数的推导例子3.7 采用感知器算法的多类模式的分类讨论这里的分类算法都是通过模式样本来确定判别函数的系数,但一个分类器的判断性能最终要受并未用于训练的那些未知样本来检验。要使一个分类器设计完善,必须采用有代表性的训练数据,它能够合理反映模式数据的整体。3.7 采用感知器算法的多类模式的分类讨论要获得一个判别性能好的线性分类器,究竟需要多少训练样本?直观上是越多越好,但实际上能收集到的样本数目会受到客观条件的限制;过多的训练样本在训练阶段会使计算机需要
17、较长的运算时间;一般来说,合适的样本数目可如下估计:若k是模式的维数,令C=2(k+1),则通常选用的训练样本数目约为C的1020倍。作业用多类感知器算法求下列模式的判别函数:1:(-1-1)T2:(0 0)T3:(1 1)T3.8 可训练的确定性分类器的迭代算法3.8.1 梯度法定义梯度是一个向量,它的最重要性质就是指出了函数f在其自变量y增加时最大增长率的方向。负梯度指出f的最陡下降方向利用这个性质,可以设计一个迭代方案来寻找函数的最小值。3.8 可训练的确定性分类器的迭代算法3.8.1 梯度法采用梯度法求解的基本思想对感知器算法式中的w(k)、xk随迭代次数k而变,是变量。定义一个对错误
18、分类敏感的准则函数J(w,x)。先任选一个初始权向量w(1),计算准则函数J的梯度,然后从w(1)出发,在最陡方向(梯度方向)上移动某一距离得到下一个权向量w(2)。从w(k)导出w(k+1)的一般关系式3.8 可训练的确定性分类器的迭代算法3.8.1 梯度法讨论若正确地选择了准则函数J(w,x),则当权向量w是一个解时,J达到极小值(J的梯度为零)。由于权向量是按J的梯度值减小,因此这种方法称为梯度法(最速下降法)。为了使权向量能较快地收敛于一个使函数J极小的解,C值的选择是很重要的。若C值太小,则收敛太慢;若C值太大,则搜索可能过头,引起发散。3.8 可训练的确定性分类器的迭代算法3.8.
19、1 梯度法例子3.8 可训练的确定性分类器的迭代算法3.8.2 固定增量的逐次调整算法描述3.8 可训练的确定性分类器的迭代算法3.8.2 固定增量的逐次调整算法过程说明:设已由前一步迭代得到w(k)的值。读入模式样本xk,判别wT(k)xk是否大于0。在示意图中,xk界定的判别界面为wT(k)xk=0。当w(k)在判别界面的负区域时,wT(k)xk0,试导出两类模式的分类算法。3.8 可训练的确定性分类器的迭代算法3.8.3 最小平方误差(LMSE)算法出发点感知器算法只是当被分模式可用一个特定的判别界面分开时才收敛,在不可分情况下,只要计算程序不终止,它就始终不收敛。即使在模式可分的情况下
20、,也很难事先算出达到收敛时所需要的迭代次数。这样,在模式分类过程中,有时候会出现一次又一次迭代却不见收敛的情况,白白浪费时间。为此需要知道:发生迟迟不见收敛的情况时,到底是由于收敛速度过慢造成的呢,还是由于所给的训练样本集不是线性可分造成的呢?最小平方误差(LMSE)算法,除了对可分模式是收敛的以外,对于类别不可分的情况也能指出来。3.8 可训练的确定性分类器的迭代算法3.8.3 最小平方误差(LMSE)算法分类器的不等式方程Ho-Kashyap(H-K)算法模式类别可分性的判别例1:有解情况例2:无解情况3.8 可训练的确定性分类器的迭代算法3.8.3 最小平方误差(LMSE)算法小结固定增
21、量算法:实现相对简单,可直接引伸到多类模式的分类情况,但未提供模式线性可分的测试特征;LMSE算法:相对复杂,需要对XTX求逆(维数高时求逆比较困难),但对两类情况,提供了线性可分的测试特征。3.9 势函数法 一种确定性的非线性分类方法目的用势函数的概念来确定判别函数和划分类别界面。基本思想假设要划分属于两种类别1和2的模式样本,这些样本可看成是分布在n维模式空间中的点xk。把属于1的点比拟为某种能源点,在点上,电位达到峰值。随着与该点距离的增大,电位分布迅速减小,即把样本xk附近空间x点上的电位分布,看成是一个势函数K(x,xk)。对于属于1的样本集群,其附近空间会形成一个“高地”,这些样本
22、点所处的位置就是“山头”。同理,用电位的几何分布来看待属于2的模式样本,在其附近空间就形成“凹地”。只要在两类电位分布之间选择合适的等高线,就可以认为是模式分类的判别函数。3.9 势函数法 一种确定性的非线性分类方法3.9.1 判别函数的产生模式分类的判别函数可由分布在模式空间中的许多样本向量xk,k=1,2,和 的势函数产生。任意一个样本所产生的势函数以K(x,xk)表征,则判别函数d(x)可由势函数序列K(x,x1),K(x,x2),来构成,序列中的这些势函数相应于在训练过程中输入机器的训练模式样本x1,x2,。在训练状态,模式样本逐个输入分类器,分类器就连续计算相应的势函数,在第k步迭代
23、时的积累位势决定于在该步前所有的单独势函数的累加。以K(x)表示积累位势函数,若加入的训练样本xk+1是错误分类,则积累函数需要修改,若是正确分类,则不变。3.9 势函数法 一种确定性的非线性分类方法3.9.1 判别函数的产生逐步分析从势函数可以看出,积累位势起着判别函数的作用当xk+1属于1时,Kk(xk+1)0;当xk+1属于2时,Kk(xk+1)0,则积累位势不做任何修改就可用作判别函数。由于一个模式样本的错误分类可造成积累位势在训练时的变化,因此势函数算法提供了确定1和2两类判别函数的迭代过程。判别函数表达式取d(x)=K(x),则有:dk+1(x)=dk(x)+rk+1K(x,xk+
24、1)3.9 势函数法 一种确定性的非线性分类方法3.9.2 势函数的选择选择势函数的条件:一般来说,若两个n维向量x和xk的函数K(x,xk)同时满足下列三个条件,则可作为势函数。K(x,xk)=K(xk,x),并且当且仅当x=xk时达到最大值;当向量x与xk的距离趋于无穷时,K(x,xk)趋于零;K(x,xk)是光滑函数,且是x与xk之间距离的单调下降函数。3.9 势函数法 一种确定性的非线性分类方法3.9.2 势函数的选择构成势函数的两种方式第一类势函数第二类势函数3.9 势函数法 一种确定性的非线性分类方法3.9.2 势函数的选择例13.9 势函数法 一种确定性的非线性分类方法3.9.2
25、 势函数的选择例23.9 势函数法 一种确定性的非线性分类方法3.9.2 势函数的选择讨论用第二类势函数,当训练样本维数和数目都较高时,需要计算和存储的指数项较多。正因为势函数由许多新项组成,因此有很强的分类能力。作业(1)用二次埃尔米特多项式的势函数算法求解以下模式的分类问题1:(0 1)T,(0-1)T2:(1 0)T,(-1 0)T作业(2)用下列势函数 求解以下模式的分类问题1:(0 1)T,(0-1)T2:(1 0)T,(-1 0)T3.10 决策树简介决策树,或称多级分类器,是模式识别中进行分类的一种有效方法,对于多类或多峰分布问题,这种方法尤为方便。利用树分类器可以把一个复杂的多
26、类别分类问题,转化为若干个简单的分类问题来解决。它不是企图用一种算法、一个决策规则去把多个类别一次分开,而是采用分级的形式,使分类问题逐步得到解决。3.10 决策树简介决策树示意图3.10 决策树简介一般来讲,一个决策树由一个根节点n1,一组非终止节点ni和一些终止节点tj组成,可对tj标以各种类别标签,有时不同的终止节点上可以出现相同的类别标签。如果用T表示决策树,则一个决策树T对应于特征空间的一种划分,它把特征空间分成若干个区域,在每个区域中,某类的样本占优势,因此可以标出该类样本的类别标签。3.10 决策树简介决策树的一种简单形式是二叉树,它是指除叶结点外,树的每个节点仅分为两个分支,即
27、每个非终止节点ni都有且仅有两个子节点nil和nir。二叉树结构分类器可以把一个复杂的多类别分类问题转化为多级多个两类问题来解决,在每个非终止节点ni都把样本集分成左右两个子集。3.10 决策树简介分成的每一部分仍然可能包含多个类别的样本,可以把每一部分再分成两个子集,如此下去,直至分成的每一部分只包含同一类别的样本,或某一类样本占优势为止。二叉树结构分类器概念简单、直观、便于解释,而且在各个节点上可以选择不同的特征和采用不同的决策规则,因此设计方法灵活多样,便于利用先验知识来获得一个较好的分类器。3.10 决策树简介一个二叉决策树的例子3.10 决策树简介一个二叉决策树的例子在此例中,每个节
28、点只选择一个特征,并给出相应的决策阈值。对于一个未知样本x,只要从根节点到叶结点,顺序把x的某个特征观测值与相应的阈值相比较,就可做出决策,把x分到相应的分支,最后分到合适的类别中去。3.10 决策树简介在设计一个决策树时,主要应解决以下几个问题:选择一个合适的树结构,即合理安排树的节点和分支;确定在每个非终止节点上要使用的特征;在每个非终止节点上选择合适的决策规则。上述三个问题解决了,决策树的设计也就完成了。二叉树的设计也不例外。3.10 决策树简介把一个多类别分类问题转化为两类问题的形式是多种多样的,因此,对应的二叉树的结构也是各不相同的。通常的目的是要找一个最优的决策树。一个性能良好的决策树结构应该具有小的错误率和低的决策代价。但是由于很难把错误率的解析表达式和树的结构联系起来,而且在每个节点上所采用的决策规则也仅仅是在该节点上所采用的特征观测值的函数,因此,即使每个节点上的性能都达到最优,也不能说整个决策树的性能达到最优。3.10 决策树简介在实际问题中,人们往往提出其它一些优化准则,例如极小化整个树的节点数目,或从根节点到叶结点的最大路经长度,或从根节点到叶结点的平均路经长度等,然后采用动态规划的方法,力争设计出能满足某种准则的“最优”决策树。