《第四章特征提取和选择第一次课优秀课件.ppt》由会员分享,可在线阅读,更多相关《第四章特征提取和选择第一次课优秀课件.ppt(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章特征提取和选择第一次课第1页,本讲稿共56页u在第二、三章所讨论的分类方法与分类器设计中,都是在第二、三章所讨论的分类方法与分类器设计中,都是在在d维特征空间已经确定的前提下维特征空间已经确定的前提下进行的。因此讨论的进行的。因此讨论的分类器设分类器设计计问题是一个问题是一个选择什么准则、使用什么方法,将已确定的选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域维特征空间划分成决策域的问题。的问题。u对对分类器设计方法分类器设计方法的研究固然重要,但如何的研究固然重要,但如何确定合适的特征确定合适的特征空间空间是设计模式识别系统另一个十分重要、甚至更为关键的是设计模式识别系统
2、另一个十分重要、甚至更为关键的问题。问题。u如果如果所选用的特征空间能使同类物体分布具有紧致性所选用的特征空间能使同类物体分布具有紧致性,即各,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为类样本能分布在该特征空间中彼此分割开的区域内,这就为成功设计分类器提供良好的基础;如果不同类别的样本在该成功设计分类器提供良好的基础;如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。的准确性。学习指南学习指南 第2页,本讲稿共56页u这一章要讨论的问题就是这一章要讨论的问题就是特征空间如何设计和优化特征空间如何
3、设计和优化的问题。的问题。u对特征空间的改造和优化,主要的目的是降维对特征空间的改造和优化,主要的目的是降维,即把维数,即把维数高的特征空间改成维数低的特征空间,提高其某方面的性高的特征空间改成维数低的特征空间,提高其某方面的性能,降维主要有两种途径。能,降维主要有两种途径。一种是一种是删选删选掉一些次要的特征,问题在于如何确定特征的重要掉一些次要的特征,问题在于如何确定特征的重要性,以及如何删选。性,以及如何删选。另一种方法是使用另一种方法是使用变换变换的手段,在这里主要限定在线性变的手段,在这里主要限定在线性变换的方法上,通过变换来实现降维。换的方法上,通过变换来实现降维。第3页,本讲稿共
4、56页本章主要内容本章主要内容4.1 基本概念基本概念4.2 类的可分性判据类的可分性判据4.3 基于可分性判据的特征提取基于可分性判据的特征提取4.4 主分量分析(主分量分析(PCA)4.5 特征选择方法特征选择方法第4页,本讲稿共56页学习目的学习目的1.了了解解特特征征空空间间的的选选择择在在设设计计模模式式识识别别系系统统、解解决决模模式式识识别别具体问题中是至关重要的。具体问题中是至关重要的。2.掌掌握握对对特特征征空空间间进进行行优优化化的的两两种种基基本本方方法法,一一是是对对原原特特征征空空间间进进行行删删选选,即即特特征征选选择择;另另一一种种是是通通过过变变换换改改造造原原
5、特特征空间,即征空间,即特征提取特征提取。3.重重点点掌掌握握运运用用线线性性变变换换对对原原特特征征空空间间优优化化的的的的基基本本方方法法,进进一一步步深深入入理理解解模模式式识识别别处处理理问问题题的的基基本本方方法法确确定定准准则函数,并通过计算进行优化。则函数,并通过计算进行优化。第5页,本讲稿共56页课前思考题课前思考题 1什么叫特征空间?如果我们用颜色、尺寸、重量来衡量水什么叫特征空间?如果我们用颜色、尺寸、重量来衡量水果,构造的特征空间是几维空间?果,构造的特征空间是几维空间?2如果用颜色、尺寸与重量组成的特征空间来区分红苹果与如果用颜色、尺寸与重量组成的特征空间来区分红苹果与
6、梨,你认为这三种度量中的哪种最有效?为什么?能否想梨,你认为这三种度量中的哪种最有效?为什么?能否想像这两种水果在这个三维空间的分布?如果用这个特征空像这两种水果在这个三维空间的分布?如果用这个特征空间来区分红苹果与樱桃,你想像一下这两类水果在特征空间来区分红苹果与樱桃,你想像一下这两类水果在特征空间如何分布?能否对这两种情况设计更经济有效的特征空间如何分布?能否对这两种情况设计更经济有效的特征空间?间?第6页,本讲稿共56页3如果两类物体在一个二维特征空间如下图分布如果两类物体在一个二维特征空间如下图分布,能否用删除能否用删除其中任一维来优化特征空间?有没有什么方法能得到一个对其中任一维来优
7、化特征空间?有没有什么方法能得到一个对分类很有利的一维特征空间?分类很有利的一维特征空间?第7页,本讲稿共56页4.上题的答案可用下图上题的答案可用下图Y1与与Y2组成的空间表示?你认为哪个组成的空间表示?你认为哪个分量可以删掉?分量可以删掉?5.你有没有办法将原在你有没有办法将原在X1、X2空间表示的数改成用空间表示的数改成用Y1、Y2空空间表示?间表示?第8页,本讲稿共56页4.1基基 本本 概概 念念第9页,本讲稿共56页一、一、特征的特点特征的特点 特征是用于描述模式性质的一种量,在模式识别特征是用于描述模式性质的一种量,在模式识别过程中过程中,特征应该满足以下条件特征应该满足以下条件
8、:(1)特征是可获取的。特征是可获取的。(2)类内稳定。类内稳定。(3)类间差异大于类内差异。类间差异大于类内差异。第10页,本讲稿共56页二、特征的类别二、特征的类别1.物理特征物理特征 直接、容易感知,设计模式识别系统时易被选用。直接、容易感知,设计模式识别系统时易被选用。如如为为了了描描述述指指定定班班级级中中的的某某个个学学生生,可可以以用用以以下下物物理理特特征征:性性别别、身身高高、胖胖瘦瘦、肤肤色色等等外外在在特特征征。物物理理特特征虽然容易感知征虽然容易感知,却未必能非常有效地表征分类对象。却未必能非常有效地表征分类对象。第11页,本讲稿共56页2.结构特征结构特征 比比物物理
9、理特特征征要要抽抽象象一一些些,但但仍仍比比较较容容易易感感知知,如如人人的的指指纹纹特特征征、人人脸脸的的五五官官结结构构信信息息等等,是是认认定定人人的的身身份份的的重要参数。重要参数。先先将将观观察察对对象象分分割割成成若若干干个个基基本本构构成成要要素素,再再确确定定基基本本要要素素间间的的相相互互连连接接关关系系,以以此此表表达达复复杂杂的的图图像像图形信息。图形信息。结结构构信信息息对对对对象象的的尺尺寸寸往往往往不不太太敏敏感感,如如汉汉字字识识别别时时,识别系统对汉字大小不敏感识别系统对汉字大小不敏感,只对只对笔划结构笔划结构信息敏感。信息敏感。第12页,本讲稿共56页3.数字
10、特征数字特征为为了了表表征征观观察察对对象象而而设设立立的的特特征征,如如给给每每个个学学生生设设立立一一个个学学号号,作作为为标标志志每每个个学学生生的的特特征征。由由于于学学号号是是人人为为设设定定的的,可可以以保保证证唯唯一一性性,但但这这种种特特征征是是抽抽象象的的,不不容易被人感知。容易被人感知。第13页,本讲稿共56页u对原有特征空间进行处理与加工,使之较原特征空间优对原有特征空间进行处理与加工,使之较原特征空间优化。化。u优化是为了降维优化是为了降维,要求既降低特征的维数,又能,要求既降低特征的维数,又能提高分类器的性能。优化后的特征空间应该更有提高分类器的性能。优化后的特征空间
11、应该更有利于后续的分类计算。利于后续的分类计算。三、特征形成、提取和选择三、特征形成、提取和选择第14页,本讲稿共56页特征形成特征形成:u在设计一个具体的模式识别系统时在设计一个具体的模式识别系统时,往往是先接触一些训练往往是先接触一些训练样本样本,研究模式类所包含的特征信息研究模式类所包含的特征信息,并给出相应的表述方并给出相应的表述方法。法。u这一阶段的主要目标是获取尽可能多的表述特征。在这些特这一阶段的主要目标是获取尽可能多的表述特征。在这些特征中征中,有些可能满足类内稳定、类间离散的要求有些可能满足类内稳定、类间离散的要求,有的则可能有的则可能不满足不满足,不能作为分类的依据。不能作
12、为分类的依据。u根据样例分析得到一组表述观察对象的特征值根据样例分析得到一组表述观察对象的特征值,而不论特征而不论特征是否实用是否实用,称这一步为称这一步为特征形成特征形成,得到的特征称为得到的特征称为原始特征原始特征。u对原始特征集进行处理对原始特征集进行处理,去除对分类作用不大的特征去除对分类作用不大的特征,从而可从而可以在保证性能的条件下以在保证性能的条件下,通过降低特征空间的维数来减少分通过降低特征空间的维数来减少分类方法的复杂度。类方法的复杂度。第15页,本讲稿共56页特征提取:特征提取:u 通过映射通过映射(或变换或变换)的方法获取最有效的特征的方法获取最有效的特征,实现特征空间实
13、现特征空间的维数从高维到低维的变换。的维数从高维到低维的变换。经过映射后的特征称为经过映射后的特征称为二次特二次特征征,它们是原始特征的某种组合它们是原始特征的某种组合,最常用的是最常用的是线性组合线性组合。u 需要注意需要注意,特征提取一定要进行数学变换特征提取一定要进行数学变换,但数学变换未必但数学变换未必就是特征提取。就是特征提取。u 所谓所谓特征提取在广义上就是指一种变换特征提取在广义上就是指一种变换,若,若X是测量空间,是测量空间,Y是特征空间,则是特征空间,则称称变换变换 A:X Y 为特征提取器。为特征提取器。第16页,本讲稿共56页特征选择:特征选择:u 从一组特征中挑选出对分
14、类最有利的特征,达到降低特征从一组特征中挑选出对分类最有利的特征,达到降低特征空间维数的目的。空间维数的目的。第17页,本讲稿共56页u 假设已有假设已有n 维特征向量空间维特征向量空间 u 特征选择特征选择是指删去原来是指删去原来n维特征空间中的维特征空间中的一些特征描述量一些特征描述量,得到精简后的特征空间。得到精简后的特征空间。在这个特征空间中,样本由在这个特征空间中,样本由d维的特征向量维的特征向量描述。描述。u 由于由于y是是x的一个子集,因此每个分量的一个子集,因此每个分量yi必必然能在原特征集中找到其对应的特征分量。然能在原特征集中找到其对应的特征分量。u 特征提取特征提取是找到
15、一个映射关系,使新样是找到一个映射关系,使新样本特征描述维数比原维数降低。本特征描述维数比原维数降低。u 其中每个分量其中每个分量yi是原特征向量的函数。是原特征向量的函数。第18页,本讲稿共56页 思考题思考题第19页,本讲稿共56页特特征征提提取取和和特特征征选选择择的的主主要要目目的的是是在在不不降降低低或或很很少少降降低低分分类类结结果果性性能能的的情情况况下下,降降低低特特征征空空间间的的维维数数,其其主主要要作作用用在在于于:(1)简简化化计计算算。特特征征空空间间的的维维数数越越高高,需需占占用用的的计计算算机机资资源越多源越多,设计和计算也就越复杂。设计和计算也就越复杂。(2)
16、简简化化特特征征空空间间结结构构。由由于于特特征征提提取取和和选选择择是是去去除除类类间间差差别别小小的的特特征征,保保留留类类间间差差别别大大的的特特征征,因因此此,在在特特征征空空间间中中,每每类类所所占占据据的的子子空空间间结结构构可可分分离离性性更更强强,从从而而也也简简化化了了类类间间分分界面形状的复杂度。界面形状的复杂度。四、特征提取和选择的作用四、特征提取和选择的作用第20页,本讲稿共56页 4.2 类的可分性判据类的可分性判据第21页,本讲稿共56页n特征选择与特征提取的任务是降低特征空间的维特征选择与特征提取的任务是降低特征空间的维数,求出一组对分类最有效的特征数,求出一组对
17、分类最有效的特征(所谓最有效(所谓最有效是指在特征维数减少到同等水平时,其分类性能是指在特征维数减少到同等水平时,其分类性能最佳)最佳)。n高维特征变为低维特征的方法很多,究竟哪种方高维特征变为低维特征的方法很多,究竟哪种方法最有效,需要通过某种标准来衡量,法最有效,需要通过某种标准来衡量,在数学上在数学上就要构造某种准则就要构造某种准则(或判据或判据),这种用以定量检验分,这种用以定量检验分类性能的准则称为类性能的准则称为类别可分离性判据类别可分离性判据。n类别可分离性判据,用来检验不同的特征组合对类别可分离性判据,用来检验不同的特征组合对分类性能好坏的影响,并用来导出特征选择与特分类性能好
18、坏的影响,并用来导出特征选择与特征提取的方法。征提取的方法。第22页,本讲稿共56页(1)与与错误概率错误概率(或错误概率的上、或错误概率的上、下界下界)有单调关系有单调关系,使判据的极大值对应错误概率的最小值或较小值。使判据的极大值对应错误概率的最小值或较小值。(2)非负性非负性,即即其中其中,Jij表示第表示第i,j两类间的可分性判据。两类间的可分性判据。(3)对称性对称性,即即 Jij=Jji可分性判据满足以下要求可分性判据满足以下要求:第23页,本讲稿共56页(4)当特征独立时当特征独立时,判据应具有可加性判据应具有可加性,即即(5)单调性。单调性。对于特征向量而言对于特征向量而言,加
19、入新的特征分量不会减少判加入新的特征分量不会减少判据值据值,即即 第24页,本讲稿共56页4.2.1 基于距离的可分性判据基于距离的可分性判据u基于距离度量是人们常用来进行分类的重要依据,一般情况下基于距离度量是人们常用来进行分类的重要依据,一般情况下同类物体内各样本由于具有共性,因此同类物体内各样本由于具有共性,因此类内样本间距离应比跨类内样本间距离应比跨类样本间距离小类样本间距离小。因此。因此,利用类间距离构造类别的可分性判据利用类间距离构造类别的可分性判据是可行的。是可行的。u为了有利于分类为了有利于分类,总是希望不同类之间的距离大一些总是希望不同类之间的距离大一些,而同类的而同类的样本
20、较集中样本较集中,这样类别的可分性才越好。这样类别的可分性才越好。uFisher准则的基本原理是使类间距离尽可能大同时又保持类内准则的基本原理是使类间距离尽可能大同时又保持类内距离较小。基于距离的可分性判据的实质是距离较小。基于距离的可分性判据的实质是Fisher准则的延伸准则的延伸,即即综合考虑不同类样本的类内聚集程度与类间的离散程度这两综合考虑不同类样本的类内聚集程度与类间的离散程度这两个因素个因素。同样在特征选择与特征提取中也使用类似的原理,称。同样在特征选择与特征提取中也使用类似的原理,称为为基于距离的可分性判据基于距离的可分性判据。第25页,本讲稿共56页1.两类之间的距离两类之间的
21、距离设两类为设两类为i、j,分别有分别有Ni、Nj个样本个样本,即即 两类间的距离两类间的距离 :其中其中,D(xir,xjs)为向量为向量xir、xjs间的距离。间的距离。类间距离也具有对类间距离也具有对称性。称性。第26页,本讲稿共56页常用的常用的点间距离点间距离有以下几种有以下几种:(1)欧几里德欧几里德(Euclidean)距离距离:其中其中,d为向量的维数。为向量的维数。(2)加权欧几里德距离加权欧几里德距离:第27页,本讲稿共56页(3)汉明汉明(Hamming)距离距离:(4)马氏马氏(Mahalanobis)距离距离:其中其中,M为一正定阵为一正定阵,wij为矩阵为矩阵M-1
22、的元素。的元素。第28页,本讲稿共56页(5)明可夫斯基明可夫斯基(Minkowsky)距离距离:其中其中:当当q=1时时,D(x,y)为汉氏距离为汉氏距离;当当q=2时时,D(x,y)为欧氏距离。为欧氏距离。(6)切比雪夫切比雪夫(Chebyshev)距离距离:第29页,本讲稿共56页2.各类样本之间的平均距离各类样本之间的平均距离设设N个样本分别属于个样本分别属于m类类,i=xik,k=1,2,Ni,i=1,2,m,各类之间的平均距离为各类之间的平均距离为(5-14)其中其中,是先验概率是先验概率P(i)的估计的估计,即即 N为样本总数为样本总数,即即 第30页,本讲稿共56页 若点间距离
23、取欧氏距离的平方若点间距离取欧氏距离的平方,以表示第以表示第i类的向量平均类的向量平均值值,以表示的统计平均值以表示的统计平均值,即即(5-15)(5-16)(5-17)则式则式(5-14)可化为可化为(5-18)第31页,本讲稿共56页且有关系式且有关系式 令令则则分别是利用有限样本集得到的类均值分别是利用有限样本集得到的类均值i、总体均值、总体均值、类内离散度矩阵类内离散度矩阵Sw和类间离散度矩阵和类间离散度矩阵Sb的估计值。的估计值。第32页,本讲稿共56页类均值类均值i、总体均值总体均值、类内离散度矩阵类内离散度矩阵Sw和类间离散度矩和类间离散度矩阵阵Sb 第33页,本讲稿共56页 为
24、了有效地分类,为了有效地分类,判据值越大越好判据值越大越好。基于距离的可分性判据虽然简单直观,但只是对于基于距离的可分性判据虽然简单直观,但只是对于类间类间无重叠的情况效果较好无重叠的情况效果较好,若类间存在重叠,则效果会受到影,若类间存在重叠,则效果会受到影响。响。为了使所使用的特征能够有效地进行分类为了使所使用的特征能够有效地进行分类,我们希望我们希望类类间离散度尽量大间离散度尽量大,同时类内离散度尽量小同时类内离散度尽量小,从直观上看可以构从直观上看可以构造下面各种判据造下面各种判据:第34页,本讲稿共56页4.2.2 基于概率密度函数的可分性判据基于概率密度函数的可分性判据u样本在特征
25、空间的分布距离作为特征提取的依据样本在特征空间的分布距离作为特征提取的依据优点:优点:原理直观,计算简便原理直观,计算简便缺点:缺点:没有考虑概率分布,因此当不同类样本在特征空间中没有考虑概率分布,因此当不同类样本在特征空间中有部分交迭分布时,简单地按距离划分,无法表明与错误概有部分交迭分布时,简单地按距离划分,无法表明与错误概率之间的联系。率之间的联系。u依据不同类别类分布概率密度函数来构造判据、优化特征空依据不同类别类分布概率密度函数来构造判据、优化特征空间。间。不同类别聚集在特征空间的不同区域,它们重迭的程度越低,不同类别聚集在特征空间的不同区域,它们重迭的程度越低,越有利于分类。越有利
26、于分类。第35页,本讲稿共56页基于概率密度函数的可分性判据主要考虑的是两类的概率基于概率密度函数的可分性判据主要考虑的是两类的概率分布情况。分布情况。考虑两种极端情况考虑两种极端情况,图图(a)中两类是中两类是完全可分完全可分的的,图图(b)中两类是中两类是完全不可分完全不可分的的,两类概率密度函数的重叠程度两类概率密度函数的重叠程度反映了两类的可分性反映了两类的可分性,因此因此,可以利用类条件概率密度函数构可以利用类条件概率密度函数构造可分性判据。造可分性判据。一维情况下两类类条件概率密度分布情况一维情况下两类类条件概率密度分布情况第36页,本讲稿共56页 基于概率密度函数的可分性判据:用
27、各种方式来基于概率密度函数的可分性判据:用各种方式来度量两类概率密度函数之间重迭的程度。度量两类概率密度函数之间重迭的程度。u 用用p(x|1)和和 p(x|2)之间的乘法来计算类和类间的重迭程之间的乘法来计算类和类间的重迭程度,像度,像巴氏(巴氏(Bhattacharyya)距离)距离和和切诺夫(切诺夫(Chernoff)界)界限距离限距离;u 用两者间的比值,称为用两者间的比值,称为散度散度。第37页,本讲稿共56页基于类条件概率密度函数基于类条件概率密度函数p(x|1)、p(x|2)的可分的可分性判据性判据Jp应满足以下四个条件应满足以下四个条件:(1)非负性非负性:(5-32)(2)对
28、称性对称性:(5-33)(3)最大值最大值:当两类完全可分时当两类完全可分时,Jp具有最大值。具有最大值。(4)最小值最小值:当两类完全不可分时当两类完全不可分时,Jp具有最小值具有最小值,即即Jp=0。第38页,本讲稿共56页三种典型的基于概率密度函数的可分性判据三种典型的基于概率密度函数的可分性判据 1.巴氏巴氏(Bhattacharyya)距离距离Bhattacharyya距离的定义式为距离的定义式为(5-34)它与最小错误概率判决准则的错误概率它与最小错误概率判决准则的错误概率Pe具有如下关系具有如下关系:(5-35)第39页,本讲稿共56页证明过程如下证明过程如下:第40页,本讲稿共
29、56页2.切诺夫切诺夫(Chernoff)界限距离界限距离Chernoff界限距离的定义式为界限距离的定义式为(5-36)由定义式可见由定义式可见,当当s=1/2时时,Chernoff界限距离就是界限距离就是Bhattacharyya距离。距离。JB是是JC的特例。的特例。第41页,本讲稿共56页一般情况下一般情况下Jc的计算比较困难的计算比较困难,当当1、的类条件概率的类条件概率密度函数分别为正态分布密度函数密度函数分别为正态分布密度函数(i,i)和和(j,j)时时,可以推导出可以推导出第42页,本讲稿共56页3.散度散度 对于两类的分类问题对于两类的分类问题,最大后验概率判决准则可以最大后
30、验概率判决准则可以通过似然通过似然比和某个阈值的比较比和某个阈值的比较实现实现,似然比是分类的一个重要的度量。似然比是分类的一个重要的度量。u p(x|1)/p(x|2)越大越大,对类对类1来讲可分性越好来讲可分性越好,该比值反映了该比值反映了两类类条件概率密度函数的重叠程度。两类类条件概率密度函数的重叠程度。最大后验概率判决准则:最大后验概率判决准则:最小风险判决准则:最小风险判决准则:第43页,本讲稿共56页u 为了保证为了保证概率密度函数完全重叠时判据为零概率密度函数完全重叠时判据为零,应对该应对该比比值值p(x|1)/p(x|2)取对数取对数。对对两两类问题类问题,其,其对对数似然比数
31、似然比为为 如果对某个如果对某个x,p(x|1)=p(x|2),则,则l12=0;反之若两者;反之若两者差异越大,则差异越大,则l12的绝对值也大。的绝对值也大。第44页,本讲稿共56页定义类定义类1相对于类相对于类2的平均可分性信息为的平均可分性信息为 类类2相对于类相对于类1的平均可分性信息为的平均可分性信息为 对于对于1和和2两类总的平均可分性信息称为散度两类总的平均可分性信息称为散度,其定义为其定义为 以上只是对某一以上只是对某一x值而言,又因为值而言,又因为x具有不同的值,为了对整个具有不同的值,为了对整个特征空间概率分布的差异程度作出评价,应该考虑取均值。特征空间概率分布的差异程度
32、作出评价,应该考虑取均值。第45页,本讲稿共56页4.3 基于可分性判据的特征提取基于可分性判据的特征提取第46页,本讲稿共56页 特征提取作为一种特征空间维数压缩方法特征提取作为一种特征空间维数压缩方法,其主要特点其主要特点在于通过变换的方法实现对原始特征的计算在于通过变换的方法实现对原始特征的计算,使变换后的二次特使变换后的二次特征可以去掉一些分量。征可以去掉一些分量。从数学上看从数学上看,任何定义在原始特征空任何定义在原始特征空间上的任何数学计算都是一种变换。本节主要讨论线性变间上的任何数学计算都是一种变换。本节主要讨论线性变换。换。第47页,本讲稿共56页基于可分性判据的特征提取基于可
33、分性判据的特征提取方法的方法的基本思路基本思路如下如下:对于对于n个原始特征构成的特征向量个原始特征构成的特征向量x=(x1,x2,xn)T,特征提特征提取就是对取就是对x作线性变换作线性变换,产生产生d维向量维向量y=(y1,y2,yd)T,dn,即即 y=wTx。式中式中,w=wnd称为特征提取矩阵或简称变换矩称为特征提取矩阵或简称变换矩阵阵。基于可分性判据的特征提取就是基于可分性判据的特征提取就是在一定的可分性判据下在一定的可分性判据下,如如何求最优的变换矩阵何求最优的变换矩阵w。第48页,本讲稿共56页一、基于距离可分性判据的特征提取方法一、基于距离可分性判据的特征提取方法 基于距离的
34、可分性判据反映了一个基本思想基于距离的可分性判据反映了一个基本思想,即即类内距类内距离小和类间距离大离小和类间距离大的要求。的要求。设设Sw和和Sb为原始特征空间的类内离散度矩阵和类间离为原始特征空间的类内离散度矩阵和类间离散度矩阵散度矩阵,S*w和和S*b为变换后特征空间的类内离散度矩阵和为变换后特征空间的类内离散度矩阵和类间离散度矩阵类间离散度矩阵,W为变换矩阵。为变换矩阵。则有则有在变换域中在变换域中,为了求使为了求使J2(W)最大的变换最大的变换,就要求就要求J2(W)对对W的各分量的各分量的偏导数为零。的偏导数为零。第49页,本讲稿共56页n求解变换矩阵的解析解法求解变换矩阵的解析解
35、法 设矩阵设矩阵S-1wSb的特征值为的特征值为1,2,n,按大小顺序排列为按大小顺序排列为 相应的正交化、相应的正交化、归一化的特征向量为归一化的特征向量为 选前选前d个特征向量作为变换矩阵个特征向量作为变换矩阵:第50页,本讲稿共56页二、基于概率密度函数可分性判据的特征提取方法二、基于概率密度函数可分性判据的特征提取方法多元正态分布的两类问题多元正态分布的两类问题 设设n维原始特征向量维原始特征向量x经线性变换后的二次特征向量经线性变换后的二次特征向量为为y,即即在映射后的特征空间内建立某种准则函数在映射后的特征空间内建立某种准则函数,使得它为变换矩阵使得它为变换矩阵W 的函数的函数:其
36、中其中,Jc为基于概率密度函数的可分性判据为基于概率密度函数的可分性判据,如前面介绍的如前面介绍的巴氏距离和巴氏距离和Chernoff距离等可分性判据。距离等可分性判据。第51页,本讲稿共56页 通过求解判据的极值点即可得到使映射后的特征组可分性通过求解判据的极值点即可得到使映射后的特征组可分性最好的变换矩阵。在最好的变换矩阵。在Jc(W)可微的情况下可微的情况下,就是求解偏微分就是求解偏微分方程方程:当两类都是正态分布时当两类都是正态分布时,两类的分布函数分别为两类的分布函数分别为 基于基于Chernoff距离的特征提取方法距离的特征提取方法第52页,本讲稿共56页变换后的判据变换后的判据J
37、c是是W的函数的函数,记为记为Jc(W)式中式中,M=(1-2)(1-2)T。第53页,本讲稿共56页 因为因为Jc(W)是标量是标量,可以可以对对W的各个分量求偏导的各个分量求偏导,并令并令其为零其为零,简化后的矩阵方程为简化后的矩阵方程为上式是上式是W的非线性函数的非线性函数,只能采用数值优化的方法得到近似只能采用数值优化的方法得到近似最优解。最优解。第54页,本讲稿共56页n两种特殊情况下求解最优变换矩阵的解法两种特殊情况下求解最优变换矩阵的解法 1 1)1 1=2 2=,1 12 2最优特征提取矩阵是由最优特征提取矩阵是由-1M矩阵的特征向量构成的。矩阵的特征向量构成的。矩阵矩阵M的秩为的秩为1,故故-1M只有一个非零特征值只有一个非零特征值,对应于特对应于特征值为零的那些特征向量对征值为零的那些特征向量对Jc(W)没有影响没有影响,因此可以舍去因此可以舍去,所以最优变换所以最优变换W是是-1M的非零特征值对应的特征向量的非零特征值对应的特征向量v,即即 W=W=v=-1-1(1 1-2 2)第55页,本讲稿共56页 2)12,1=2最优特征矩阵是由最优特征矩阵是由-121满足下列关系满足下列关系:的前的前d个特征值所对应的特征向量构成的个特征值所对应的特征向量构成的,此时此时Jc(W)取最取最大值。大值。第56页,本讲稿共56页