特征选择和提取特征提取.ppt-淘文阁

资源描述

《特征选择和提取特征提取.ppt》由会员分享，可在线阅读，更多相关《特征选择和提取特征提取.ppt（91页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、关于特征的选择与提取特征提取第一张，PPT共九十一页，创作于2022年6月学习指南学习指南 n前面章节讨论的问题n主要讨论模式识别的重要概念 n贝叶斯分类器、线性分类器、非线性分类器、KNN等 n设计分类器时的讨论问题n在d维特征空间已经确定的前提下，讨论分类方法与分类器设计n即：对要分类的样本怎样描述这个问题是已经确定的第二张，PPT共九十一页，创作于2022年6月学习指南学习指南 n前面章节讨论的问题n例如对苹果与梨的划分问题n我们使用尺寸、重量和颜色三种度量来描述n这种度量方法是已经确定好的n在这种条件下研究用线性分类器好还是非线性分类器好，以及这些分类器的其它设计问题第三张，PPT共

2、九十一页，创作于2022年6月学习指南学习指南 n本章讨论的问题n对已有的特征空间进行改造,着重于研究对样本究竟用什么样的度量方法更好n譬如用三种度量来描述苹果与梨n那么是否运用这三种度量是最有效的呢？n颜色：n这一个指标对区分红苹果与梨很有效n区分黄苹果与梨就会困难得多即，这个指标就不很有效了第四张，PPT共九十一页，创作于2022年6月学习指南学习指南 n本章讨论的问题n使用什么样的特征描述事物，也就是说使用什么样的特征空间是个很重要的问题n由于对特征空间进行改造目的在于提高其某方面的性能，因此又称特征的优化问题第五张，PPT共九十一页，创作于2022年6月学习指南学习指南 n降维主要

3、有两种途径 n对特征空间的改造、优化、主要的目的是降维，即把维数高的特征空间改成维数低的特征空间，降维主要有两种途径 n特征的选择:一种是删选掉一些次要的特征n问题在于如何确定特征的重要性，以及如何删选n特征的提取:另一种方法是使用变换的手段，在这里主要限定在线性变换的方法上，通过变换来实现降维第六张，PPT共九十一页，创作于2022年6月本章重点本章重点 n1弄清对特征空间进行优化的含义n2对特征空间进行优化的两种基本方法特征选择与特征的组合优化n3对特征空间进行优化的一些常用判据n4利用线段变换进行特征空间优化的基本方法，第七张，PPT共九十一页，创作于2022年6月本本章章知知识识点点

4、第八张，PPT共九十一页，创作于2022年6月8.1 基本概念n已经讨论的问题n是在d维特征空间已经确定的前提下进行的n讨论的分类器设计问题是:选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题n另一个重要问题n如何确定合适的特征空间 n如何描述每个样本和每个模式第九张，PPT共九十一页，创作于2022年6月基本概念第十张，PPT共九十一页，创作于2022年6月基本概念第十一张，PPT共九十一页，创作于2022年6月基本概念第十二张，PPT共九十一页，创作于2022年6月基本概念n问题的重要性n如果所选用的特征空间能使同类物体分布具有紧致性，即各类样本能分布在该特征空间中彼此

5、分割开的区域内，这就为分类器设计成功提供良好的基础。n反之，如果不同类别的样本在该特征空间中混杂在一起，再好的设计方法也无法提高分类器的准确性。第十三张，PPT共九十一页，创作于2022年6月基本概念n三个不同的层次描述n1.物理量的获取与转换 n指用什么样的传感器获取电信号n摄取景物则要用摄像机 n文字与数字识别首先要用扫描仪等设备 n手写体文字所用传感器与印刷体文字也很可能不同 n这些都属于物理量的获取，并且已转换成电信号，为计算机分析打下了基础 n对从传感器中得到的信号，可称之为原始信息n它要经过加工、处理才能得到对模式分类更加有用的信号第十四张，PPT共九十一页，创作于2022年6月基

6、本概念n三个不同的层次描述n2描述事物方法的选择与设计n在得到了原始信息之后，要对它进一步加工，以获取对分类最有效的信息 n这部分信息必须对原始信息进行加工，而设计所要信息的形式是十分关键的 n例如:对阿拉伯数字的识别可以提出各种不同的想法*分析从框架的左边框到数字之间的距离变化反映了不同数字的不同形状，这可以用来作为数字分类的依据*强调分析不同截面的信号，如在框架的若干部位沿不同方向截取截面分析从背景到字，以及从字到背景转换的情况第十五张，PPT共九十一页，创作于2022年6月基本概念阿拉伯数字的识别可以提出各种不同的想法第十六张，PPT共九十一页，创作于2022年6月基本概念n三个不同的层

7、次描述n2描述事物方法的选择与设计n设计对事物的描述方法是充分发挥设计者智慧的过程 n这个层次的工作往往因事物而易，与设计者本人的知识结构也有关 n这是一个目前还无法自动进行的过程 n这个层次的工作是最关键的，但因为太缺乏共性，也不是本章讨论的内容第十七张，PPT共九十一页，创作于2022年6月基本概念n三个不同的层次描述n3.特征空间的优化n这个层次的工作发生在已有了特征的描述方法之后，也就是已有了一个初始的特征空间，如何对它进行改造与优化的问题n所谓优化是要求既降低特征的维数，又能提高分类器的性能，这就是本章着重讨论的问题n这里讨论的是一些不同模式识别系统中具有共性的问题，特征选择与特征

8、提取特征选择与特征提取第十八张，PPT共九十一页，创作于2022年6月基本概念n例用RGB颜色空间和HSI颜色空间 nRGB和HSI是两种常用的颜色空间，n虽然它们描述颜色的范围是一样的，n也有确定的转换关系，n但是用这两种不同的特征描述图像，n对以后的识别工作会有很大影响第十九张，PPT共九十一页，创作于2022年6月基本概念第二十张，PPT共九十一页，创作于2022年6月基本概念n特征选择和特征提取n对特征空间进行优化有两种基本方法n一种为特征选择，n一种为特征提取n两者区别n特征选择:删掉部分特征n特征提取:通过一种映射，也就是说新的每一个特征是原有特征的一个函数第二十一张，PP

9、T共九十一页，创作于2022年6月基本概念n特征选择和特征提取n两者区别假设已有D维特征向量空间，特征选择:样本由d维的特征向量描述：dD由于X只是Y的一个子集，因此每个分量xi必然能在原特征集中找到其对应的描述量xiyj第二十二张，PPT共九十一页，创作于2022年6月基本概念n特征选择和特征提取n两者区别假设已有D维特征向量空间，特征提取:找到一个映射关系：A:YX使新样本特征描述维数比原维数降低。其中每个分量xi是原特征向量各分量的函数，即第二十三张，PPT共九十一页，创作于2022年6月基本概念n特征选择和特征提取n两者区别n因此这两种降维的基本方法是不同的。n在实际应用中可将两者结合

10、起来使用，比如先进特征提取，然后再进一步选择其中一部分，或反过来。第二十四张，PPT共九十一页，创作于2022年6月8.2 类别可分离性判据n为什么需要类别可分离性判据n特征选择与特征提取的任务是求出一组对分类最有效的特征 n所谓有效是指在特征维数减少到同等水平时，其分类性能最佳 n因此需要有定量分析比较的方法,判断所得到的特征维数及所使用特征是否对分类最有利n这种用以定量检验分类性能的准则称为类别可分离性判据类别可分离性判据第二十五张，PPT共九十一页，创作于2022年6月类别可分离性判据n为什么需要类别可分离性判据n一般说来分类器最基本的性能评估是其分类的错误率 n如果能用反映错误率大

11、小的准则，在理论上是最合适的 n对错误率的计算是极其复杂的，以至于很难构筑直接基于错误率的判据 n为此人们设法从另一些更直观的方法出发，设计出一些准则，用来检验不同的特征组合对分类性能好坏的影响，甚至用来导出特征选择与特征提取的方法这些准则就是类别可分离性判据第二十六张，PPT共九十一页，创作于2022年6月类别可分离性判据n类别可分离性判据的种类n基于距离度量的可分性判据 n基于概率分布的可分性判据等第二十七张，PPT共九十一页，创作于2022年6月8.2.1基于距离的可分性判据 n基于距离的可分性判据 n基于距离度量是人们常用来进行分类的重要依据n一般情况下同类物体在特征空间呈聚类状态

12、，即从总体上说同类物体内各样本由于具有共性n因此类内样本间距离应比跨类样本间距离小nFisher准则正是以使类间距离尽可能大同时又保持类内距离较小这一种原理为基础的n同样在特征选择与特征提取中也使用类似的原理，这一类被称为基于距离的可分性判据。第二十八张，PPT共九十一页，创作于2022年6月基于距离的可分性判据n基于距离的可分性判据n在讨论Fisher准则时曾用过两个描述离散度的矩阵一个是类间离散矩阵Sb另一个是类内离散度矩阵SWSWS1+S2第二十九张，PPT共九十一页，创作于2022年6月基于距离的可分性判据n基于距离的可分性判据n如果推广至c类别情况其中为所有样本的总均值向量，Pi

13、表示各类别的先验概率，Ei表示i类的期望符号。第三十张，PPT共九十一页，创作于2022年6月基于距离的可分性判据n1 计算特征向量间平均距离的判据该式可写成在欧氏距离情况下有第三十一张，PPT共九十一页，创作于2022年6月基于距离的可分性判据n1 计算特征向量间平均距离的判据利用均值向量与总均值向量，有第三十二张，PPT共九十一页，创作于2022年6月基于距离的可分性判据n2 考虑类内类间欧氏距离的其它判据n判据Jd(X)是计算特征向量的总平均距离n以下一些判据则基于使类间离散度尽量大，类内离散度尽量小的考虑而提出：第三十三张，PPT共九十一页，创作于2022年6月8.2.2 基于概率分布

14、的可分性判据 n基于概率分布的可分性判据 n上一节讨论的是样本在特征空间的分布距离作为特征提取的依据。n该种原理直观，计算简便。n但是这种原理没有考虑概率分布，因此当不同类样本中有部分在特征空间中交迭分布时，简单地按距离划分，无法表明与错误概率之间的联系。n基于概率分布的可分性判据则依据如下观察到的现象。第三十四张，PPT共九十一页，创作于2022年6月8.2.2 基于概率分布的可分性判据 n基于概率分布的可分性判据观察现象:不考虑各类的先验概率，或假设两类样本的先验概率相等第三十五张，PPT共九十一页，创作于2022年6月基于概率分布的可分性判据n基于概率分布的可分性判据观察现象n如果两

15、类条件概率分布互不交迭，即对p(X|2)0处都有p(X|1)0，则这两类就完全可分；n另一种极端情况是对所有X都有p(X|1)p(X|2)，则两类就完全不可分。第三十六张，PPT共九十一页，创作于2022年6月基于概率分布的可分性判据n基于概率分布的可分性判据 n因此人们设计出与概率分布交迭程度有关的距离度量方法，这些距离Jp有以下几个共同点：n1.Jp是非负，即Jp0n2.当两类完全不交迭时Jp达到其最大值n3.当两类分布密度相同时，Jp0这种函数的一般式可表示为：第三十七张，PPT共九十一页，创作于2022年6月基于概率分布的可分性判据n一些常用的概率距离度量nBhattacharyya距

16、离和Chernoff界限 Bhattacharyya距离的定义用下式表示Chernoff界限的定义与其相似，为因此JB是JC的一个特例第三十八张，PPT共九十一页，创作于2022年6月基于概率分布的可分性判据n一些常用的概率距离度量n散度另一种常用的基于概率距离度量的判据是利用似然比或对数似然比。对两类问题，其对数似然比为如果对某个X，则,反之若两者差异越大，则的绝对值也大。第三十九张，PPT共九十一页，创作于2022年6月基于概率分布的可分性判据n一些常用的概率距离度量n散度以上只是对某一X值而言，为了对整个特征空间概率分布的差异程度作出评价，将对wi类及对wj的可分性信息分别定义为第四十张

17、，PPT共九十一页，创作于2022年6月基于概率分布的可分性判据n一些常用的概率距离度量n散度而总的平均可分信息则可表示成第四十一张，PPT共九十一页，创作于2022年6月8.2.3基于熵函数的可分性判据n我们知道一个样本不同类的后验概率是贝叶斯决策的依据n因此在特征空间的任何一点，如果它对不同类别的后验概率差别很大，则为分类提供了很明确的信息n 而Shannon信息论定义的熵就可以用来对可分类性作出评价n 故这方面可分性判据的定义称之为基于熵函数的可分性判据第五十张，PPT共九十一页，创作于2022年6月基于熵函数的可分性判据n基于熵函数的可分性判据n分析如果对某些特征，各类后验概率都相等，

18、即此时这也就是错误率最大的情况。第五十一张，PPT共九十一页，创作于2022年6月基于熵函数的可分性判据n基于熵函数的可分性判据n分析考虑另一极端，假设能有一组特征使得那末此时的X肯定可划分为i，而错误率为零由此可看出，后验概率越集中，错误概率就越小反之后验概率分布越平缓，即接近均匀分布，则分类错误概率就越大第五十二张，PPT共九十一页，创作于2022年6月基于熵函数的可分性判据n基于熵函数的可分性判据n熵 n为了衡量后验概率分布的集中程度，可以借助于信息论中熵的概念，制订定量指标。nShannon熵为 n另一常用的平方熵第五十三张，PPT共九十一页，创作于2022年6月基于熵函数的可分性判据

19、n基于熵函数的可分性判据n两者共性 n1.熵为正且对称n即函数式内项的次序可以变换不影响熵的值；n2.如 n3.对任意的概率分布第五十四张，PPT共九十一页，创作于2022年6月8.3 特征提取n按欧氏距离度量的特征提取方法n按概率距离判据提取特征 n特征提取方法小结第五十五张，PPT共九十一页，创作于2022年6月8.3.1按欧氏距离度量的特征提取方按欧氏距离度量的特征提取方法法 n按欧氏距离度量的特征提取方法 n基于距离可分性判据的特征优化过程是通过一个线性变换实现n特征提取在这里意味着找到一个线性变换W,对原始特征向量Y=y1,，yDT实行映射变换W：YX，得到维数减少的向量X=x1

20、,，xdT，即W为Dd矩阵第五十六张，PPT共九十一页，创作于2022年6月按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法n欧氏距离的判据第五十七张，PPT共九十一页，创作于2022年6月按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法n利用W（Dd矩阵）线形变换后，希望变换后的特征向量能满足使某个准则函数达到极值的要求n使用J2判据进行特征提取n注意：如果对特征空间实行一个DD矩阵的非奇异线性变换，J2保持不变第五十八张，PPT共九十一页，创作于2022年6月按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法n例如n对原特征空间实行一DD线性变换A n令Sw,Sb为原

21、空间离散度矩阵nS*w,S*b为映射后的离散度矩阵，则：S*b=A Sb ATS*w=A Sw ATn经变换后的J2变为:J2*(A)=tr(A Sw AT)-1 A Sb AT=tr(AT)-1 Sw-1Sb AT=trSw-1Sb=J2(A)第五十九张，PPT共九十一页，创作于2022年6月按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法n使用J2判据进行特征提取n因而以下讨论的特征提取变换，只考虑是降维的n即用Dd矩阵(dD)进行变换n其目的是在维数d的条件下，使相应的判据为最大第六十张，PPT共九十一页，创作于2022年6月按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取

22、方法n使用J2判据进行特征提取n将J2判据表示成变换W的函数令Sw,Sb为原空间离散度矩阵，S*w,S*b为映射后的离散度矩阵:S*b=WT Sb WS*w=WT Sw W则经变换后的J2变为:J2(W)=tr(WT Sw W)-1 WT Sb W第六十一张，PPT共九十一页，创作于2022年6月按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法n使用J2判据进行特征提取n求使J2(W)最大的W解可利用特征值方法n对W的各分量求偏导数，并另其为零，可以确定W值。n结论:对J2，J2，J5来说,使判据达到最大的变换W如下:设矩阵Sw-1Sb的本征值为1，2 D，按大小顺序排列为:1 2 D

23、，第六十二张，PPT共九十一页，创作于2022年6月按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法n使用J2判据进行特征提取则选前d个本征值对应的本征向量作为W即:W=1，2 d此时:J2(W)=1+2+d第六十三张，PPT共九十一页，创作于2022年6月按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法n例协方差矩阵是：给定先验概率相等的两类，其均值向量分别为：求用J2判据的最优特征提取第六十四张，PPT共九十一页，创作于2022年6月按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法n例解：根据前面的分析，应先求再求此矩的特征矩阵今有混合均值类间离散度矩阵：第六十五

24、张，PPT共九十一页，创作于2022年6月按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法n例解：则类内离散度矩阵第六十六张，PPT共九十一页，创作于2022年6月按欧氏距离度量的特征提取方法按欧氏距离度量的特征提取方法n例解：需求的特征值矩阵的秩是1只有一个非零特征值解方程:得到因此利用W向量对原始的两维样本进行线性变换，得到新的一维分布，特征空间从两维降到一维，并满足J2判据。第六十七张，PPT共九十一页，创作于2022年6月8.3.3 特征提取方法小结n特征提取方法从其工作原理来看可以分成两大类n对样本在特征空间分布的距离度量n其基本思想是通过原有特征向量线性组合而成新的特征向量

25、n做到既降维，又能尽可能体现类间分离，类内聚集的原则第六十九张，PPT共九十一页，创作于2022年6月特征提取方法小结n对样本在特征空间分布的距离度量n在欧氏距离度量的条件下所提出的几种判据都是从这一点出发的第七十张，PPT共九十一页，创作于2022年6月特征提取方法小结n从概率分布的差异出发，制订出反映概率分布差异的判据，以此确定特征如何提取 n这类判据由于与错误率之间可能存在单调或上界关系等，因此从错误率角度考虑有一定的合理性 n但是使用这种方法需要有概率分布的知识，并且只是在概率分布具有简单形式时，计算才比较简便第七十一张，PPT共九十一页，创作于2022年6月特征提取方法小结n从

26、概率分布的差异出发，制订出反映概率分布差异的判据，以此确定特征如何提取n熵概念的运用是描述概率分布另一种有用的形式 n利用熵原理构造的判据，进行特征提取第七十二张，PPT共九十一页，创作于2022年6月特征提取方法小结n各个方法中都有一个共同的特点 n即判别函数的极值往往演变为找有关距阵的特征值与特征向量，由相应的特征向量组成坐标系统的基向量 n计算有关矩阵的特征值矩阵与特征向量，选择前d个大特征值，以它们相应的特征向量构成坐标系统 n这是大部分特征提取方法的基本做法。n特征选择方法不相同第七十三张，PPT共九十一页，创作于2022年6月特征提取方法小结n在特征提取方法中希望所使用的各种判据

27、能够满足以下几点要求：n(1)与错误概率或其上界或下界有单调关系 n(2)判据在特征独立时有可加性第七十四张，PPT共九十一页，创作于2022年6月特征提取方法小结n在特征提取方法中希望所使用的各种判据能够满足以下几点要求：n(3)可分性判别应满足可分性，及对称性第七十五张，PPT共九十一页，创作于2022年6月特征提取方法小结n在特征提取方法中希望所使用的各种判据能够满足以下几点要求：n(4)单调性n是指维数增多时，判据值不应减少。第七十六张，PPT共九十一页，创作于2022年6月主成分分析nPCAnPrinciple Component Analysisn通过k-l变换实现主成分分析第七

28、十七张，PPT共九十一页，创作于2022年6月K-L变换n特征提取思想n用映射（或变换）的方法把原始特征变换为较少的新特征n降维n主成分分析(PCA)基本思想n进行特征降维变换，不能完全地表示原有的对象，能量总会有损失。n希望找到一种能量最为集中的的变换方法使损失最小第七十八张，PPT共九十一页，创作于2022年6月K-L变换n原始输入:xn变换后特征:yn变换矩阵(线性变换):An则:y=ATx第七十九张，PPT共九十一页，创作于2022年6月K-L变换n思考:n希望特征之间关联性尽可能小n变换后的相关矩阵:RyEyyT =EATxxTA =ATRxA我们是不是希望Ry是个对角矩阵？如何选择

29、A?第八十张，PPT共九十一页，创作于2022年6月K-L变换n考虑以Rx的特征向量作为A的列，则Ry=ATRxA =a1,a2an TRx a1,a2an =a1,a2an T 1a1,2a2nan =为对角矩阵，对角线元素为 1,2n达到变换后特征不相关的目的以上为K-L变换第八十一张，PPT共九十一页，创作于2022年6月K-L变换n思考K-L变换性质:n如果降维，有什么结果n原有N维，只保留m维，即去掉ym+1yNn希望:和原来的表示方法差别最小即:E|x-x|2 最小x表示y1ym在原空间中对应的表示方法第八十二张，PPT共九十一页，创作于2022年6月K-L变换第八十三张，PPT共

30、九十一页，创作于2022年6月K-L变换n结论n如果对特征向量排序，舍到最小的特征，则损失的能量最小第八十四张，PPT共九十一页，创作于2022年6月K-L变换典型应用典型应用n1降维与压缩 n对一幅人脸图象，如果它由M行与N到象素组成，则原始的特征空间维数就应为MN。n而如果在K-L变换以及只用到30个基，那么维数就降至30，由此可见降维的效果是极其明显的。n譬如原训练样本集的数量为V，而现采用30个基，数据量是大大降低第八十五张，PPT共九十一页，创作于2022年6月K-L变换典型应用典型应用n2构造参数模型 n使用K-L变换不仅仅起到降维与压缩数据的作用，更重要的是每个描述量都有明确的

31、意义 n因此通过改变这些参数的值就可实现对模型的有效描述，这在图象生成中是很有用的。第八十六张，PPT共九十一页，创作于2022年6月K-L变换典型应用典型应用n3人脸识别n首先搜集要识别的人的人脸图象，建立人脸图象库，n然后利用K-L变换确定相应的人脸基图象，n再反过来用这些基图象对人脸图象库中的有人脸图象进行K-L变换 n在识别时，先对一张所输入的脸图象进行必要的规范化，再进行K-L变换分析，得到其参数向量。第八十七张，PPT共九十一页，创作于2022年6月K-L变换典型应用典型应用n4人脸图象合成第八十八张，PPT共九十一页，创作于2022年6月使用K-L变换进行特征提取第八十九张，PPT共九十一页，创作于2022年6月使用K-L变换进行特征提取 x1x2u2u1第九十张，PPT共九十一页，创作于2022年6月感感谢谢大大家家观观看看第九十一张，PPT共九十一页，创作于2022年6月

展开阅读全文