《第6章 模式特征选择优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第6章 模式特征选择优秀PPT.ppt(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第6章 模式特征选择现在学习的是第1页,共24页2.模式特征选择模式特征选择 从一组模式特征中选出一些最有效和最具代表性的特征,这从一组模式特征中选出一些最有效和最具代表性的特征,这个过程称为个过程称为特征选择特征选择。3.模式特征抽取和选择的意义模式特征抽取和选择的意义 前面三章所介绍的前面三章所介绍的线性判别函数分类方法,线性判别函数分类方法,Bayes分类分类方法,近邻分类方法和集群方法方法,近邻分类方法和集群方法等都一直假定模式特征等都一直假定模式特征是已知的,通过是已知的,通过n个特征所代表的模式向量,实现模式个特征所代表的模式向量,实现模式识别任务。识别任务。所抽取和选择的模式特征
2、的优劣,对分类器的设计和性能有重所抽取和选择的模式特征的优劣,对分类器的设计和性能有重要影响,直接影响分类器的构造和识别效果。因此,特征抽取和要影响,直接影响分类器的构造和识别效果。因此,特征抽取和选择是模式识别中的一个关键问题。选择是模式识别中的一个关键问题。现在学习的是第2页,共24页4.模式特征抽取和选择中的两个问题模式特征抽取和选择中的两个问题困难性困难性 迄今为止,所提出的模式特征和抽取方法都是迄今为止,所提出的模式特征和抽取方法都是面向问题面向问题的,的,也就是说,不同的模式识别问题(如字符识别,语音识别)也就是说,不同的模式识别问题(如字符识别,语音识别)可以有不同的特征抽取和选
3、择方法,即使对同一模式识别问可以有不同的特征抽取和选择方法,即使对同一模式识别问题,也可能用不同的方法。因此,题,也可能用不同的方法。因此,找到特征抽取和选择的一找到特征抽取和选择的一般方法是比较困难的。般方法是比较困难的。由于不是在任何情况下都能容易地抽取到最重要的特征,由于不是在任何情况下都能容易地抽取到最重要的特征,或由于条件限制而不能充分抽取特征,而使得或由于条件限制而不能充分抽取特征,而使得特征的抽取和特征的抽取和选择有时变得很困难。选择有时变得很困难。现在学习的是第3页,共24页 特征的数量问题特征的数量问题 当用一组特征已经无法区分模式类别时,自然会想到增加新的特当用一组特征已经
4、无法区分模式类别时,自然会想到增加新的特征,那么,特征数量是不是越多越好呢?征,那么,特征数量是不是越多越好呢?当特征数量不多时,增加特征数量,问题不大。当特征数量不多时,增加特征数量,问题不大。但是,当特征数量比较大,达到一定的数量之后,增加特征数量反但是,当特征数量比较大,达到一定的数量之后,增加特征数量反而会使分类器的性能变坏。而会使分类器的性能变坏。产生这个问题的基本原因是用来设计分类器的样本数量是有限产生这个问题的基本原因是用来设计分类器的样本数量是有限的的。那么可不可以在增加特征的同时,也增加样本数量呢?那么可不可以在增加特征的同时,也增加样本数量呢?现在学习的是第4页,共24页
5、当用一定数量的样本估计出来的参数设计当用一定数量的样本估计出来的参数设计Bayes分类器分类器时,随着特征数量的增加时,随着特征数量的增加要求样本数急剧增加,要求样本数急剧增加,这样才能保证这样才能保证一定的错误率。一定的错误率。在实际问题中,由于样本数是有限的,所以为了保证一定在实际问题中,由于样本数是有限的,所以为了保证一定的错误率,就不能任意增加特征数。的错误率,就不能任意增加特征数。那么怎么办好呢?那么怎么办好呢?在很多特征中在很多特征中选择一些更有效的特征选择一些更有效的特征来压缩模式特征向量的维来压缩模式特征向量的维数。数。现在学习的是第5页,共24页二二.离散的离散的K-L变换变
6、换 从从n维特征选取维特征选取m维特征,去掉的(维特征,去掉的(n-m)维特征不一定就是维特征不一定就是无用的信息。如何在信息损失最小的情况下选取特征呢?无用的信息。如何在信息损失最小的情况下选取特征呢?离散的离散的K-L变换又称主成分分析,是一种基于目标统计特性的最变换又称主成分分析,是一种基于目标统计特性的最佳正交变换,被广泛应用于数据压缩,特征降维等方面。离散的佳正交变换,被广泛应用于数据压缩,特征降维等方面。离散的K-L变换具有一些很好的性质:变换具有一些很好的性质:(1)可以使变换后所生成的新分量正交或不相关。)可以使变换后所生成的新分量正交或不相关。(2)用较少的新分量来表示原特征
7、向量时,可达到均方误差最小。)用较少的新分量来表示原特征向量时,可达到均方误差最小。现在学习的是第6页,共24页离散的离散的K-LK-L变换方法变换方法 将连续随机实函数将连续随机实函数 用已知的正交用已知的正交函数集函数集 的线性组合展开,有:的线性组合展开,有:式中,式中,为展开式的系数。为展开式的系数。为连续正交函数,为连续正交函数,它满足:它满足:式中,式中,为为 的共轭复数式。的共轭复数式。现在学习的是第7页,共24页 若将连续随机函数若将连续随机函数 和正交函数和正交函数 在在 内等间隔取内等间隔取n个离散点,即个离散点,即并写成向量形式并写成向量形式则有则有 的的n项近似表达式,
8、写为离散展开式:项近似表达式,写为离散展开式:现在学习的是第8页,共24页 特征选择:特征选择:可看作是从原始的可看作是从原始的 维空间维空间 到维数较到维数较低的低的 维特征空间维特征空间 的一个映射。的一个映射。通常用一个通常用一个 维随机向量维随机向量 来表示一个模式。来表示一个模式。若若 则则 就是一个选择出来的特征向量,这里就是一个选择出来的特征向量,这里 ,是从是从 到到 的映射。的映射。对于映射对于映射 的要求是:的要求是:若用若用 的分量来恢复原始模式的分量来恢复原始模式时,不应使模式产生明显的畸变。时,不应使模式产生明显的畸变。现在学习的是第9页,共24页 设设 是一个是一个
9、 维的随机向量维的随机向量,则可以用下式展开为则可以用下式展开为:式中,式中,是是 方阵方阵,是是 维列向量。维列向量。现在学习的是第10页,共24页 i=1,i=2,i=n,相加,有相加,有 现在学习的是第11页,共24页 现在学习的是第12页,共24页 矩阵矩阵 由由 个线性独立的列向量个线性独立的列向量 组成,所以:组成,所以:因而,矩阵因而,矩阵 的各列构成了包含的各列构成了包含 的的n维空间,维空间,的各列的向量就是这个空间的一个基组。的各列的向量就是这个空间的一个基组。现在学习的是第13页,共24页假定假定 的各列形成一个正交归一集,即:的各列形成一个正交归一集,即:如果满足上述条
10、件,则如果满足上述条件,则 的各个分量可由的各个分量可由 给出。给出。的每一个分量都是选择出来的特征。的每一个分量都是选择出来的特征。假定我们只保留假定我们只保留 的一个子集的一个子集 ,用它们估计出,用它们估计出 。我们可以用预先选定的常数来代替不保留的我们可以用预先选定的常数来代替不保留的 的那的那些分量,则估计式为:些分量,则估计式为:现在学习的是第14页,共24页 式中式中 是选定的常数。是选定的常数。如果只用如果只用 个分量,则误差为:个分量,则误差为:现在学习的是第15页,共24页 由于由于 和和 都是随机向量,用都是随机向量,用 的均方的均方误差作为量度误差作为量度 个特征的子集
11、的有效性的判据,有:个特征的子集的有效性的判据,有:现在学习的是第16页,共24页对于选择的每一个对于选择的每一个 和和 ,可以得到一个,可以得到一个 求使求使 取极小值的最佳的取极小值的最佳的 和和 值值.1.求最佳求最佳 令令于是有于是有:均方误差写成均方误差写成:表明:对于不保留的那些表明:对于不保留的那些分量,用他们的平均值来分量,用他们的平均值来代替,就能得到最佳的代替,就能得到最佳的bi值值现在学习的是第17页,共24页2.求最佳求最佳现在学习的是第18页,共24页 在在 的条件下的条件下,找出使找出使 最小的最小的 。用用Lagrange乘数法求条件极值。令乘数法求条件极值。令:
12、为为Lagrange乘子。乘子。对对 求导数并令其为零可得:求导数并令其为零可得:现在学习的是第19页,共24页 说明说明 是矩阵是矩阵 的本征向量,而的本征向量,而 是这个矩阵相是这个矩阵相应的第应的第i个本征值。个本征值。习惯上用习惯上用 表示本征值,所以用表示本征值,所以用 表示表示可得:可得:现在学习的是第20页,共24页结论:结论:以矩阵以矩阵 的本征向量作为坐标轴来展开的本征向量作为坐标轴来展开 时,取时,取m个个 来逼近来逼近 时,其均方时,其均方误差为误差为所以,所以,应该把那些本征值大的对应特征保留下来。如果应该把那些本征值大的对应特征保留下来。如果将本征值从大到小顺序编号将本征值从大到小顺序编号则它可作为特征选择的依据。则它可作为特征选择的依据。现在学习的是第21页,共24页举例:设二维样本举例:设二维样本用用K-L变换把特征空间降到一维。变换把特征空间降到一维。解:根据协方差矩阵公式解:根据协方差矩阵公式先求均值向量先求均值向量现在学习的是第22页,共24页求本征值求本征值得得对应的特征向量为对应的特征向量为现在学习的是第23页,共24页因为因为 ,所以略去所以略去降到一维的降到一维的4个样本为个样本为现在学习的是第24页,共24页