《模式识别第3讲.ppt》由会员分享,可在线阅读,更多相关《模式识别第3讲.ppt(34页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、模式识别模式识别原理、方法及应用第3次课程概要n模式判别qPCAq特征评价q维数比率问题PCAnPrincipal component analysisn主元分析主元分析 或或 主成分分析主成分分析n功能:简化复杂数据到低维空间,从而发现数功能:简化复杂数据到低维空间,从而发现数据中隐藏的简单结构。据中隐藏的简单结构。q原始数据源(生数据)通常有冗余,包含噪声原始数据源(生数据)通常有冗余,包含噪声qPCAPCA的目标:去除冗余,并发现重要特征的目标:去除冗余,并发现重要特征PCA特征评价维数比率问题PCA的大致思路n认为原始数据认为原始数据X是复杂的(有噪声有冗余),是复杂的(有噪声有冗余)
2、,要对要对X重新表示重新表示n重新表示后数据的维度即为隐藏于重新表示后数据的维度即为隐藏于X中的简单中的简单结构结构PCA特征评价维数比率问题PCA怎么做?技术路线n利用线性代数为工具,用另利用线性代数为工具,用另一组基去重新描述数据空间一组基去重新描述数据空间n新的基能够最好地表示原数新的基能够最好地表示原数据据X Xn原有的基是什么样的形式呢原有的基是什么样的形式呢?NaNa ve basisve basis:n目标目标:找到另一组基,能最好表达数据集,这个新的基是原有基的线性组合PCA特征评价维数比率问题采用该方法就隐含了一个假设:采用该方法就隐含了一个假设:线性线性。数据限制在一个向量
3、空间。数据限制在一个向量空间里,能被一组基表示里,能被一组基表示基变换nn n个样本n每个样本m m个特征n构成m mn n的矩阵X XnP是从X X到Y Y的转换矩阵n几何上,Y Y由对X X旋转拉伸得到nP的行向量构成一组新的基,而Y Y是在这组基下对X X的重新表示PCA特征评价维数比率问题在线性的假设条件下,要解答n要寻求一组变换后的基,要寻求一组变换后的基,也就是也就是P P的行向量的行向量pp1 1,p pm m n这组基就是这组基就是X X的主元的主元n要解答的问题要解答的问题n1 1 我们要将我们要将X X转换成为的转换成为的Y Y是个什么样子?是个什么样子?n2 2 对应于对
4、应于Y Y,如何求解,如何求解P P?PCA特征评价维数比率问题n我们要将我们要将X X转换成为的转换成为的Y Y是个什么样子?是个什么样子?n回顾一下回顾一下PCAPCA要解决的问题,数据复杂混乱要解决的问题,数据复杂混乱n噪声噪声n冗余冗余PCA特征评价维数比率问题重要特征和噪声的数学描述n信噪比n要使得信噪比大,信号的方差大,噪声的方差小n假设:变化较大的信息认为是信号,变化较小的则是噪声PCA特征评价维数比率问题冗余的数学描述n该变量可以用其它变量表示,因此造成了信息冗余PCA特征评价维数比率问题协方差矩阵可以反映数据的噪声和冗余的程度PCA的目标及它基于的假设PCA特征评价维数比率问
5、题n通过基变换,对协方差矩阵进行优化,即使得变换后的数据集Y,其协方差矩阵为对角阵。n线性假设线性假设:PCA内部模型是线性的,是基于原始特征的线性变换。(如果原始数据存在非线性属性,则经PCA分析后将不再反映这种非线性属性)n方差越大,特征越重要方差越大,特征越重要。(有些对整体方差贡献不大的主成分,有可能在样本分类方面起至关重要的作用)n冗余用相关性表示冗余用相关性表示。(数据的概率分布需要满足高斯分布或是指数型的概率分布)n主元正交,即转换基是一组标准正交基。该假设的作用是方便求解PCA求解:特征根分解(1)PCA特征评价维数比率问题寻找一组正交基组成的矩阵P,有Y=PX,使得CY是对角
6、阵,则P的行向量,就是数据X的主元向量。D是一个对角阵E是对称阵A的特征根排成的矩阵解题技巧,令PETPCA求解:特征根分解(2)PCA特征评价维数比率问题PCA算法的一般求解步骤n由以上推导,由以上推导,PCA算法的一般求解步骤如下算法的一般求解步骤如下n1 采集数据,形成mn的矩阵,m为特征个数,n为样本数。n2 矩阵中的每个元素减去该维的均值,得到Xn3 求XX的特征根PCA特征评价维数比率问题将PCA用于降维n由PCA线性变换后得到的数据集,可认为是没有冗余的。n在此结构下,可以讨论样本中的哪些属性(特征)比较重要。n按方差由大到小排序,按方差由大到小排序,但丢弃的准则是什么?但丢弃的
7、准则是什么?PCA特征评价维数比率问题方法一:Kaiser准则 丢弃那些低于1的特征值方法二:观察特征值的图,通过斜率检测,即从图中曲线开始变平缓的点开始,丢弃后面的全部特征值。有关PCA需要注意的一个问题n原始数据集里,每个特征是有意义的。比如图像中一个对象的形状、颜色等。n但是线性变换后,语义信息丢失了。n这对我们解释识别过程带来一定的问题。PCA特征评价维数比率问题特征评价n对于特征分类能力的评价对于特征分类能力的评价n(1)图形考察:盒状图)图形考察:盒状图 分布图分布图n(2)分布模型评价)分布模型评价n(3)统计推论检测)统计推论检测n这些评价方法可为我们观察某些特征集合下的这些评
8、价方法可为我们观察某些特征集合下的数据分布提供直观的指导信息数据分布提供直观的指导信息PCA特征特征评评价价维数比率问题盒状图怎么画(1)n回顾:盒状图应用在此的目的是:评价特征用于分类的能力n因此,我们用来画盒状图的数据是 样本集中一个维度(特征)的数据n绘制步骤:n1)将n个数据由小到大排序。(由大到小也可以)n2)计算3个四分位数。n a.中位数(第2个四分位数,Q2)n 如果n为奇数,则排序后,第(n+1)/2位是中位数。n 如果n为偶数,则排序后,第n/2与第(n+1)/2位数的平均值,n 为中位数。n b.不计Q2,计算前半个数据集的中位数Q1。n c.不计Q2,计算后半个数据集的
9、中位数Q3。n3)3个四分位数、最小值、最大值共5个数字就可以绘制盒状图了。PCA特征特征评评价价维数比率问题盒状图怎么画(2)PCA特征特征评评价价维数比率问题将成绩排序班级某科某次测试成绩如下:盒状图怎么画(3)PCA特征特征评评价价维数比率问题最小值:27最大值:97Q2:第(39+1)/2=20位的值 60Q1:第(19+1)/2=10位的值 45Q3:第(21+39)/2=30位的值 70排序后的成绩盒状图怎么画(4)PCA特征特征评评价价维数比率问题有一半人及格;1/4学生70分以上;1/4学生45分以下;另外,还体现了分数是集中还是分散全距最小值:27最大值:97Q2:60Q1:
10、45Q3:70四分位距如何用盒状图观察特征的分类能力n软木塞数据集,三个类别在两个特征上的盒状图PCA特征特征评评价价维数比率问题特征PRT 特征PRTG分布图n数据在特征空间分布上存在大量重叠,会对分类造成困难n分布图描绘了数据类别的拓扑结构,可直观获取特征间分布重叠状况PCA特征特征评评价价维数比率问题分布模型评价n给定数据集(特征向量的集合),其分布是否与给定的分布模型吻合n用适当的分布模型描述数据集,就可以根据已知样本集为分布模型估计参数,确定后的模型可用作分类或聚类。PCA特征特征评评价价维数比率问题Kolmogorov-Smirnov检测K-S检验(1)n经验分布函数n给定N个由小
11、到大排序的数据X1.XNn其中n(i)是小于等于Xi的对象个数PCA特征特征评评价价维数比率问题(1,2,2,2,3,3,3,4)Kolmogorov-Smirnov检测K-S检验(2)PCA特征特征评评价价维数比率问题给定一个经验分布函数FX和一个理论累积分布函数FYD=maxD+,D-两个经验分布函数Kolmogorov-Smirnov检测K-S检验(3)PCA特征特征评评价价维数比率问题K-S检验的基本思路就是根据这两根曲线的最大间距判断是否为同一分布给定一个正态分布下产生的100个随机数,下图绘制了这100个随机数的经验分布函数 以及正态累积分布函数统计推论检测n量化特征的分类能力n常
12、用的统计推论检验法q对于服从正态分布的特征nt-student检验 Anova统计检验q有时候,在样本有限的情况下,避免对特征的分布模型进行假设nKruskal-Wallis检验(K-W检验,又称H检验)PCA特征特征评评价价维数比率问题Kruskal-Wallis检验n给定有类别标签的一个样本集,检验其中一个特征的分类能力,需要挑出该特征下的数据,形成由n个数据组成的集合Xn(1)对X由小到大排序,每一个数据对应的序号称作秩次n(2)求评价值Hn ni:第i类的样本数n Ri:第i类中所有样本的秩次和n(3)一般认为,具有较高H值的特征有较强分类能力PCA特征特征评评价价维数比率问题Krus
13、kal-Wallis检验一个例子n包含3个类别的样本集,取其中一个特征得到数据集如下:q类别1:279;338;334;198;303q类别2:229;274;310 q类别3:210;285;117PCA特征特征评评价价维数比率问题n=11;n1=5;n2=3;n3=3;R1=37;R2=18;R3=11;Kruskal-Wallis检验软木塞数据的检验结果PCA特征特征评评价价维数比率问题回顾:决策面n在一个低维空间里,决策面很复杂,投射到高维空间中,可以找到一个线性的决策面n但是在实际应用中,无限制地向高维投射,会存在“维数灾难维数灾难”问题PCA特征评价维数维数比率比率问题问题数据不断增加时的两类分布图n这三个图想要给我们一个直观的印象:q当维数比率较低时,由训练集合学习得到的分类器将会是错误的。q维数比率较低对应着数据分布稀疏的状况。PCA特征评价维数维数比率比率问题问题看看正态分布下数据维数不断增加的情况n低维空间的正态分布q1维:大约有68%的点分布在距离均值点一个标准偏差范围内。q2维:大约有46%的点分布在距离均值点一个标准偏差范围内。PCA特征评价维数维数比率比率问题问题在d维空间里,以均值点为中心,一个标准偏差为半径的超球体中有0.68d*100%的点。d=12,约1%的点在这个邻域内