《主成分分析法 (2)PPTPPT课件.ppt》由会员分享,可在线阅读,更多相关《主成分分析法 (2)PPTPPT课件.ppt(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于主成分分析法(2)PPT第一张,PPT共二十三页,创作于2022年6月v在模式识别中,一个常见的问题就是特征选择或特征提取,在理论上我们要选择与原始数据空间具有相同的维数。然而,我们希望设计一种变换使得数据集由维数较少的“有效”特征来表示。第二张,PPT共二十三页,创作于2022年6月主成分分析v主成分分析(或称主分量分析,principal component analysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。v在PCA中,我们感兴趣的是找到一个从原d维输入空间到新的k维空间的具有最小信息损失的映射vX在方向w上的投影为第
2、三张,PPT共二十三页,创作于2022年6月 主成分分析(PCA)v一、主成分的定义及导出v二、主成分的性质v三、从相关阵出发求主成分第四张,PPT共二十三页,创作于2022年6月一、主成分的定义及导出v设 为一个 维随机向量,v主成分是这样的 ,样本投影到 上之后被广泛散布,使得样本之间的差别变得最明显,即最大化方差。v设 希望在约束条件 下寻求向量 ,使 最大化第五张,PPT共二十三页,创作于2022年6月写成拉格朗日问题现在关于 求导并令其等于0,得到如果 是 的特征向量,是对应的特征值,则上式是成立的第六张,PPT共二十三页,创作于2022年6月v同时我们还得到v为了使方差最大,选择具
3、有最大特征值的特征向量,因此,第一个主成分 是输入样本的协方差阵的具有最大特征值对应的特征向量 第七张,PPT共二十三页,创作于2022年6月v第二个主成分 也应该最大化方差,具有单位长度,并且与 正交v对于第二个主成分,我们有v关于w2求导并令其为0,我们有第八张,PPT共二十三页,创作于2022年6月v上式两边乘以v其中v可知 ,并且可得第九张,PPT共二十三页,创作于2022年6月v这表明w2应该是 的特征向量,具有第二大特征值v类似的,我们可以证明其它维被具有递减的特征值的特征向量给出第十张,PPT共二十三页,创作于2022年6月v我们来看另一种推导:v 如果我们建立一个矩阵C,其第i
4、列是 的规范化的特征向量,则 ,并且第十一张,PPT共二十三页,创作于2022年6月v其中,是对象矩阵,其对角线元素是特征值v ,这称为 的谱分解v由于C是正交的,并且 ,我们在 的左右两边乘以 和 ,得到v我们知道如果 ,则 ,我们希望它等于一个对角矩阵,于是,可以令第十二张,PPT共二十三页,创作于2022年6月v在实践中,即使所有的特征值都大于0,我们知道,某些特征值对方差的影响很小,并且可以丢失,因此,我们考虑例如贡献90%以上方差的前k个主要成分,当 降序排列时,由前k个主要成分贡献的方差比例为第十三张,PPT共二十三页,创作于2022年6月v实践中,如果维是高度相关的,则只有很少一
5、部分特征向量具有较大的特征值,k远比n小,并且可能得到很大的维度归约第十四张,PPT共二十三页,创作于2022年6月v总方差中属于主成分 的比例为 称为主成分 的贡献率。v第一主成分 的贡献率最大,表明它解释原始变量 的能力最强,而 的解释能力依次递减。v主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有 主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。第十五张,PPT共二十三页,创作于2022年6月v前 个主成分的贡献率之和 称为主成分 的累计贡献率,它表明 解释 的能力。v通常取较小的 k,使得累计贡献达到一个较高的百分比(如8090)。此时,可用来代替 ,从
6、而达到降维的目的,而信息的损失却不多。第十六张,PPT共二十三页,创作于2022年6月主成分分析的应用v在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平,其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释。v主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。第十七张,PPT共二十三页,创作于2022年6月v如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平,也就是说,此时的累计贡献率通常较易得到满足。v主成分分析的困难之处主要在于要能够给出主成分的较好
7、解释,所提取的主成分中如有一个主成分解释不了,整个主成分分析也就失败了。第十八张,PPT共二十三页,创作于2022年6月支持向量机(补充讲义)v上节课,我们讨论了SVM的分类,这里简略地讨论如何将SVM推广到回归上v我们还是使用线性模型:v 第十九张,PPT共二十三页,创作于2022年6月v对于回归,我们使用差的平方作为误差:v对于支持向量机的回归,我们使用第二十张,PPT共二十三页,创作于2022年6月v这意味着我们容忍高达 的误差,并且超出的误差具有线性而不是平方影响。这种误差函数更能抵制噪声,因而更加鲁棒v类似的,我们引入松弛变量来处理超过 的偏差v其中C是一个训练误差和惩罚项 之间的权衡第二十一张,PPT共二十三页,创作于2022年6月v受限于第二十二张,PPT共二十三页,创作于2022年6月感谢大家观看第二十三张,PPT共二十三页,创作于2022年6月