《主成分分析( principal components analysis,PCA ).ppt》由会员分享,可在线阅读,更多相关《主成分分析( principal components analysis,PCA ).ppt(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、主成分分析(PRINCIPAL COMPONENTS ANALYSIS,PCA)主成分分析介绍基本思想基本原理作用计算主成分个数选取原则例题SPSS操作主成分分析介绍在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据
2、的最重要方面。但是,这也不是一定的,要视具体应用而定。主成分分析的基本思想 主成分分析就是把原有的多个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来指标大部分的信息(85%以上),并且各个指标之间保持独立,避免出现重叠信息。主成分分析主要起着降维和简化数据结构的作用。主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。主成分分析的基本思想 主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量
3、的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。主成分分析法的基本原理主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量
4、系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。主成分分析的主要作用1主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(mp),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。2有时可通过因子负荷aij的结论,弄清X变量间的某些关系。主成分分析的主要作用3多维数据
5、的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。4由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。主成分分析的主要作用5用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合
6、中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。主成分分析法的计算假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论 m 个新的指标F1,F2,Fm(mp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。其中,主成分分析法的计算 这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。满足如下的条件:每个主成分的系数平方和为1。即主成分之间相互独立,即无重叠的信息。即
7、主成分分析法的计算主成分的方差依次递减,重要性依次递减,即先讨论二维情形求第一主成分F1和F2。主成分分析法的计算我们已经把主成分F1和F2 的坐标原点放在平均值 所在处,从而使得F1和F2 成为中心化的变量,即F1和F2 的样本均值都为零。因此F1可以表示为关键是,寻找合适的单位向量 ,使F1的方差最大。实际上,X的协方差矩阵S 的第二大特征根 所对应的单位特征向量即为 。并且 就是F2的方差。主成分分析法的计算其中,aij称为因子载荷量因子载荷量:主成分与变量间的相关系数即:因子载荷量的大小和它前面的正负号直接反映了主成分与相应变量之间关系的密切程度和方向。从而可以说明各主成分的意义。主成
8、分分析法的计算计算步骤:1.求样本均值 和样本协方差矩阵S;2.求S的特征根 求解特征方程 ,其中I是单位矩阵,解得2个特征根3.求特征根所对应的单位特征向量4.写出主成分的表达式主成分个数的选取原则根据累积贡献率的大小取前面m 个(mp)主成分选取原则:且例题例1 下表是10位学生的身高 、胸围 、体重 的数据。对此进行主成分分析。身高身高x1(cm)胸围胸围x2(cm)体重体重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.8
9、65.549.045.551.059.543.553.5例题1.求样本均值和样本协方差矩阵2.求解协方差矩阵的特征方程3.解得三个特征值和对应的单位特征向量:例题4.由此我们可以写出三个主成分的表达式:5.主成分的含义 F1表示学生身材大小。F2反映学生的体形特征。6.三个主成分的方差贡献率分别为:例题前两个主成分的累积方差贡献率为:操作 下面是某年我国30个省份国内生产、居民消费、固定资产、职工工资、货物周转、消费价格、商品零售、工业产值的数据,对此进行主成分分析。操作山西1092.481250290.94721717.3116.9115.6697.25内蒙832.881387250.234
10、134781.7117.5116.8419.39辽宁2793.372397387.9949111371.7116.11141840.55.西藏55.98111017.8773824.2117.3114.95.57甘肃553.351007114.815493507119.8116.5468.79陕西1000.031208300.274396500.9119117600.98青海165.31144547.76575361.6118116.3105.8新疆834.571469376.965348339119.7116.7428.76宁夏169.75135561.985079121.8117.1115
11、.3114.4操作 相关系数矩阵(Correlation Matrix)国内生产国内生产居民消费居民消费固定资产固定资产职工工资职工工资货物周转货物周转消费价格消费价格商品零售商品零售工业产值工业产值国内生产国内生产1 10.2670.2670.9510.9510.1910.1910.6170.617-0.273-0.273-0.264-0.2640.8740.874居民消费居民消费0.2670.2671 10.4260.4260.7180.718-0.151-0.151-0.235-0.235-0.593-0.5930.3630.363固定资产固定资产0.9510.9510.4260.426
12、1 10.40.40.4310.431-0.28-0.28-0.359-0.3590.7920.792职工工资职工工资0.1910.1910.7180.7180.40.41 1-0.356-0.356-0.135-0.135-0.539-0.5390.1040.104货物周转货物周转0.6170.617-0.151-0.1510.4310.431-0.356-0.3561 1-0.253-0.2530.0220.0220.6590.659消费价格消费价格-0.273-0.273-0.235-0.235-0.28-0.28-0.135-0.135-0.253-0.2531 10.7630.763
13、-0.125-0.125商品零售商品零售-0.264-0.264-0.593-0.593-0.359-0.359-0.539-0.5390.0220.0220.7630.7631 1-0.192-0.192工业产值工业产值0.8740.8740.3630.3630.7920.7920.1040.1040.6590.659-0.125-0.125-0.192-0.1921 1操作方差分解主成分提取分析表Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal%of Va
14、rianceCumulative%Total%of VarianceCumulative%13.75546.93946.9393.75546.93946.93922.19727.45974.3982.19727.45974.39831.21515.18689.5841.21515.18689.58440.4025.03194.61550.2132.6697.27560.1381.72498.99970.0650.81899.81780.0150.183100操作初始因子载荷矩阵Component MatrixaComponent123国内生产国内生产0.8850.3840.121居民消费居民消费0.607-0.5980.271固定资产固定资产0.9120.1610.212职工工资职工工资0.466-0.7220.368货物周转货物周转0.4860.738-0.275消费价格消费价格-0.5090.2520.797商品零售商品零售-0.620.5940.438工业产值工业产值0.8230.4270.211Extraction Method:Principal Component Analysis.a.3 components extracted.THANKS THANKS!