《SPSS数据分析教程11主成分分析.ppt》由会员分享,可在线阅读,更多相关《SPSS数据分析教程11主成分分析.ppt(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第11章 主成分分析目录n11.1主成分分析简介q11.1.1主成分分析的目的与功能q11.1.2主成分分析的数学理论n11.2主成分分析的应用条件q11.2.1Bartlett球形检验q11.2.2KMO统计量q11.2.3基于相关系数矩阵还是协方差矩阵n11.3主成分分析案例q11.3.1综合评价案例q11.3.2主成分分析用于探索量间结构关系 本章学习目标 n了解主成分分析的应用领域;n了解主成分析的应用条件;n掌握如何确定主成分的个数;n熟练解释主成分分析的结果:载荷矩阵、共同度、方差贡献率等;n掌握应用主成分分析进行数据降维和综合评价的方法。11.1 主成分分析简介主成分分析的目的与
2、功能 n在多变量分析中,分析者所面临的最大难题是解决众多变量之间的关系问题。进行数据降维可以用尽可能少的新指标取代原来较多的指标变量,并能包含原来指标变量所包含的大部分信息 。n解决多元回归分析中的多重共线性问题。 n综合评价中,人们总是尽可能多地选取评价指标,而这些评价指标之间往往相互重叠,信息冗余是不可避免的。主成分分析则可以把这众多指标所蕴含的信息压缩到少数几个主成分指标,然后给出这几个主成分指标的权重,综合到一个评价指标中。 主成分的主要功能 n数据降维(Dimension Reduction)n变量筛选(Variables Screening)主成分分析的算法步骤 n第1步:进行样本
3、数据的标准化,以消除指标变量的量纲或者单位的影响。n第2步:求出相关系数矩阵R R的所有非零特征根 n第3步:选择主成分个数。n第4步:求出相应于前s个特征根的特征向量并将特征向量进行单位化。n第5步:计算主成分变量的取值。 选择主成分个数的方法 n给出方差贡献率,即给出希望得到的全部信息的比例。要求输出能够反映全部信息的100%的主成分。n根据碎石图选择合适的主成分的个数 。n设定特征值满足的条件或者直接给出所需要的主成分的个数s 。共同度和方差贡献率 n共同度:前s个主成分能够解释的每个原始变量的方差的比例(称为共同度)。n方差贡献率:它是每个主成分所能够解释的所有原始变量的信息(即方差)
4、,它由载荷矩阵(特征向量矩阵,即方程11-4)相应的列元素的平方和给出。 11.2 主成分分析的应用条件Bartlett球形检验(1) n主成分分析的原始变量之间必须有相关性,如果变量之间相互独立,则无法用主成分分析法来进行数据降维。 nBartlett球形检验的假设为q原假设:相关系数矩阵为单位矩阵(即变量互不相关)。q备择假设:相关系数矩阵不是单位矩阵(即变量之间有相关关系)。Bartlett球形检验(2)nSPSS将提供Bartlett球形检验的卡方统计量的值、相应的自由度和显著性值。如果显著性值小于0.05,则认为主成分分析是适宜的。卡方统计量的值越大,变量之间的相关性越强。KMO统计
5、量 (1)nKMO统计量比较样本相关系数和样本偏相关系数,它用于检验样本是否适于作主成分分析。nKMO统计量的取值在0和1之间,该值越大,则样本数据越适于作主成分分析和因子分析。一般要求该值大于0.5,方可以应用主成分分析或者相关分析。 KMO统计量 (2)基于相关系数矩阵还是协方差矩阵 n当变量取值范围变化很大或者量纲变化时,协方差矩阵变化很大。一般情况下,主成分分析都是基于相关系数矩阵的。 主成分分析案例 (1)n打开本章数据文件PCA20.savn某公司有20个工厂,现在要对每个工厂作经济效益分析。从所取得的生产成果和所消耗的人力、物力、财力的比率等指标中,选取5个指标(变量)进行分析。
6、 qX1固定资产的产值率;qX2净产值的劳动生产率;qX3百元产值的流动资金占用率;qX4百元产值的利润率;qX5百元资金的利润率。主成分分析案例(2)n现在对这20个工厂同时按照这5项指标收集数据,然后找出1个综合指标对它们的经济效益进行排序,找出经济效益较高的工厂。n应用主成分分析法,要求主成分只要能够反映出全部信息的85%就可以了。 主成分分析案例 (3)n选择【分析】【降维】【因子分析】,把变量X1到X5都选到“变量”框中。主成分分析案例 (4)因子的旋转n主成分分析得到的主成分不一定要给出有意义的解释,不需要进行因子旋转。但是,因子分析一般需要给出因子有意义的解释,如果直接得到的因子
7、载荷没有实际解释意义,则必须进行因子旋转。 主成分输出结果解释和主成分的计算 n主成分适用条件的检验。 检查KMO和Bartlett检验结果,判断主成分分析(或者因子分析)是否适用。 n解释共同度、方差贡献率和因子载荷矩阵。 碎石图成分矩阵n成分矩阵不能够直接作为主成分的系数矩阵。成分矩阵的每一列要除以相应成分的特征值的平方根才能作为相应主成分的系数。主成分得分nSPSS没有给出个案的主成分的得分,需要我们通过“转换”菜单的“计算变量”来计算出每个个案的主成分得分。主成分载荷图主成分分析用于探索变量间结构关系n打开本章数据Stock.sav ,它记录了纽约股票交易所2004年1月到2005年1
8、2月间5种股票的周收益率。这5种股票分别为JP摩根、花旗银行、富国银行、壳牌和埃克森美孚5家公司的股票。观测数据为连续的103周的股票周收益率。 n我们想了解这5家公司的收益率是否有某种关联。现在把这5家公司的收益率分别作为5个变量,然后用主成分分析法来探索它们之间的关系。结果分析(1)初始特征值 提取平方和载入 成份 合计 方差的% 累积% 合计 方差的% 累积% 1 2.437 48.745 48.745 2.437 48.745 48.745 2 1.407 28.140 76.886 1.407 28.140 76.886 3 .501 10.010 86.896 4 .400 8.001 94.897 5 .255 5.103 100.000 结果分析(2)成 份 1 2 JpMorgan .732 ? .437 Citibank .831 ? .280 WellsFargo .726 ? .374 RoyalDutchShell .605 .694 ExxonMobil .563 .719 作业32 结束语结束语