《主成份与因子分析.ppt》由会员分享,可在线阅读,更多相关《主成份与因子分析.ppt(91页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程关于主成份和因子分析第一张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n6.1 6.1 主成分分析主成分分析n6.1.1 主成分分析的概念与步骤主成分分析的概念与步骤n6.1.2 使用使用INSIGHT模块作主成分分析模块作主成分分析n6.1.3 使用使用“分析家分析家”作主成分分析作主成分分析n6.1.4 使用使用PRINCOMP过程进行主成分分析过程进行主成分分析第二张,PPT共九十一页,创作于2022年6月STATSTATSTATST
2、ATSASSAS软件与统计应用教程软件与统计应用教程6.1.1 主成分分析的概念与步骤主成分分析的概念与步骤1.1.主成分分析基本思想主成分分析基本思想 主主成成分分分分析析是是数数学学上上对对数数据据降降维维的的一一种种方方法法。其其基基本本思思想想是是设设法法将将原原来来众众多多的的具具有有一一定定相相关关性性的的指指标标(比比如如p个个指指标标),重重新新组组合合成成一一组组新新的的互互不不相相关关的的综综合合指指标标来来代代替替原原来来指指标标。通通常常数数学学上上的的处处理理就就是是将将原原来来p个个指指标标作作线线性性组组合合,作作为为新新的的综综合合指指标标。但但是是这这种种线线
3、性性组组合合,如果不加限制,则可以有很多,应该如何去选取呢?如果不加限制,则可以有很多,应该如何去选取呢?第三张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在在所所有有的的线线性性组组合合中中所所选选取取的的F1应应该该是是方方差差最最大大的的,故故称称F1为为第第一一主主成成分分。如如果果第第一一主主成成分分不不足足以以代代表表原原来来p个个指指标标的的信信息息,再再考考虑虑选选取取F2即即选选第第二二个个线线性性组组合合。为为了了有有效效地地反反映映原原有有信信息息,F1已已有有的的信信息息就就不不需需要要再再出
4、出现现在在F2中中,用用数数学学语语言言表表达达就就是是要要求求Cov(F1,F2)0。称称F2为为第第二二主主成成分分,依依此此类类推推可可以以构构造造出出第第三三、第第四四、第、第p个主成分。个主成分。第四张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.主成分分析的数学模型主成分分析的数学模型 设设有有n个个样样品品(多多元元观观测测值值),每每个个样样品品观观测测p项项指指标标(变量):(变量):X1,X2,Xp,得到原始数据资料阵:,得到原始数据资料阵:其中其中Xi=(x1i,x2i,xni),i=1,2
5、,p。第五张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 用用数数据据矩矩阵阵X的的p个个列列向向量量(即即p个个指指标标向向量量)X1,X2,Xp作线性组合,得综合指标向量:作线性组合,得综合指标向量:简写成:简写成:Fi=a1iX1+ai2X2+apiXp i=1,2,p第六张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 为为了了加加以以限限制制,对对组组合合系系数数ai=(a1i,a2i,api)作作如下要求:如下要求:即:即:ai为单位
6、向量:为单位向量:aiai=1,且由下列原则决定:,且由下列原则决定:1)Fi与与Fj(ij,i,j=1,p)互互不不相相关关,即即Cov(Fi,Fj)=ai ai=0,其中,其中是是X的协方差阵。的协方差阵。2)F1是是X1,X2,Xp的的一一切切线线性性组组合合(系系数数满满足足上上述要求)中方差最大的,即述要求)中方差最大的,即 ,其中,其中c=(c1,c2,cp)F2是是与与F1不不相相关关的的X1,X2,Xp一一切切线线性性组组合合中中方方差差最最大大的的,Fp是是与与F1,F2,Fp-1都都不不相相关关的的X1,X2,Xp的一切线性组合中方差最大的。的一切线性组合中方差最大的。第七
7、张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 满满足足上上述述要要求求的的综综合合指指标标向向量量F1,F2,Fp就就是是主主成成分分,这这p个个主主成成分分从从原原始始指指标标所所提提供供的的信信息息总总量量中中所所提提取取的的信信息息量量依依次次递递减减,每每一一个个主主成成分分所所提提取取的的信信息息量量用用方方差差来来度度量量,主主成成分分方方差差的的贡贡献献就就等等于于原原指指标标相相关关系系数矩阵相应的特征值数矩阵相应的特征值 i,每一个主成分的组合系数,每一个主成分的组合系数ai=(a1i,a2i,ap
8、i)就就是是相相应应特特征征值值 i所所对对应应的的单单位位特特征征向向量量ti。方方差差的的贡贡献献率率为为 ,i越越大大,说说明明相相应应的的主主成成分分反反映映综综合合信息的能力越强。信息的能力越强。第八张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.主成分分析的步骤主成分分析的步骤(1)计算协方差矩阵计算协方差矩阵 计算样品数据的协方差矩阵:计算样品数据的协方差矩阵:=(sij)p p,其中,其中 i,j=1,2,p(2)求出求出的特征值及相应的特征向量的特征值及相应的特征向量 求求出出协协方方差差矩矩阵
9、阵的的特特征征值值 1 2 p0及及相相应应的的正正交化单位特征向量:交化单位特征向量:则则X的第的第i个主成分为个主成分为Fi=aiX i=1,2,p。第九张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(3)选择主成分选择主成分 在在已已确确定定的的全全部部p个个主主成成分分中中合合理理选选择择m个个来来实实现现最最终终的评价分析。一般用方差贡献率的评价分析。一般用方差贡献率解解释释主主成成分分Fi所所反反映映的的信信息息量量的的大大小小,m的的确确定定以以累累计计贡献率贡献率达到足够大(一般在达到足够大(一般在85
10、%以上)为原则。以上)为原则。第十张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(4)计算主成分得分计算主成分得分 计算计算n个样品在个样品在m个主成分上的得分:个主成分上的得分:i=1,2,m(5)标准化标准化 实实际际应应用用时时,指指标标的的量量纲纲往往往往不不同同,所所以以在在主主成成分分计计算算之之前前应应先先消消除除量量纲纲的的影影响响。消消除除数数据据的的量量纲纲有有很很多多方方法,常用方法是将原始数据标准化,即做如下数据变换:法,常用方法是将原始数据标准化,即做如下数据变换:其其中中 ,j=1,2,p。
11、标标准准化化后后的的数数据据阵阵记记为为X*,其其中中每每个个列列向向量量(标标准准化化变变量)的均值为量)的均值为0,标准差为,标准差为1,数据无量纲。,数据无量纲。第十一张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 标标准准化化后后变变量量的的协协方方差差矩矩阵阵(Covariance Matrix)=(sij)p p,即即原原变变量量的的相相关关系系数数矩矩阵阵(Correlation Matrix)R=(rij)p p:i,j=1,2,p 此时此时n个样品在个样品在m个主成分上的得分应为:个主成分上的得分应为
12、:Fj=a1jX1*+a2jX2*+.+apjXp*j=1,2,m第十二张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程6.1.2 使用使用INSIGHT模块作主成分分析模块作主成分分析【例例6-1】全国沿海】全国沿海10个省市经济指标的主成分分析个省市经济指标的主成分分析表6-1 全国沿海10个省市经济综合指标假假设设表表6-1中中数数据据已已经经存存放放在在数数据据集集Mylib.jjzb中中,试试对对各地区的经济发展水平进行主成分分析。各地区的经济发展水平进行主成分分析。地区GDPx1人均GDPx2工业增加值x3第
13、三产业增加值x4固定资产投资x5基本建设投资x6社会消费品零售总额x7海关出口总额x8地方财政收入x9辽宁5458.2130001376.22258.41315.95292258.4123.7399.7山东10550116433502.538512288.71070.73181.9211.1610.2河北6076.690471406.72092.61161.6597.11968.345.9302.3天津2022.622068822.8960703.7361.9941.4115.7171.8江苏10636.3143973536.33967.223201141.33215.8384.7643.7上
14、海5408.8406272196.22755.81970.2779.32035.2320.5709浙江7670165702356.530652296.61180.62877.5294.2566.9福建4682135101047.11859964.5397.91663.3173.7272.9广东11769.7150304224.64793.63022.91275.55013.61843.71201.6广西2455.45062367995.7542.2352.71025.515.1186.7第十三张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教
15、程软件与统计应用教程1.1.使用使用INSIGHTINSIGHT模块做主成分分析的步骤模块做主成分分析的步骤 使用使用INSIGHT模块做主成分分析的步骤如下:模块做主成分分析的步骤如下:1)在在INSIGHT模模块块中中打打开开数数据据集集Mylib.jjzb;选选择择菜菜单单“Analyze”“Multivariate(Y X)(多多元元分分析析)”,打开打开“Multivariate(Y X)”对话框;对话框;2)将将做做主主成成分分分分析析的的变变量量x1x9选选为为Y变变量量,将将变变量量diqu选为选为Label变量,如图所示。变量,如图所示。第十四张,PPT共九十一页,创作于20
16、22年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图6-1 多元分析对话框 3)单单击击“Method”按按钮钮,在在打打开开的的对对话话框框中中可可以以选选择择计计算算协协方方差差矩矩阵阵的的特特征征值值或或是是计计算算相相关关系系数数矩矩阵阵的的特特征征值值。系系统统默默认认计计算算相相关关系系数数矩矩阵阵的的特特征征值值和和特特征征向向量量,单击单击“OK”按钮返回。按钮返回。第十五张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4)单单击击“Output”按按钮钮,在在打
17、打开开的的对对话话框框(图图左左)中中包包 括括“Descriptive Statistics”选选 项项、“Bivariate Plots”选选项项以以及及各各种种多多元元分分析析的的选选项项。选选中中“Principal Component Analysis”复复选选框框,单单击击下下面面的的“Principal Component Options”按按 钮钮,打打 开开“Principal Component Options”对对话话框框,选选中中“Eigenvectors”复复选选框框,取取消消“Correlations(Structure)”复复选选框框,如如图右所示。图右所示。第十
18、六张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.主成分的结果分析主成分的结果分析 输输出出的的数数字字分分析析结结果果有有4个个部部分分:简简单单统统计计量量、相相关关系系数数矩矩阵阵、相相关关系系数数矩矩阵阵的的特特征征值值以以及及相相关关系系数数矩矩阵阵的的特征向量。特征向量。第十七张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 3)图图6-5给给出出相相关关系系数数矩矩阵阵的的特特征征值值(Eigenvalue)、上上下下特特征征
19、值值之之差差(Difference)、各各主主成成分分的的方方差差贡贡献献率(率(Proportion)以及累积贡献率()以及累积贡献率(Cumulative)。)。相相关关系系数数矩矩阵阵的的特特征征值值即即各各主主成成分分的的方方差差,可可以以看看出出,第第一一主主成成分分的的方方差差贡贡献献率率为为80.11%,前前两两个个主主成成分分的的累累积积贡贡献献率率已已达达92.33%,因因此此,只只需需用用前前面面2个个主主成成分就可以概括这组数据。分就可以概括这组数据。第十八张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应
20、用教程 4)图图6-6给给出出相相关关系系数数矩矩阵阵的的两两个个最最大大特特征征值值的的特特征征向量,据此可以写出第一和第二主成分得分:向量,据此可以写出第一和第二主成分得分:PCR1=0.35x1*+0.04x2*+0.36x3*+0.37x4*+0.37x5*+0.35x6*+0.36x7*+0.30 x8*+0.36x9*PCR2=-0.21x1*+0.94x2*0.01x3*0.05x4*+0.10 x5*0.02x6*0.14x7*+0.05x8*+0.18x9*对对于于第第一一主主成成分分而而言言,除除了了x2(人人均均GDP)外外,各各变变量量所所占占比比重重均均在在0.3左左
21、右右以以上上,因因此此第第一一主主成成分分(Prin1)主主要要由由x1、x3x9八八个个变变量量解解释释;而而第第二二主主成成分分则则主主要要由由x2这一个变量解释。这一个变量解释。第十九张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5)选选择择菜菜单单“Edit(编编辑辑)”“Observations(观观测测)”“Label in Plots”,在在弹弹出出的的对对话话框框中中选选中中所所有有diqu变变量量值值,单单击击“OK”按按钮钮返返回回,显显示示结结果果中中的的散散点图上出现地区名;点图上出现地区名;
22、图图中中看看出出,上上海海在在第第二二主主成成分分PCR2的的得得分分远远远远高高于于其其他他省省市市,而而在在第第一一主主成成分分PCR1的的得得分分则则处处于于中中间间。广广东东、江江苏苏、山山东东和和浙浙江江则则在在第第1主主成成分分的的得得分分上上位位于于前列。前列。第二十张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 6)回回到到INSIGHT的的数数据据窗窗口口,可可以以看看到到前前两两个个主主成成分的得分情况(如图分的得分情况(如图6-8左)。左)。单单击击数数据据窗窗口口左左上上角角的的箭箭头头,在在弹
23、弹出出的的菜菜单单中中选选择择“Sort(排排序序)”选选项项,在在打打开开的的对对话话框框中中选选定定排排序序变变量量 PCR1,并并 单单 击击“Asc/Des”按按 钮钮 将将 其其 设设 为为 降降 序序(Des),如图),如图6-8所示。所示。第二十一张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 单单击击“OK”按按钮钮返返回回,得得到到按按第第一一主主成成分分排排序序的的结结果果如如图图6-9左左所所示示。同同样样方方法法可可以以得得到到按按第第二二主主成成分分排排序序的结果如图的结果如图6-9右所示。右
24、所示。从从第第一一主主成成分分排排序序情情况况来来看看,沿沿海海19省省市市经经济济发发展展状状况况综综合合排排名名前前5位位的的省省市市依依次次为为:广广东东、江江苏苏、山山东东、浙浙江江、上上海海;从从第第二二主主成成分分排排序序情情况况来来看看,人人均均GDP排排名名前前5位的省市依次是:上海、天津、浙江、广东、福建。位的省市依次是:上海、天津、浙江、广东、福建。第二十二张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程6.1.3 使用使用“分析家分析家”作主成分分析作主成分分析【例例6-2】某某企企业业为为了了了了
25、解解其其客客户户的的信信用用程程度度,评评价价客客户户的的信信用用等等级级,采采用用信信用用评评估估常常用用的的5C方方法法,5C的的目目的是说明顾客违约的可能性。的是说明顾客违约的可能性。1)品格品格x1,指客户的信誉。,指客户的信誉。2)能力能力x2,指客户的偿还能力。,指客户的偿还能力。3)资本资本x3,指客户的财务势力和财务状况。,指客户的财务势力和财务状况。4)附带的担保品附带的担保品x4。5)环境条件环境条件x5,指客户的外部因素。,指客户的外部因素。第二十三张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程
26、通通过过专专家家打打分分,得得到到10个个客客户户5项项指指标标的的得得分分如如表表6-3所示。所示。表6-2 10个客户5项指标的得分假假设设表表6-2中中数数据据已已经经存存放放在在数数据据集集Mylib.xydj中中,试试对对各客户的信用等级进行评估。各客户的信用等级进行评估。客户编号IDx1x2x3x4x5客户编号IDx1x2x3x4x5176.581.57675.871.768579.280.384.476.5270.67367.668.178.57949487.589.592390.787.39181.580884.666.968.864.866.4477.573.670.969.
27、874.8957.760.457.460.865585.668.57062.276.5107069.271.764.968.9第二十四张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.使用使用“分析家分析家”做主成分分析的步骤做主成分分析的步骤 1)在在“分析家分析家”中打开数据集中打开数据集Mylib.xydj;2)选选择择菜菜单单“Statistics(统统计计)”“Multivariate(多多 元元 分分 析析)”“Principal Components(主主 成成 分分 分分 析析)”,打打 开开“Pr
28、incipal Components”对话框;对话框;3)在对话框中输入主成分分析的变量,如图所示。在对话框中输入主成分分析的变量,如图所示。第二十五张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4)单单 击击“Statistics(统统 计计)”按按 钮钮,打打 开开“Principal Components:Statistics”对话框;对话框;在在“#of components:”右右边边的的框框中中指指定定主主成成分分的的个个数数4,如图右。单击,如图右。单击“OK”返回;返回;第二十六张,PPT共九十一页,
29、创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5)单单 击击“Save Data”按按 钮钮,打打 开开“Principal Components:Save Data”对对话话框框,在在该该对对话话框框中中可可选选择择存储数据。存储数据。选选中中“Create and save scores data”,如如图图6-11所所示示。单击单击“OK”返回;返回;第二十七张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 6)单单 击击“Plots”按按 钮钮,打打 开开“
30、Principal Components:Plots”对话框,可以设置图形输出。对话框,可以设置图形输出。在在“Scree Plot(碎碎石石图图)”选选项项卡卡中中(图图左左),选选中中“Create scree plot(建立碎石图建立碎石图)”复选框。复选框。在在“Component Plot(成成分分图图)”选选项项卡卡中中(图图右右),选中选中“Create component Plot(建立成分图建立成分图)”复选框。复选框。第二十八张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.主成分的结果分析主成
31、分的结果分析 输输出出的的数数字字分分析析结结果果包包括括4个个部部分分:简简单单统统计计量量、相相关关系系数数矩矩阵阵、相相关关系系数数矩矩阵阵的的特特征征值值以以及及相相关关系系数数矩矩阵阵的特征向量。的特征向量。1)图图6-13给给出出变变量量的的简简单单统统计计量量,图图中中显显示示5项项指指标标中中品品格格、能能力力和和附附带带担担保保品品是是最最为为重重要要的的,其其标标准准差差高高出其他变量。出其他变量。第二十九张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 2)图图6-14给给出出各各变变量量之之间间的
32、的相相关关系系数数矩矩阵阵。可可以以看看出出,能能力力与与资资本本、附附带带担担保保品品有有着着较较强强的的相相关关性性,表表明明客客户户的的偿偿还还能能力力与与其其财财务务实实力力、财财务务状状况况和和抵抵押押资资产产有有着着重重要的关系。要的关系。第三十张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 3)图图6-15给给出出相相关关系系数数矩矩阵阵的的特特征征值值(Eigenvalues)、上上下下特特征征值值之之差差(Difference)、各各主主成成分分的的方方差差贡贡献献率(率(proportion)以及累
33、积贡献率()以及累积贡献率(Cumulative)。)。相相关关系系数数矩矩阵阵的的特特征征值值即即各各主主成成分分的的方方差差,可可以以看看出出,第第一一主主成成分分的的方方差差贡贡献献率率为为84.22%,第第二二主主成成分分的的方方差差贡贡献献率率为为7.67%,第第三三主主成成分分的的方方差差贡贡献献率率为为5.95%。说说明明第第一一主主成成分分已已经经具具有有足足够够多多的的方方差差贡贡献献率率,可可以以很很好地概括这组数据。好地概括这组数据。第三十一张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在在“分
34、分析析家家”左左边边的的管管理理窗窗口口中中双双击击“Scree plot”项项,打打开开的的“Scree plot”对对话话框框显显示示前前4个个特特征征值值的的“碎碎石石图图”,很很直直观观地地看看到到第第一一主主成成分分远远远远大大于于其其它它特特征征值值,说明第一主成分已经代表了绝大部分信息。说明第一主成分已经代表了绝大部分信息。第三十二张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4)图图6-16给给出出相相关关系系数数矩矩阵阵的的特特征征向向量量,由由最最大大特特征征值所对应的特征向量可以写出第一主成分的
35、表达式。值所对应的特征向量可以写出第一主成分的表达式。Prin1=0.4135x1*+0.4729x2*+0.4656x3*+0.4547x4*+0.4265x5*利利用用特特征征向向量量各各分分量量的的值值可可以以对对主主成成分分进进行行解解释释,对对于于第第一一主主成成分分而而言言,各各变变量量所所占占比比重重大大致致相相等等,且且均均为为正正数数,说说明明第第一一主主成成份份是是对对所所有有指指标标的的一一个个综综合合测测度度,作为综合的信用等级指标,可以用来排序。作为综合的信用等级指标,可以用来排序。第三十三张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSA
36、SSAS软件与统计应用教程软件与统计应用教程 5)在在“分分析析家家”窗窗口口中中,双双击击左左边边项项目目管管理理中中的的“Scores Table”项,打开项,打开“Scores Table”对话框;对话框;选选择择菜菜单单“File”“Save as By SAS Name”,将将其其保保存存为为数数据据表表Scores;然然后后,在在VIEWTABLE中中打打开开该该表表;选选择择菜菜单单“Data”“Sort”,按按主主成成分分Prin1排排序序,结结果果如表如表6-3所示。所示。表6-3 客户的信用等级 在在正正确确评评估估了了顾顾客客的的信信用用等等级级后后,就就能能正正确确制制
37、定定出出对对其其的的信信用用期期、收收账账政政策策等等,这这对对于于加加强强应应收收账账款款的的管管理理大有帮助。大有帮助。客户编号12345678910第一主成分得分3.17-9.0125.09-4.36-6.4113.6235.88-10.34-33.80-13.83名次47256318109第三十四张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程6.1.4 使用使用PRINCOMP过程进行主成分分析过程进行主成分分析1.PRINCOMP1.PRINCOMP过程的功能简介过程的功能简介 1)PRINCOMP过过程程计
38、计算算结结果果有有:简简单单统统计计量量,相相关关阵阵或或协协方方差差阵阵,从从大大到到小小排排序序的的特特征征值值和和相相应应特特征征向向量量,每个主成分解释的方差比例,累计比例等。每个主成分解释的方差比例,累计比例等。由由特特征征向向量量得得出出相相应应的的主主成成分分,用用少少数数几几个个主主成成分分代代替原始变量,并计算主成分得分。替原始变量,并计算主成分得分。2)主主成成分分的的个个数数可可以以由由用用户户自自己己确确定定,主主成成分分的的名名字字可可以以用用户户自自己己规规定定,主主成成分分得得分分是是否否标标准准化化可可由由用用户户规规定。定。第三十五张,PPT共九十一页,创作于
39、2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 3)输输入入数数据据集集可可以以是是原原始始数数据据集集、相相关关阵阵、协协方方差差阵阵等等。输输入入为为原原始始数数据据时时,还还可可以以规规定定从从协协方方差差阵阵出出发发还还是是从从相相关关阵阵出出发发进进行行分分析析,由由协协方方差差阵阵出出发发时时方方差差大大的的变量在分析中起到更大的作用。变量在分析中起到更大的作用。4)该该过过程程还还可可生生成成两两个个输输出出数数据据集集:一一个个包包含含原原始始数数据据及及主主成成分分得得分分,它它可可作作为为主主成成分分回回归归和和聚聚类类分分析
40、析的的输输入入数数据据集集;另另一一个个包包含含有有关关统统计计量量,类类型型为为TYPE=CORR或或COV的的输输出出集集,它它也也可可作作为为其其他他过过程程的的输输入入SAS集。集。第三十六张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.PRINCOMP2.PRINCOMP过程的格式过程的格式 PRINCOMP过程的常用格式如下:过程的常用格式如下:PROC PRINCOMP ;VAR 变量列表变量列表;WEIGHT 变量列表变量列表;FREQ 变量列表变量列表;PARTIAL 变量列表变量列表;BY 变量列
41、表变量列表;RUN;第三十七张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 其中:其中:1)PROC PRINCOMP语语句句用用来来规规定定输输入入输输出出和和一一些些运行选项,其选项及功能见表运行选项,其选项及功能见表6-4。表6-4 PROC PRINCOMP语句的选项 2)VAR语语句句指指定定用用于于主主成成分分分分析析的的变变量量,变变量量必必须须为为数数值值型型(区区间间型型)变变量量。缺缺省省使使用用DATA=输输入入数数据据集集中中所有数值型变量进行主成分分析。所有数值型变量进行主成分分析。DATA=
42、输入数据集,可以是原始数据集,也可以是TYPE=CORR,COV的数据集;OUT=输出包含原始数据和主成分得分的数据集;OUTSTAT=统计量输出数据集;COVARIANCE|COV要求从协方差阵出发计算主成分,缺省为从相关阵出发计算。N=要计算的主成分个数,缺省时全部计算。STANDARD|STD要求在OUT=的数据集中把主成分得分标准化为单位方差。缺省时主成分得分的方差为相应特征值。PREFIX=主成分名字的前缀,缺省时为PRIN1、PRIN2。第三十八张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.应用实例
43、应用实例【例6-3】对全国30个省市自治区经济发展基本情况的八项指标作主成分分析,原始数据如表6-5。表6-5 全国30个省市自治区经济发展基本情况省份GDPx1居民消费水平x2固定资产投资x3职工平均工资x4货物周转量x5居民消费价格指数x6商品零售价格指数x7工业总产值x8北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.2115.81234.85山西1092.481250290.94721717.31
44、16.9115.6697.25内蒙832.881387250.234134781.7117.5116.8419.39辽宁2793.372397387.9949111371.1116.11141840.55吉林1129.21872320.454430497.4115.2114.2762.47黑龙江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.71131642.95江苏5155.2519261434.9559431025.5115.8114.32026.64浙江3524.7922491006.3
45、96619754.4116.6113.5916.59第三十九张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程省份GDPx1居民消费水平x2固定资产投资x3职工平均工资x4货物周转量x5居民消费价格指数x6商品零售价格指数x7工业总产值x8安徽2003.5812544744609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.4433.67江西1205.111182282.844211411.7116.9115.9571.84山东5002.34152712
46、29.5551451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849120116.61220.72湖南2195.71408422.6147971011.8119115.5843.83广东5381.7226991639.838250656.5114111.61396.35广西1606.151314382.595105556118.4116.4554.97海南364.171814198.355340232.1113.5111.364.33四川353412618
47、22.544645902.3118.51171431.81贵州630.07942150.844475301.1121.4117.2324.72云南1206.6812613345149310.4121.3118.1716.65西藏55.98111017.8773824.2117.3114.95.57陕西1000.031208300.274396500.9119117600.98甘肃553.351007114.815493507119.8116.5468.79青海165.31144547.76575361.6118116.3105.8宁夏169.75135561.985079121.8117.11
48、15.3114.4新疆834.571469376.955348339119.7116.7428.76第四十张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(1)数据集数据集 假定上述数据已经存放在数据集假定上述数据已经存放在数据集Mylib.jjfz中。中。(2)执行主成分分析的执行主成分分析的PRINCOMP过程过程 对对数数据据集集jjfz执执行行主主成成分分分分析析的的PRINCOMP过过程程代代码码如下:如下:proc princomp data=Mylib.jjfz n=4 out=w1 outstat=w2;
49、var x1-x8;proc print data=w1;run;第四十一张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(3)结果分析结果分析 在在各各变变量量之之间间的的相相关关系系数数矩矩阵阵中中可可以以看看出出,有有较较强强相相关性的变量依次为:关性的变量依次为:GDP(x1)与与固固定定资资产产投投资资(x3)之之间间的的相相关关系系数数为为0.9506;GDP(x1)与工业总产值与工业总产值(x8)之间的相关系数为之间的相关系数为0.8737;固固定定资资产产投投资资(x3)与与工工业业总总产产值值(x8)之
50、之间间的的相相关关系系数数为为0.7919;居居民民消消费费价价格格指指数数(x6)与与商商品品零零售售价价格格指指数数(x7)之之间间的的相关系数为相关系数为0.7628;货货物物周周转转量量(x5)与与工工业业总总产产值值(x8)之之间间的的相相关关系系数数为为0.6586,等等。,等等。第四十二张,PPT共九十一页,创作于2022年6月STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 图图6-18给给出出相相关关系系数数矩矩阵阵的的特特征征值值、上上下下特特征征值值之之差差、各主成分对方差的贡献率以及累积的贡献率。各主成分对方差的贡献率以及累积的贡献率。相