《主成份和因子分析讲稿.ppt》由会员分享,可在线阅读,更多相关《主成份和因子分析讲稿.ppt(91页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程关于主成份和因子分析第一页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n6.1 6.1 主成分分析主成分分析n6.1.1 主成分分析的概念与步骤主成分分析的概念与步骤n6.1.2 使用使用INSIGHT模块作主成分分析模块作主成分分析n6.1.3 使用使用“分析家分析家”作主成分分析作主成分分析n6.1.4 使用使用PRINCOMP过程进行主成分分析过程进行主成分分析第二页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计
2、应用教程6.1.1 主成分分析的概念与步骤主成分分析的概念与步骤1. 1. 主成分分析基本思想主成分分析基本思想 主成分分析是数学上对数据降维的一种方法。其基本主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标(比如思想是设法将原来众多的具有一定相关性的指标(比如p个指标),重新组合成一组新的互不相关的综合指标个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来来代替原来指标。通常数学上的处理就是将原来p个指个指标作线性组合,作为新的综合指标。但是这种线性组合,标作线性组合,作为新的综合指标。但是这种线性组合,如果不加限
3、制,则可以有很多,应该如何去选取呢?如果不加限制,则可以有很多,应该如何去选取呢?第三页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在所有的线性组合中所选取的在所有的线性组合中所选取的F1应该是方差最大的,应该是方差最大的,故称故称F1为第一主成分。如果第一主成分不足以代表原来为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取个指标的信息,再考虑选取F2即选第二个线性组合。即选第二个线性组合。为了有效地反映原有信息,为了有效地反映原有信息,F1已有的信息就不需要再出已有的信息就不需要再出现在现在F2中,用数学语言表达就是
4、要求中,用数学语言表达就是要求Cov(F1,F2)0。称称F2为第二主成分,依此类推可以构造出第三、第为第二主成分,依此类推可以构造出第三、第四、四、第、第p个主成分。个主成分。第四页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 主成分分析的数学模型主成分分析的数学模型 设有设有n个样品(多元观测值),每个样品观测个样品(多元观测值),每个样品观测p项指标项指标(变量):(变量):X1,X2,Xp,得到原始数据资料阵:,得到原始数据资料阵:其中其中Xi = (x1i,x2i,xni),i = 1,2,p。),.,(.2121222
5、2111211pnpnnppXXXxxxxxxxxxX第五页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 用数据矩阵用数据矩阵X的的p个列向量(即个列向量(即p个指标向量)个指标向量)X1,X2,Xp作线性组合,得综合指标向量:作线性组合,得综合指标向量:简写成:简写成:Fi = a1iX1 + ai2X2 +apiXp i = 1,2,pppppppppppXaXaXaFXaXaXaFXaXaXaF.22112222112212211111第六页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用
6、教程 为了加以限制,对组合系数为了加以限制,对组合系数ai = (a1i,a2i,api)作作如下要求:如下要求:即:即:ai为单位向量:为单位向量:aiai = 1,且由下列原则决定:,且由下列原则决定: 1) Fi与与Fj(ij, i, j = 1, , p)互不相关,即)互不相关,即Cov(Fi,Fj) = ai ai = 0,其中,其中是是X的协方差阵。的协方差阵。 2) F1是是X1,X2,Xp的一切线性组合(系数满足上的一切线性组合(系数满足上述要求)中方差最大的,即述要求)中方差最大的,即 ,其中,其中c = (c1,c2,cp) F2是与是与F1不相关的不相关的X1,X2,Xp
7、一切线性组合中方一切线性组合中方差最大的,差最大的,Fp是与是与F1,F2,Fp-1都不相关的都不相关的X1,X2,Xp的一切线性组合中方差最大的。的一切线性组合中方差最大的。piaaapiii, 1, 122221)(max)(111piiiccXcVarFVar第七页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 满足上述要求的综合指标向量满足上述要求的综合指标向量F1,F2,Fp就是主就是主成分,这成分,这p个主成分从原始指标所提供的信息总量中所个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量提取的
8、信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值数矩阵相应的特征值 i,每一个主成分的组合系数,每一个主成分的组合系数ai = (a1i,a2i,api)就是相应特征值就是相应特征值 i所对应的单位特征向量所对应的单位特征向量ti。方差的贡。方差的贡献率为献率为 , i越大,说明相应的主成分反映综越大,说明相应的主成分反映综合信息的能力越强。合信息的能力越强。1/piiii第八页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3. 3.
9、主成分分析的步骤主成分分析的步骤(1) 计算协方差矩阵计算协方差矩阵 计算样品数据的协方差矩阵:计算样品数据的协方差矩阵: = (sij)p p,其中,其中 i,j = 1,2,p(2) 求出求出的特征值及相应的特征向量的特征值及相应的特征向量 求出协方差矩阵求出协方差矩阵的特征值的特征值 1 2 p0及相应的正及相应的正交化单位特征向量:交化单位特征向量:则则X的第的第i个主成分为个主成分为Fi = aiX i = 1,2,p。nkjkjikiijxxxxns1)(11pppppppaaaaaaaaaaaa21222122121111.,第九页,讲稿共九十一页哦STATSTATSTATSTA
10、TSASSAS软件与统计应用教程软件与统计应用教程(3) 选择主成分选择主成分 在已确定的全部在已确定的全部p个主成分中合理选择个主成分中合理选择m个来实现最个来实现最终的评价分析。一般用方差贡献率终的评价分析。一般用方差贡献率解释主成分解释主成分Fi所反映的信息量的大小,所反映的信息量的大小,m的确定以累计的确定以累计贡献率贡献率达到足够大(一般在达到足够大(一般在85%以上)为原则。以上)为原则。pkkii1/pkkmiimG11/)(第十页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(4) 计算主成分得分计算主成分得分 计算计算n个样
11、品在个样品在m个主成分上的得分:个主成分上的得分: i = 1,2,m(5) 标准化标准化 实际应用时,指标的量纲往往不同,所以在主成分计实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:法,常用方法是将原始数据标准化,即做如下数据变换:其中其中 , ,j = 1,2,p。标准化后的数据阵记为标准化后的数据阵记为X*,其中每个列向量(标准化变,其中每个列向量(标准化变量)的均值为量)的均值为0,标准差为,标准差为1,数据无量纲。,数据无量纲。ppiiii
12、XaXaXaF.2211pjnisxxxjjijij,.,2 , 1;,.,2 , 1*niijjxnx11nijijjxxns122)(11第十一页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 标准化后变量的协方差矩阵(标准化后变量的协方差矩阵(Covariance Matrix) = (sij)p p,即原变量的相关系数矩阵(,即原变量的相关系数矩阵(Correlation Matrix)R= (rij)p p:i,j = 1,2,p 此时此时n个样品在个样品在m个主成分上的得分应为:个主成分上的得分应为:Fj = a1jX1* + a
13、2jX2* +.+ apjXp* j = 1,2,mijntjtjntitinkjkjikinkntjtjjkjntitiikinkkjkiijrxxxxxxxxnxxxxnxxxxnxxns12121112121*)()()(1)(1)(1111第十二页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程6.1.2 使用使用INSIGHT模块作主成分分析模块作主成分分析【例例6-1】全国沿海】全国沿海10个省市经济指标的主成分分析个省市经济指标的主成分分析表6-1 全国沿海10个省市经济综合指标假设表假设表6-1中数据已经存放在数据集中数据已经存
14、放在数据集Mylib.jjzb中,试对中,试对各地区的经济发展水平进行主成分分析。各地区的经济发展水平进行主成分分析。地区GDPx1人均GDPx2工业增加值x3第三产业增加值x4固定资产投资x5基本建设投资x6社会消费品零售总额x7海关出口总额x8地方财政收入x9辽宁5458.2130001376.22258.41315.95292258.4123.7399.7山东10550116433502.538512288.71070.73181.9211.1610.2河北6076.690471406.72092.61161.6597.11968.345.9302.3天津2022.622068822.8
15、960703.7361.9941.4115.7171.8江苏10636.3143973536.33967.223201141.33215.8384.7643.7上海5408.8406272196.22755.81970.2779.32035.2320.5709浙江7670165702356.530652296.61180.62877.5294.2566.9福建4682135101047.11859964.5397.91663.3173.7272.9广东11769.7150304224.64793.63022.91275.55013.61843.71201.6广西2455.45062367995
16、.7542.2352.71025.515.1186.7第十三页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1. 1. 使用使用INSIGHTINSIGHT模块做主成分分析的步骤模块做主成分分析的步骤 使用使用INSIGHT模块做主成分分析的步骤如下:模块做主成分分析的步骤如下: 1) 在在INSIGHT模块中打开数据集模块中打开数据集Mylib.jjzb;选择菜;选择菜单单“Analyze”“Multivariate(Y X)(多元分析)(多元分析)”,打,打开开“Multivariate(Y X)”对话框;对话框; 2) 将做主成分分析的
17、变量将做主成分分析的变量x1x9选为选为Y变量,将变量变量,将变量diqu选为选为Label变量,如图所示。变量,如图所示。第十四页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图6-1 多元分析对话框 3) 单击单击“Method”按钮,在打开的对话框中可以选择按钮,在打开的对话框中可以选择计算协方差矩阵的特征值或是计算相关系数矩阵的特征计算协方差矩阵的特征值或是计算相关系数矩阵的特征值。系统默认计算相关系数矩阵的特征值和特征向量,值。系统默认计算相关系数矩阵的特征值和特征向量,单击单击“OK”按钮返回。按钮返回。第十五页,讲稿共九十一页哦
18、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4) 单击单击“Output”按钮,在打开的对话框(图左)中按钮,在打开的对话框(图左)中包括包括“Descriptive Statistics”选项、选项、“Bivariate Plots”选选项以及各种多元分析的选项。选中项以及各种多元分析的选项。选中“Principal Component Analysis”复选框,单击下面的复选框,单击下面的“Principal Component Options”按钮,打开按钮,打开“Principal Component Options”对话框,选中对话框,选中“Ei
19、genvectors”复选复选框,取消框,取消“Correlations(Structure)”复选框,如图右所复选框,如图右所示。示。 第十六页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 主成分的结果分析主成分的结果分析 输出的数字分析结果有输出的数字分析结果有4个部分:简单统计量、相关个部分:简单统计量、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。特征向量。第十七页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教
20、程 3) 图图6-5给出相关系数矩阵的特征值(给出相关系数矩阵的特征值(Eigenvalue)、)、上下特征值之差(上下特征值之差(Difference)、各主成分的方差贡献)、各主成分的方差贡献率(率(Proportion)以及累积贡献率()以及累积贡献率(Cumulative)。)。 相关系数矩阵的特征值即各主成分的方差,可以看相关系数矩阵的特征值即各主成分的方差,可以看出,第一主成分的方差贡献率为出,第一主成分的方差贡献率为80.11%,前两个主成,前两个主成分的累积贡献率已达分的累积贡献率已达92.33%,因此,只需用前面,因此,只需用前面2个主个主成分就可以概括这组数据。成分就可以概
21、括这组数据。 第十八页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4) 图图6-6给出相关系数矩阵的两个最大特征值的特征给出相关系数矩阵的两个最大特征值的特征向量,据此可以写出第一和第二主成分得分:向量,据此可以写出第一和第二主成分得分:PCR1 = 0.35x1* + 0.04x2* + 0.36x3* + 0.37x4* + 0.37x5* + 0.35x6* + 0.36x7* + 0.30 x8* + 0.36x9*PCR2 = -0.21x1* + 0.94x2* 0.01x3* 0.05x4* + 0.10 x5* 0.02x
22、6* 0.14x7* + 0.05x8* + 0.18x9* 对于第一主成分而言,除了对于第一主成分而言,除了x2(人均(人均GDP)外,各变)外,各变量所占比重均在量所占比重均在0.3左右以上,因此第一主成分左右以上,因此第一主成分(Prin1)主要由主要由x1、x3x9八个变量解释;而第二主成分则主要八个变量解释;而第二主成分则主要由由x2这一个变量解释。这一个变量解释。第十九页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5) 选择菜单选择菜单“Edit(编辑)(编辑)”“Observations(观(观测)测)”“Label in
23、Plots”,在弹出的对话框中选中所,在弹出的对话框中选中所有有diqu变量值,单击变量值,单击“OK”按钮返回,显示结果中的散按钮返回,显示结果中的散点图上出现地区名;点图上出现地区名; 图中看出,上海在第二主成分图中看出,上海在第二主成分PCR2的得分远远高于的得分远远高于其他省市,而在第一主成分其他省市,而在第一主成分PCR1的得分则处于中间。的得分则处于中间。广东、江苏、山东和浙江则在第广东、江苏、山东和浙江则在第1主成分的得分上位于主成分的得分上位于前列。前列。第二十页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 6) 回到回到I
24、NSIGHT的数据窗口,可以看到前两个主成的数据窗口,可以看到前两个主成分的得分情况(如图分的得分情况(如图6-8左)。左)。 单击数据窗口左上角的箭头,在弹出的菜单中选择单击数据窗口左上角的箭头,在弹出的菜单中选择“Sort(排序)(排序)”选项,在打开的对话框中选定排序变选项,在打开的对话框中选定排序变量量PCR1,并单击,并单击“Asc/Des”按钮将其设为降序(按钮将其设为降序(Des),),如图如图6-8所示。所示。 第二十一页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 单击单击“OK”按钮返回,得到按第一主成分排序的结按钮返回
25、,得到按第一主成分排序的结果如图果如图6-9左所示。同样方法可以得到按第二主成分排左所示。同样方法可以得到按第二主成分排序的结果如图序的结果如图6-9右所示。右所示。从第一主成分排序情况来看,沿海从第一主成分排序情况来看,沿海19省市经济发展状况省市经济发展状况综合排名前综合排名前5位的省市依次为:广东、江苏、山东、浙位的省市依次为:广东、江苏、山东、浙江、上海;从第二主成分排序情况来看,人均江、上海;从第二主成分排序情况来看,人均GDP排名排名前前5位的省市依次是:上海、天津、浙江、广东、福建。位的省市依次是:上海、天津、浙江、广东、福建。 第二十二页,讲稿共九十一页哦STATSTATSTA
26、TSTATSASSAS软件与统计应用教程软件与统计应用教程6.1.3 使用使用“分析家分析家”作主成分分析作主成分分析【例例6-2】某企业为了了解其客户的信用程度,评价客】某企业为了了解其客户的信用程度,评价客户的信用等级,采用信用评估常用的户的信用等级,采用信用评估常用的5C方法,方法,5C的目的目的是说明顾客违约的可能性。的是说明顾客违约的可能性。 1) 品格品格x1,指客户的信誉。,指客户的信誉。 2) 能力能力x2,指客户的偿还能力。,指客户的偿还能力。 3) 资本资本x3,指客户的财务势力和财务状况。,指客户的财务势力和财务状况。 4) 附带的担保品附带的担保品x4。 5) 环境条件
27、环境条件x5,指客户的外部因素。,指客户的外部因素。第二十三页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 通过专家打分,得到通过专家打分,得到10个客户个客户5项指标的得分如表项指标的得分如表6-3所示。所示。表6-2 10个客户5项指标的得分假设表假设表6-2中数据已经存放在数据集中数据已经存放在数据集Mylib.xydj中,试对中,试对各客户的信用等级进行评估。各客户的信用等级进行评估。客户编号IDx1x2x3x4x5客户编号IDx1x2x3x4x5176.581.57675.871.768579.280.384.476.5270.6
28、7367.668.178.57949487.589.592390.787.39181.580884.666.968.864.866.4477.573.670.969.874.8957.760.457.460.865585.668.57062.276.5107069.271.764.968.9第二十四页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1. 1. 使用使用“分析家分析家”做主成分分析的步骤做主成分分析的步骤 1) 在在“分析家分析家”中打开数据集中打开数据集Mylib.xydj; 2) 选择菜单选择菜单“Statistics(统计)
29、(统计)”“Multivariate(多元分析)(多元分析)”“Principal Components(主成分分(主成分分析)析)”,打开,打开“Principal Components”对话框;对话框; 3) 在对话框中输入主成分分析的变量,如图所示。在对话框中输入主成分分析的变量,如图所示。第二十五页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4) 单击单击“Statistics(统计)(统计)”按钮,打开按钮,打开“Principal Components:Statistics”对话框;对话框; 在在“# of component
30、s:”右边的框中指定主成分的个右边的框中指定主成分的个数数4,如图右。单击,如图右。单击“OK”返回;返回;第二十六页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5) 单击单击“Save Data”按钮,打开按钮,打开“Principal Components:Save Data”对话框,在该对话框中可选择对话框,在该对话框中可选择存储数据。存储数据。 选中选中“Create and save scores data”,如图,如图6-11所示。所示。单击单击“OK”返回;返回;第二十七页,讲稿共九十一页哦STATSTATSTATSTATS
31、ASSAS软件与统计应用教程软件与统计应用教程 6) 单击单击“Plots”按钮,打开按钮,打开“Principal Components:Plots”对话框,可以设置图形输出。对话框,可以设置图形输出。 在在“Scree Plot (碎石图碎石图)”选项卡中(图左),选中选项卡中(图左),选中“Create scree plot(建立碎石图建立碎石图)”复选框。复选框。 在在“Component Plot (成分图成分图)”选项卡中(图右),选项卡中(图右),选中选中“Create component Plot(建立成分图建立成分图)”复选框。复选框。 第二十八页,讲稿共九十一页哦STATS
32、TATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 主成分的结果分析主成分的结果分析 输出的数字分析结果包括输出的数字分析结果包括4个部分:简单统计量、相个部分:简单统计量、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。的特征向量。 1) 图图6-13给出变量的简单统计量,图中显示给出变量的简单统计量,图中显示5项指标项指标中品格、能力和附带担保品是最为重要的,其标准差高中品格、能力和附带担保品是最为重要的,其标准差高出其他变量。出其他变量。第二十九页,讲稿共九十一页哦STATSTATSTATSTAT
33、SASSAS软件与统计应用教程软件与统计应用教程 2) 图图6-14给出各变量之间的相关系数矩阵。可以看出,给出各变量之间的相关系数矩阵。可以看出,能力与资本、附带担保品有着较强的相关性,表明客户能力与资本、附带担保品有着较强的相关性,表明客户的偿还能力与其财务实力、财务状况和抵押资产有着重的偿还能力与其财务实力、财务状况和抵押资产有着重要的关系。要的关系。第三十页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 3) 图图6-15给出相关系数矩阵的特征值(给出相关系数矩阵的特征值(Eigenvalues)、)、上下特征值之差(上下特征值之差(
34、Difference)、各主成分的方差贡献)、各主成分的方差贡献率(率(proportion)以及累积贡献率()以及累积贡献率(Cumulative)。)。 相关系数矩阵的特征值即各主成分的方差,可以看出,相关系数矩阵的特征值即各主成分的方差,可以看出,第一主成分的方差贡献率为第一主成分的方差贡献率为84.22%,第二主成分的方,第二主成分的方差贡献率为差贡献率为7.67%,第三主成分的方差贡献率为,第三主成分的方差贡献率为5.95%。说明第一主成分已经具有足够多的方差贡献率,可以很说明第一主成分已经具有足够多的方差贡献率,可以很好地概括这组数据。好地概括这组数据。第三十一页,讲稿共九十一页哦
35、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在在“分析家分析家”左边的管理窗口中双击左边的管理窗口中双击“Scree plot”项,项,打开的打开的“Scree plot”对话框显示前对话框显示前4个特征值的个特征值的“碎石碎石图图”,很直观地看到第一主成分远远大于其它特征值,很直观地看到第一主成分远远大于其它特征值,说明第一主成分已经代表了绝大部分信息。说明第一主成分已经代表了绝大部分信息。第三十二页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4) 图图6-16给出相关系数矩阵的特征向量,由最大特征
36、给出相关系数矩阵的特征向量,由最大特征值所对应的特征向量可以写出第一主成分的表达式。值所对应的特征向量可以写出第一主成分的表达式。Prin1 = 0.4135x1* + 0.4729x2* + 0.4656x3* + 0.4547x4* + 0.4265x5* 利用特征向量各分量的值可以对主成分进行解释,对利用特征向量各分量的值可以对主成分进行解释,对于第一主成分而言,各变量所占比重大致相等,且均为于第一主成分而言,各变量所占比重大致相等,且均为正数,说明第一主成份是对所有指标的一个综合测度,正数,说明第一主成份是对所有指标的一个综合测度,作为综合的信用等级指标,可以用来排序。作为综合的信用等
37、级指标,可以用来排序。第三十三页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5) 在在“分析家分析家”窗口中,双击左边项目管理中的窗口中,双击左边项目管理中的“Scores Table”项,打开项,打开“Scores Table”对话框;对话框; 选择菜单选择菜单“File”“Save as By SAS Name”,将其保,将其保存为数据表存为数据表Scores;然后,在;然后,在VIEWTABLE中打开该表;中打开该表;选择菜单选择菜单“Data”“Sort”,按主成分,按主成分Prin1排序,结果排序,结果如表如表6-3所示。所示。
38、表6-3 客户的信用等级 在正确评估了顾客的信用等级后,就能正确制定出对在正确评估了顾客的信用等级后,就能正确制定出对其的信用期、收账政策等,这对于加强应收账款的管理其的信用期、收账政策等,这对于加强应收账款的管理大有帮助。大有帮助。客户编号12345678910第一主成分得分3.17-9.0125.09-4.36-6.4113.6235.88-10.34-33.80-13.83名次47256318109第三十四页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程6.1.4 使用使用PRINCOMP过程进行主成分分析过程进行主成分分析1. PRI
39、NCOMP1. PRINCOMP过程的功能简介过程的功能简介 1) PRINCOMP过程计算结果有:简单统计量,相关过程计算结果有:简单统计量,相关阵或协方差阵,从大到小排序的特征值和相应特征向量,阵或协方差阵,从大到小排序的特征值和相应特征向量,每个主成分解释的方差比例,累计比例等。每个主成分解释的方差比例,累计比例等。 由特征向量得出相应的主成分,用少数几个主成分代由特征向量得出相应的主成分,用少数几个主成分代替原始变量,并计算主成分得分。替原始变量,并计算主成分得分。 2) 主成分的个数可以由用户自己确定,主成分的名字主成分的个数可以由用户自己确定,主成分的名字可以用户自己规定,主成分得
40、分是否标准化可由用户规可以用户自己规定,主成分得分是否标准化可由用户规定。定。第三十五页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 3) 输入数据集可以是原始数据集、相关阵、协方差阵输入数据集可以是原始数据集、相关阵、协方差阵等。输入为原始数据时,还可以规定从协方差阵出发还等。输入为原始数据时,还可以规定从协方差阵出发还是从相关阵出发进行分析,由协方差阵出发时方差大的是从相关阵出发进行分析,由协方差阵出发时方差大的变量在分析中起到更大的作用。变量在分析中起到更大的作用。 4) 该过程还可生成两个输出数据集:一个包含原始数该过程还可生成两个
41、输出数据集:一个包含原始数据及主成分得分,它可作为主成分回归和聚类分析的输据及主成分得分,它可作为主成分回归和聚类分析的输入数据集;另一个包含有关统计量,类型为入数据集;另一个包含有关统计量,类型为TYPE = CORR或或COV的输出集,它也可作为其他过程的输入的输出集,它也可作为其他过程的输入SAS集。集。第三十六页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. PRINCOMP2. PRINCOMP过程的格式过程的格式 PRINCOMP过程的常用格式如下:过程的常用格式如下:PROC PRINCOMP ; VAR 变量列表变量列表;
42、 WEIGHT 变量列表变量列表; FREQ 变量列表变量列表; PARTIAL 变量列表变量列表; BY 变量列表变量列表;RUN;第三十七页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 其中:其中: 1) PROC PRINCOMP语句用来规定输入输出和一些语句用来规定输入输出和一些运行选项,其选项及功能见表运行选项,其选项及功能见表6-4。表6-4 PROC PRINCOMP语句的选项 2) VAR语句指定用于主成分分析的变量,变量必须为语句指定用于主成分分析的变量,变量必须为数值型数值型(区间型区间型)变量。缺省使用变量。缺省使用D
43、ATA = 输入数据集中输入数据集中所有数值型变量进行主成分分析。所有数值型变量进行主成分分析。DATA = 输入数据集,可以是原始数据集,也可以是TYPE = CORR,COV的数据集;OUT = 输出包含原始数据和主成分得分的数据集;OUTSTAT = 统计量输出数据集;COVARIANCE | COV要求从协方差阵出发计算主成分,缺省为从相关阵出发计算。N = 要计算的主成分个数,缺省时全部计算。STANDARD | STD要求在OUT = 的数据集中把主成分得分标准化为单位方差。缺省时主成分得分的方差为相应特征值。PREFIX = 主成分名字的前缀,缺省时为PRIN1、PRIN2。第三
44、十八页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3. 3. 应用实例应用实例【例6-3】对全国30个省市自治区经济发展基本情况的八项指标作主成分分析,原始数据如表6-5。表6-5 全国30个省市自治区经济发展基本情况省份GDPx1居民消费水平x2固定资产投资x3职工平均工资x4货物周转量x5居民消费价格指数x6商品零售价格指数x7工业总产值x8北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.52125
45、8704.8748392033.3115.2115.81234.85山西1092.481250290.94721717.3116.9115.6697.25内蒙832.881387250.234134781.7117.5116.8419.39辽宁2793.372397387.9949111371.1116.11141840.55吉林1129.21872320.454430497.4115.2114.2762.47黑龙江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.71131642.95江苏51
46、55.2519261434.9559431025.5115.8114.32026.64浙江3524.7922491006.396619754.4116.6113.5916.59第三十九页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程省份GDPx1居民消费水平x2固定资产投资x3职工平均工资x4货物周转量x5居民消费价格指数x6商品零售价格指数x7工业总产值x8安徽2003.5812544744609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.4433.67江西1205.1
47、11182282.844211411.7116.9115.9571.84山东5002.3415271229.5551451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849120116.61220.72湖南2195.71408422.6147971011.8119115.5843.83广东5381.7226991639.838250656.5114111.61396.35广西1606.151314382.595105556118.4116.4554.97海南
48、364.171814198.355340232.1113.5111.364.33四川35341261822.544645902.3118.51171431.81贵州630.07942150.844475301.1121.4117.2324.72云南1206.6812613345149310.4121.3118.1716.65西藏55.98111017.8773824.2117.3114.95.57陕西1000.031208300.274396500.9119117600.98甘肃553.351007114.815493507119.8116.5468.79青海165.31144547.7657
49、5361.6118116.3105.8宁夏169.75135561.985079121.8117.1115.3114.4新疆834.571469376.955348339119.7116.7428.76第四十页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(1) 数据集数据集 假定上述数据已经存放在数据集假定上述数据已经存放在数据集Mylib.jjfz中。中。(2) 执行主成分分析的执行主成分分析的PRINCOMP过程过程 对数据集对数据集jjfz执行主成分分析的执行主成分分析的PRINCOMP过程代码过程代码如下:如下:proc princ
50、omp data = Mylib.jjfz n = 4 out = w1 outstat = w2; var x1-x8;proc print data = w1;run;第四十一页,讲稿共九十一页哦STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 (3) 结果分析结果分析 在各变量之间的相关系数矩阵中可以看出,有较强相在各变量之间的相关系数矩阵中可以看出,有较强相关性的变量依次为:关性的变量依次为: GDP(x1)与固定资产投资与固定资产投资(x3)之间的相关系数为之间的相关系数为0.9506; GDP(x1)与工业总产值与工业总产值(x8)之间的相关系数为之