《SPSS进行主成分分析报告.docx》由会员分享,可在线阅读,更多相关《SPSS进行主成分分析报告.docx(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 标准有用试验七、利用 SPSS 进展主成分分析图 1 原始数据未经标准化【例子】 以全国 31 个省市的 8 项经济指标为例,进展主成分分析。第一步:录入或调入数据图 1。其次步:翻开“因子分析”对话框。沿着主菜单的“AnalyzeData ReductionFactor ”的路径图 2翻开因子分析选项框图 3。图 2 翻开因子分析对话框的路径图 3 因子分析选项框第三步:选项设置。首先,在源变量框中选中需要进展分析的变量,点击右边的箭头符号,将需要的变量调入变量Variables栏中图 3。在本例中,全部 8 个变量都要用上,故全部调入图 4。因无特别需要,故不必理睬“Value ”栏。下
2、面逐项设置。图 4 将变量移到变量栏以后 设置 Descriptives 描述 选项。单击 Descriptives 按钮图 4,弹出 Descriptives 对话框图 5。图 5 描述选项框在 Statistics 统计 栏中选中Univariate descriptives 复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目这一栏结果可供检验参考;选中 Initial solution 复选项,则会给出主成分载荷的公因子方差这一栏数据分析时有用。在 Correlation Matrix 栏中,选中Coefficients 复选项,则会给出原始变量的相关系数矩阵分析时可参考;选
3、中 Determinant 复选项,则会给出相关系数矩阵的行列式,假设期望在Excel 中对某些计算过程进展了解,可选此项,否则用途不大。其它复选项一般不用,但在特别状况下可以用到本例不选。设置完成以后,单击Continue 按钮完成设置图 5。 设置 Extraction 选项。翻开 Extraction 对话框图 6。因子提取方法主要有 7 种,在 Method 栏中可以看到,系统默认的提取方法是主成分Principal Components,因此对此栏不作变动,就是认可了主成分分析方法。在 Analyze 栏中,选中 Correlation matrix 复选项,则因子分析基于数据的相关
4、系数矩阵进展分析;假设选中Covariance matrix 复选项,则因子分析基于数据的协方差矩阵进展分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。在 Display 栏中,选中Unrotated factor solution非旋转因子解复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便比照。选中 Scree Plot“山麓”图,则在分析结果中给出特征根按大小分布的折线图形如山麓截面,故得名,以便我们直观地判定因子的提取数量是否准确。在 Extract
5、栏中,有两种方法可以打算提取主成分因子的数目。一是依据特征根Eigenvalues的数值,系统默认的是lc= 1 。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。假设默认lc= 1,则全部方差大于等于1 的主成分将被保存,其余舍弃。假设觉得最终选取的主成分数量缺乏,可以将 lc值降低,例如取lc= 0.9 ;假设认为最终的提取的主成分数量偏多,则可以提高 lc值,例如取l= 1.1。主成分数目是否适宜,要在进展一轮分析以后才能确定。因此,特征根数值c的设定,要在反复试验以后才能打算。一般而言,在初次分析时,最好降低特征根的临界值如取lc= 0.8 ,这样提取的主成分将会偏多,
6、依据初次分析的结果,在其次轮分析过程中可以调整特征根的大小。其次种方法是直接指定主成分的数目即因子数目,这要选中Number of factors 复选项。主成分的数目选多少适宜?开头我们并不格外清楚。因此,首次不妨将数值设大一些,但不能超过变量数目。本例有 8 个变量,因此,最大的主成分提取数目为 8,不得超过此数。在我们第一轮分析中,承受系统默认的方法提取主成分。图 6 提取对话框需要留意的是:主成分计算是利用迭代Iterations方法,系统默认的迭代次数是 25 次。但是,当数据量较大时,25 次迭代是不够的,需要改为50 次、100 次乃至更多。对于本例而言,变量较少,25 次迭代足
7、够,故无需改动。设置完成以后,单击Continue 按钮完成设置图 6。 设置 Scores 设置。选中Save as variables栏,则分析结果中给出标准化的主成分得分在数据表的后面。至于方法复选项,对主成分分析而言,三种方法没有分别,承受系统默认的“回归”Regression法即可。图 7 因子得分对话框选中 Display factor score coefficient matrix,则在分析结果中给出因子得分系数矩阵及其相关矩阵。设置完成以后,单击Continue 按钮完成设置图 7。 其它。对于主成分分析而言,旋转项Rotation可以不必设置;对于数据没有缺失的状况下,Op
8、tion 项可以不必理睬。全部设置完成以后,点击OK 确定,SPSS 很快给出计算结果图 8。图 8 主成分分析的结果第四步,结果解读。在因子分析结果Output中,首先给出的Descriptive Statistics,第一列 Mean对应的变量的算术平均值,计算公式为x= 1 nxjnij i=1其次列 Std. Deviation 对应的是样本标准差,计算公式为s= j1n - 1n (xiji=1- x )2 1/ 2j第三列 Analysis N 对应是样本数目。这一组数据在分析过程中可作参考。MeanStd. DeviationAnalysis N国内生产1921.0931474.
9、8060330居民消费1745.933861.6419330固定资产511.5083402.8854830职工工资5457.6331310.2180530货物周转666.1400459.9669930消费价格117.28672.0253130商品零售114.90671.8980830工业产值862.9980584.5872630Descriptive Statistics接下来是Correlation Matrix(相关系数矩阵),一般而言,相关系数高的变量,大多会进入同一个主成分,但不尽然,除了相关系数外,打算变量在主成分中分布地位的因素还有数据的构造。相关系数矩阵对主成分分析具有参考价值,
10、到底主成分分析是从计算相关系数矩阵的特征根开头的。相关系数阵下面的Determinant=1.133E-0.4是相关矩阵的行列式值, 依据关系式 d e tl(I - R) = 0 可知, det( I)=det(R), 从而Determinant=1.133E-0.4= * * * * * * * 。这一点在后面将会得到验123Correlation Matrixaa. Determinant = 1.133E-04证。45678国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值国内生产1.000.267.951.191.617-.273-.264.874居民消费.2671.0
11、00.426.718-.151-.235-.593.363固定资产.951.4261.000.400.431-.280-.359.792职工工资.191.718.4001.000-.356-.135-.539.104货物周转.617-.151.431-.3561.000-.253.022.659消费价格-.273-.235-.280-.135-.2531.000.763-.125商品零售-.264-.593-.359-.539.022.7631.000-.192工业产值.874.363.792.104.659-.125-.1921.000CommunalitiesExtraction Meth
12、od: Principal Component Analysis.在Communalities中,给出了因子载荷阵的初始主成分方差Initial和提取主成分方差Extraction,后面将会看到它们的含义。InitialExtraction国内生产1.000.945居民消费1.000.800固定资产1.000.902职工工资1.000.875货物周转1.000.857消费价格1.000.957商品零售1.000.929工业产值1.000.903i在Total Variance Explained(全部解释方差) 表的Initial Eigenvalues初始特征根中,给出了按挨次排列的主成分得
13、分的方差(Total),在数值上等于相关系数矩阵的各个特征根,因此可以直接依据特征根计算每一个主成分的方差百分比 % of Variance。由于全部特征根的总和等于变量数目,即有m= =8,故第一个特征根的方差百分比为/m=3.755/8=46.939 , 其次个特征根的百分比为1/m=2.197/8=227.459,其余依此类推。然后可以算出方差累计值Cumulative %。在ExtractionTotal Variance ExplainedInitial EigenvaluesExtraction Sums of Squared LoadingsExtraction Method:
14、Principal Component Analysis.Sums of Squared Loadings,给出了从左边栏目中提取的三个主成分及有关参数,提取的原则是满足1,这一点我们在图6所示的对话框中进展了限定。ComponentTotal% of VarianceCumulative%Total% of VarianceCumulative%13.75546.93946.9393.75546.93946.93922.19727.45974.3982.19727.45974.39831.21515.18689.5841.21515.18689.5844.4025.03194.6155.21
15、32.66097.2756.1381.72498.99976.5E-02.81899.81781.5E-02.183100.000Scree Plot4321012345678C omponent N umberleveu a nig E图8 特征根数值衰减折线图山麓图主成分的数目可以依据相关系数矩阵的特征根来判定,如前所说, 相关系数矩阵的特征根刚好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。依据值打算主成分数目的准则有三:i 只取1的特征根对应的主成分从Total Variance Explained表中可见,第一、其次和第三个主成分对应的值都大于1,这意味着这三个主成分得分
16、的方差都大于1。本例正是依据这条准则提取主成分的。ii 累计百分比到达80%85%以上的值对应的主成分在Total Variance Explained表可以看出,前三个主成分对应的值累计百分比到达89.584%,这示意只要选取三个主成分,信息量就够了。iii 依据特征根变化的突变点打算主成分的数量从特征根分布的折线图Scree Plot上可以看到,第4个值是一个明显的折点, 这示意选取的主成分数目应有p4图8。那么,到底是3个还是4个呢?依据前面两条准则,选3个大致适宜但小有问题。在Component Matrix成分矩阵中,给出了主成分载荷矩阵,每一列载荷值都显示了各个变量与有关主成分的相
17、关系数。以第一列为例, 0.885实际上是国内生产总值Component MatrixaComponentExtraction Method: Principal Component Analysis.a. 3 components extracted.GDP与第一个主成分的相关系数。将标准化的GDP数据与第一主成分得分进展回归, 打算系数R2=0.783图9,简洁算出R=0.885,这正是GDP在第一个主成分上的载荷。123国内生产.885.384.121居民消费.607-.598.271固定资产.912.161.212职工工资.466-.722.368货物周转.486.738-.275消费
18、价格-.509.252.797商品零售-.620.594.438工业产值.823.427.211下面将主成分载荷矩阵拷贝到Excel上面作进一步的处理:计算公因子方差和方差奉献。首先求行平方和,例如,第一行的平方和为h 2=0.88492+0.38362+0.12092=0.94491这是公因子方差。然后求列平方和,例如,第一列的平方和为s 2=0.88492+0.60672+0.82272=3.7551 1这便是方差奉献图10。在Excel中有一个计算平方和的命令sumsq,可以便利地算出一组数据的平方和。明显,列平方和即方差奉献。事实上,有如下关系成立:相关系数矩阵的特征根方差奉献主成分得
19、分的方差至于行平方和,明显与前面Communalities表中的Extraction列对应的数据一样。假设我们将8个主成分全部提取,则主成分载荷的行平方和都等于1图11,即有h =1,s =ij 。到此可以明白:在Communalities中,Initial对应的是初始公因子方差,实际上j是全部主成分的公因子方差;Extraction对应的是提取的主成分的公因子方差,我们提取了3个主成分,故计算公因子方差时只考虑3个主成分。543210y = 0.0012x - 2.2336R2= 0.783值总产生内国 -1 0-2-3-4100020233000400050006000第一主成分图9 国内
20、生产总值GDP的与第一主成分的相关关系标准化数据Component MatrixaComponentExtraction Method: Principal Component Analysis.a. 8 components extracted.图10 主成分方差与方差奉献12345678国内生产.885.384.121-.203-6.87E-021.143E-022.420E-029.192E-02居民消费.607-.598.271.409-7.61E-02.1575.525E-021.317E-02固定资产.912.161.212-.270-7.71E-028.271E-028.113E
21、-02-7.36E-02职工工资.466-.722.368-.164.304-1.64E-02-7.62E-023.949E-03货物周转.486.738-.275.212.3052.254E-026.855E-02-6.02E-03消费价格-.509.252.797.0722.716E-02-.161.1072.435E-03商品零售-.620.594.438-.0273.531E-02.247-9.23E-021.634E-03工业产值.823.427.211.209-9.38E-02-.137-.157-2.30E-02图11 全部主成分的公因子方差和方差奉献提取主成分的原则上要求公因子
22、方差的各个数值尽可能接近,亦即要求它们的方差微小,当公因子方差完全相等时,它们的方差为0,这就到达完善状态。实际应用中, 只要公因子方差数值彼此接近不相差太远就行了。从上面给出的结果可以看出:提取3个主成分的时候,居民消费的公因子方差偏小,这示意提取3个主成分,居民消费方面的信息可能有较多的损失。至于方差奉献,反映对应主成分的重要程度,这一点从方差的统计学意义可以得到理解。在图11中,将最终一行的特征根全部乘到一起,得0.0001133,这正是相关系数矩阵的行列式数值在Excel中,求一组数据的乘积之和的命令是product。最终说明Component Score Coefficient Ma
23、trix成分得分系数矩阵和Component Score Covariance Matrix成分得分协方差矩阵,前者是主成分得分系数,后者是主成分得分的协方差即相关系数。从Component Score Covariance Matrix可以看出, 标准化主成分得分之间的协方差即相关系数为0jk或1j=k,这意味着主成分之间彼此正交即垂直。初学者常将Component Score Coefficient Matrix表中的数据当成主成分得分或因子得分,这是误会。成分得分系数矩阵的数值是主成分载荷除以相应的特征根得到的结果。在Component Matrix表中,将第一列数据分别除以 =3.75
24、5,其次列数值分别除以1 =2.197,,马上得到Component Score Coefficient;反过来,假设将Component Score2Coefficient Matrix表中的各列数据分别乘以 =3.755, =2.197,,则可将其复原12Component Score Coefficient MatrixExtraction Method: Principal Component Analysis. Component Scores.为主成分载荷即Component Matrix中的数据。Component123国内生产.236.175.100居民消费.162-.272.
25、223固定资产.243.073.174职工工资.124-.329.303货物周转.129.336-.227消费价格-.135.115.656商品零售-.165.271.360工业产值.219.194.174Component12311.000.000.0002.0001.000.0003.000.0001.000Component Scoer Covariance MatirxExtraction Method: Principal Component Analysis. Component Scores.实际上,主成分得分在原始数据所在的SPSS当前数据栏中给出,不过给出的都是标准化的主成分
26、得分(图12a);将各个主成分乘以相应的 即特征根的二次方根可以将其复原为未经标准化的主成分得分。a.标准化的主成分得分b. 非标准化的主成分得分图12 两种主成分得分计算标准化主成分得分的协方差或相关系数,结果与Component Score CovarianceMatrix表中的给出的结果全都见图13。第一因子其次因子第三因子第一因子1其次因子0.000001第三因子0.000000.000001图13 主成分得分之间的相关系数矩阵第五步,计算结果分析。从Component Matrix即主成分载荷表中可以看出,国内生产总值、固定资产投资和工业产值在第一主成分上载荷较大,亦即与第一主成分的相关系数较高;职工工资和货物周转量在其次主成分上的载荷确定值较大,即负相关程度较高;消费价格指数在第三主成分上的载荷较大,即相关程度较高。因此可将主成分命名如下:第一主成分:投入产出主成分; 其次主成分:工资物流主成分; 第三主成分:消费价格主成分。作业:课后15题。