因子分析的SPSS实现资料.doc-淘文阁

资源描述

《因子分析的SPSS实现资料.doc》由会员分享，可在线阅读，更多相关《因子分析的SPSS实现资料.doc（36页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Good is good, but better carries it.精益求精，善益求善。因子分析的SPSS实现-8.6因子分析的spss实现在前面，我们用SPSS的FactorAnalysis模块实现了主成分分析，实际上，FactorAnalysis主要是SPSS软件进行因子分析的模块，由于主成分分析与因子分析（特别是因子分析中的主成分法）之间有密切的关系，SPSS软件将这两种分析方法放到同一模块中。下面我们先用SPSS软件自带的数据说明FactorAnalysis模块进行因子分析的方法，然后给出一个具体案例。为了与主成分分析进行比较，我们此处仍延用SPSS自带的Employeedata.

2、sav数据集。【例8.6.1】数据集wxm6-5.sav中各变量解释说明见上一章主成分分析，用FactorAnalysis模块进行因子分析。打开wxm6-5.sav数据集并依次选分析(Analyze)=降维（Dimensionreduction）=因子分析（Factor）打开因子分析（Factor）对话框：变量x1-x8进入Variables窗口。点击对话框右侧的Extraction进入Extration对话框，在Method选项框我们看到SPSS默认是用主成分法提取因子，在Analyze框架中看到是从分析相关阵的结构出发求解公因子。点Continue按钮继续。如果这样交由程序运行的话，将得到

3、与主成分分析同样的结果，其中包括公因子解释方差的比例，因子载荷矩阵(即ComponentMatrix)等。选中scores=Displayfactorscorecoefficientmatrix复选框，它要求SPSS输出因子得分矩阵，即标准化主成分（因子）用原始变量线性表示的系数矩阵。点Continue继续，点OK按钮运行，可以得到如下输出结果：CommunalitiesInitialExtraction100m(秒)1.000.668200m（秒)1.000.752400m（秒）1.000.838800m（分）1.000.9001500m（分）1.000.9205000m（分）1.000.8

4、7910000m（分）1.000.891马拉松（分）1.000.774ExtractionMethod:PrincipalComponentAnalysis.TotalVarianceExplainedComponentInitialEigenvaluesExtractionSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%16.62282.77782.7776.62282.77782.7772.87810.97093.7473.1591.99295.7394.1241.55197.2895.0

5、80.99998.2886.068.85099.1377.046.58099.7178.023.283100.000ExtractionMethod:PrincipalComponentAnalysis.ComponentMatrixaComponent1100m(秒).817200m（秒).867400m（秒）.915800m（分）.9491500m（分）.9595000m（分）.93810000m（分）.944马拉松（分）.880ExtractionMethod:PrincipalComponentAnalysis.a.1componentsextracted.ComponentScore

6、CoefficientMatrixComponent1100m(秒).123200m（秒).131400m（秒）.138800m（分）.1431500m（分）.1455000m（分）.14210000m（分）.143马拉松（分）.133ExtractionMethod:PrincipalComponentAnalysis.ComponentScores.TotalVarianceExplainedComponentInitialEigenvaluesExtractionSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianc

7、eCumulative%16.62282.77782.7776.62282.77782.7772.87810.97093.747.87810.97093.7473.1591.99295.7394.1241.55197.2895.080.99998.2886.068.85099.1377.046.58099.7178.023.283100.000ExtractionMethod:PrincipalComponentAnalysis.ComponentMatrixaComponent12100m(秒).817.531200m（秒).867.432400m（秒）.915.233800m（分）.949

8、.0121500m（分）.959-.1315000m（分）.938-.29210000m（分）.944-.287马拉松（分）.880-.411ExtractionMethod:PrincipalComponentAnalysis.a.2componentsextracted.ComponentScoreCoefficientMatrixComponent12100m(秒).123.605200m（秒).131.493400m（秒）.138.265800m（分）.143.0131500m（分）.145-.1495000m（分）.142-.33310000m（分）.143-.328马拉松（分）.1

9、33-.469ExtractionMethod:PrincipalComponentAnalysis.ComponentScores.得到初始载荷矩阵与公因子后，为了解释方便往往需要对因子进行旋转，设置好其他选项后点击FactorAnalysis对话框下部的Rotation按钮，进入Rotation对话框，在Method框架中可以看到SPSS给出了多种进行旋转的方法，系统默认为不旋转。可以选择的旋转方法有Varimax（方差最大正交旋转）、DirectOblimin（直接斜交旋转）、Quartmax（四次方最大正交旋转）、Equamax（平均正交旋转）及Promax(斜交旋转),选中Varim

10、ax选项，此时，Display框架中Rotatedsolution选项处于活动状态，选中该选项以输出旋转结果。点击ContunueOK运行，除上面的结果外还可得到如下输出结果6.3:输由结果可以看到，旋转后公共因子解释原始数据的能力没有提高，但因子载荷矩阵及因子得分系数矩阵都发生了变化，因子载荷矩阵中的元素更倾向于0或者正负1。有时为了公因子的实际意义更容易解释，往往需要放弃公因子之间互不相关的约束而进行斜交旋转，最常用的斜交旋转方法为Promax方法，对此例进行斜交旋转，可得到如下输出结果6.4：输出结果6.4：可以看到，与正交旋转不同，斜交旋转的输出结果中没有RotatedComponen

11、tMatrix而代之以PatternMatrix和StructureMatrix，这里，PatternMatrix即是因子载荷矩阵，而StructureMatrix为公因子与原始变量的相关阵，也就是说，在斜交旋转中，因子载荷系数不再等于公因子与原始变量的相关系数。上面三个表格存在如下关系：StructureMatrix=PatternMatrixCorrelationMatrix为了得到因子得分值，进行如下操作：在FactorAnalysis对话框，点击下方的Scores按钮，进入FactorScores（因子得分）对话框，选中Saveasvariables复选框，即把原始数据各样本点的因子得

12、分值存为变量，可以看到系统默认用回归方法求因子得分系数（Method框架中Regression选项被自动选中），保留此设置。在此例中，我们还选中了Saveasvariables复选框，这一选项要求输出估计的因子得分值，该结果出现在数据窗口。在数据窗口，我们可以看到在原始变量后面出现了三个新的变量，变量名分别为fac1_1，fac2_1，fac3_1。这三个变量即为各个样品的第一公因子、第二公因子、第三公因子的得分。我们在前面的分析中曾提过这些得分是经过标准化的，这一点可以用下面的方法简单的验证：依次点选AnalyzeDescriptiveStatisticsDescriptives进入Desc

13、riptives对话框，选中fac1_1，fac2_1，fac3_1三个变量，点击OK按钮运行，可得到如下结果：输出结果6.5：可以看到，三个变量的标准差均为1（此处由于舍入原因，变量的均值不绝对等于0而是有细微差别）。得到各个样品的因子得分后，我们就可以对样本点进行分析，如用因子得分值代替原始数据进行归类分析或是回归分析等。同时，我们还可以在一张二维图上画出各数据点，描述各样本点之间的相关关系。依次点选GraphsScatter进入Scatterplot对话框，选择Simple按Define按扭，在弹出的SimpleScatterplot对话框中，分别选择fac1_1，fac2_1作为X轴与

14、Y轴，点击OK交由程序运行，可得如下散点图：输出结果6.6：由此可以直观地描述原始数据的散布情况，为了研究需要，还可以很方便地输出第一因子与第三因子，第二因子与第三因子的散点图或同时生成三个因子的散点图，这只需选择不同的变量或图形类型即可，在此不在详述。【例6.2】采用上一章的例子，继续对35个上市公司的八大评价指标进行分析。按照因子分析的步骤：第一步：先计算因子载荷矩阵与特殊度。实际上，上一章的分析过程已经完成了这一部分的工作，按主成分法提取公因子。根据上一章的工作得到了如下结果（此处，为了更充分提取原始变量信息，保留四个公因子）：输出结果6.6：当保留四个公因子时，公因子可以解释原始变量8

15、9.34%的方差，这样就把一个八维的问题降至四维，Communalities表给出了共同度的信息，可以看到，公因子对每一个原始变量的解释能力都较强。ComponentMatrix是因子载荷矩阵，由此表可以写出特殊因子忽略不计时的因子模型，以第一行为例，有：此时所得未旋转的公因子实际意义不好解释，对公因子进行方差最大化旋转：第二步：因子旋转。在FactorAnalysis对话框中点击Rotation按钮进入Rotation对话框，选中Varimax进行方差最大正交旋转，为便于得出结论，在FactorAnalysis点击Optons按钮进入Options对话框，在CoefficientDispla

16、yFormat框架中选中SortedbySize以使输出的载荷矩阵中各列按载荷系数大小排列，使在同一公因子上具有较高载荷的变量排在一起。Continue继续，OK运行，可以得到如下旋转结果：输出结果6.7：RotatedComponentMatrix是旋转后的因子载荷矩阵，可以看到，旋转后因子载荷矩阵产生了很大的变化，第一个公因子基本上反映了总资产周转率与流动资产周转率的信息，反映了净资产收益率与总资产报酬率的部分信息，同时在其他各个原始变量上的系数也为正值，大体可以解释为资产运营情况或是公司总体的运营情况，第二个因子主要集中了已获利息倍数、总资产报酬率及净资产收益率的信息，可以解释为公司的获

17、利能力，第三个公因子主要集中了资本积累率与销售增长率的信息，可以解释为公司的发展能力，第四个公因子主要集中了资产负债率的信息，可以解释为公司的资本结构。这样，经过旋转之后，各因子的意义变得比较明确。需要说明的是，在国有资本金效绩评价规则中对这八个指标的解释也分为四部分，与通过因子分析的结论有相似之处也有区别，其对各指标的解释与归类为：净资产收益率与总资产报酬率两指标反映财务效益状况，总资产周转率与流动资产周转率反映资产运营状况，资产负债率与已获利息倍数反映偿债能力状况，而销售增长率与资本积累率反映公司的发展能力状况。由因子分析的结果来看，国有资本金效绩评价规则给出的指标体系有一定的合理性，而实

18、际研究中，定量分析的结果也总是要与定性的分析结合起来才能得到合理可信的结论。总起来说，规则对八个指标的解释与单单通过因子分析得到的结论有很大相似，也说明此处因子分析的运用比较合理。第三步：因子得分。对原始八个指标提取公因子后，就可以通过分析少数几个公因子来对各上市公司进行比较研究了。在FactorAnalysis对话框中点击Scores按钮进入FactorScores对话框，选中SaveAsVariables复选框输出因子得分值并存为变量，Continue继续，OK运行。可以看到在数据窗口中多了四个变量fac1_1，fac2_1，fac3_1及fac4_1，这几个变量的值是各公司相应公因子的得

19、分。由上面的分析知，前两个公因子大约提取了原始变量72%的信息，可以作出前两个因子的散点图来描述各公司的散布情况。按【例6.1】中的作图方法，对第一、第二个公因子作散点图，可以得到如下结果：输出结果6.8：由图可以看到，由于方正科技在第一公因子上的得分远高于其他公司（4.21），可以说明方正科技的总体运营能力较强，而粤电力A在第二公因子上的得分远高于其他公司（3.73），说明其获利能力较强，类似可以对根据其他各公司在散点图中的位置及第一、第二公因子的意义对各公司的运营能力进行比较。注意上面的散点图不易与各公司对应起来，对此可以画图时在SimpleScatterPlot对话框中选择公司简称进入S

20、etMarkersBy下的窗口，这样，各公司在散点图上就会以不同的颜色，不同的形状画出来，以使散点图的可读性更强。因为第一个因子可以看作是公司的总体运营情况，所以可以通过比较各公司在第一公因子上的得分来对各公司的运营情况加以分析。为了比较方便，可以对各数据按第一公因子的取值进行排序，方法如下：DataSortCases进入SortCases对话框，选择排序变量为fac1_1，在SortOrder框架中选择Descending按降序排列，OK运行。可以得到如下经过排序的结果。行业公司简称fac1_1fac2_1fac3_1fac4_1信息技术业方正科技4.21-0.34-0.050.35电力、煤

21、气及水的生产和供应业穗恒运1.73-0.44-1.19-0.89信息技术业长城电脑1.61-0.450.59-0.42电力、煤气及水的生产和供应业深南电1.191.44-0.330.22电力、煤气及水的生产和供应业深能源0.740.051.40-0.38信息技术业永鼎光缆0.700.24-0.26-0.62信息技术业中兴通讯0.700.230.791.86信息技术业宏图高科0.45-0.170.401.40房地产业业三木集团0.16-0.640.361.50信息技术业海星科技0.15-0.88-0.62-0.93电力、煤气及水的生产和供应业粤电力0.063.73-1.20-0.36信息技术业清

22、华同方0.05-0.254.11-0.47电力、煤气及水的生产和供应业大连热电-0.010.15-0.680.11电力、煤气及水的生产和供应业华银电力-0.13-0.30-0.36-0.24电力、煤气及水的生产和供应业惠天热电-0.190.66-0.540.25房地产业辽房天-0.20-0.47-0.980.60房地产业寰岛实业-0.22-2.06-0.87-1.97电力、煤气及水的生产和供应业原水股份-0.340.48-0.86-0.62信息技术业复华实业-0.35-0.54-0.20-0.05电力、煤气及水的生产和供应业富龙热力-0.350.41-0.17-0.70房地产业长春经开-0.4

23、51.20-0.44-0.59房地产业倍特高新-0.46-0.98-0.250.82房地产业浦东金桥-0.47-0.60-0.32-0.65电力、煤气及水的生产和供应业韶能股份-0.530.441.23-1.64信息技术业青鸟华光-0.530.78-0.13-0.19房地产业兴业房产-0.59-1.03-0.670.51房地产业新黄浦-0.62-0.170.01-0.14房地产业ST中福-0.64-0.550.100.55房地产业中关村-0.690.67-0.930.67房地产业金丰投资-0.810.810.692.43房地产业粤宏远-0.81-1.040.14-0.34房地产业外高桥-0.8

24、2-0.89-0.48-0.14房地产业渝开发-0.83-0.90-0.430.60电力、煤气及水的生产和供应业龙电股份-0.841.301.60-2.06房地产业中华企业-0.890.120.561.53由此表可以看出，信息技术业的总体运营能力要高于电力、煤气及水的生产和供应业与房地产业，而电力、煤气及水的生产和供应业与房地产业的总体运营能力没有显著规律，在各个水平上的分布都有。但是根据此表来判断各产业的总体运营能力的水平还是不太直观，可以尝试对第一公因子的得分值按取值大小进行分类并作出分类后的因子得分与各产业的列联表，不妨按，fac1_1-0.5把第一因子得分分成四类。SPSS软件可以完成

25、上述分类并方便地生成列联表，方法如下：TransformReocdeIntoDifferentVariables进入RecodeIntoDifferentVariables对话框，在对话框子左侧列出了数据窗口中所有的变量名，选择fac1_1进入NumericVariableOutputVariable下的窗口中，此时右侧的OutputVariable框架被击活。在Name文本框中输出要生成的分类变量名，不妨设为Cat，Label处输入“因子得分分类”作为Cat变量的标签，点击OldandNewValues按钮进入OldandNewValues对话框设置分类规则与生成的分类变量的值。在OldVa

26、lue框架中选中Range，在下侧的文本框中分别输入0.5和4.5，在NewValue中输入1，点击newValue框架下侧的Add按钮，此时Add右侧的窗口发生如下变化0.5thru4.51，这表示Cat变量对应第一因子得分从0.5到4.5的部分均被赋值为1，按此方法分别对其他各类赋值为2,3,4。Continue继续，回到RecodeIntoDifferentVariables对话框，点击OutputVariable框架中的Change按钮，OK运行。可以看到Cat变量已出现在数据窗口。在VariableView窗口还可以对其取值设置标签以使其意义更明显，此处不再详述。对Cat的取值设好标签后回到数据窗口，依次点选AnalyzeDescriptiveStatisticsCrosstabs进入Crosstabs对话框，分别选择产业与Cat作为行变量与列变量，OK运行，就可以输出如下列联表：输出结果6.9：由此表可以更清楚地看到，信息技术业总体运营能力普遍较高，在九家公司中有七家公司在第一公因子上的得分都在0以上，这或许与我国2000年信息技术业的蓬勃发展有关。而房地产业总体运营能力普遍较差，在15家公司中有14家在第一公因子上的得分都小于0，这也反映了目前我国房地产业经营的不规范、不景气的状况。而电力、煤气及水的生产和供应业的总体运营能力没有显著规律。-

展开阅读全文