《实验5 数理统计实验-主成份分析.doc》由会员分享,可在线阅读,更多相关《实验5 数理统计实验-主成份分析.doc(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、统计软件实验报告 实验序号: 5 日期:2012年6月3日班级数理基础科学姓名李强学号20091050080实验名称主成份分析问题背景描述: 在研究实际问题时,往往需要收集多个变量。但这样会使多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复,直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差。为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,同时要求这些新变量尽可能反映原变量的信息。主成分分析正是解决这类问题的有效方法。它们能够提取信息,使变量简化降维,从而使问题更加简单直观。尤其是在社会经济统计综合评价中主成分分析是常被使用的统计分析方
2、法。实验目的:1. 运用主成份分析法对我国31个省市自治区经济发展基本情况进行综合分析和评价。2.掌握主成分分析的思想和具体步骤。掌握SPSS实现主成分分析的具体操作,并对处理结果做出解释。实验原理与数学模型:实验原理: 主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。 通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1 (选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1 包含的信息越多。因此在所有的线性组合中选取的 F1 应该是方差最打的,故称 F1为第一主
3、成分。如果第一主成分不足以代表原来 P 个指标的信息,再考虑选取F2 即选第二个线性组合,为了有效地反映原来信息,F1 已有的信息就不需要再出现再 F2 中,用数学语言表达就是要求 Cov(F1, F2)=0,则称 F2 为第二主成分,依此类推可以构造出第三、第四,第P个主成分。 数学模型: 要求方程组满足以下条件:1. 每个主成分系数平方和为1即:2. 主成分之前互不相关 即:3. 主成分方差依次递减,即实验所用软件及版本:SPSS 16.0主要内容(要点): 对2007年全国31个省市自治区经济发展基本情况的九项指标作主成分分析分析模型(数据如表1)。这九项指标分别为:x1-GDP,x2-
4、年末总人口,x3-财政收入,x4-固定资产投资,x5-居民消费水平,x6-居民消费价格指数,x7-商品零售价格指数,x8-职工平均工资,x9-工业总产值。在分析过程中,提取因子的方法为“主成分”法,并以数据的“相关阵”为分析矩阵,并且提取2个因子,采用“最大方差旋转法”进行因子旋转。实验过程记录(含:基本步骤、主要程序清单及异常情况记录等):一、 实验基本步骤:1.录入数据。2.按照analyze-Data Reduction-Factor的顺序打开。3.选择参与因子分析的变量到Variables框。4.单击“Discriptive”,打开Factor Analysis:Descriptive
5、s对话框,选择Statistics框中的选项Initial solution和Correlation Matrix框中Coefficients选项、Anti-image选项、KMO and Bartletts test of sphericity选项,最后选择Continue;5.单击“Extraction”, 打开 Factor Analysis: Extraction对话框,选择Analyze框中的Correlation matrix选项、Display框中的Unrotated factor solution选项及Scree plot选项、Extract框中Nunber of factor
6、s选项处填入2,最后选择Continue;6.单击”Rotation”,打开Factor Analysis: Rotation对话框,选择Method框中的Varimax选项、Display框中的Rotated solution选项及Loading plot(s), 最后选择Continue;7.单击“Scores”,打开Factor Analysis: Scores对话框,选择Save as variables选项、Display factor score coefficient matrix选项,同时在Method框中选择Regression选项,最后选择Continue;8.单击“Opt
7、ions”,打开Factor Analysis: Options对话框,选择Missing Values框中的Exclude cases pairwise选项、Coefficient Display Format框中的Sorted by size选项,最后选择Continue;9.单击“OK”,即可输出结果。二、实验主要现象,清单数据及结果如下:表1 各变量之间的相关系数矩阵 表2 KMO和Bartlett检验 表 3 逆图像矩阵 表 4公因子方差表 表 5 总方差分解表 表 6(1)、主成分因子荷载矩阵表 表6(2)、旋转后的因子载荷矩阵 图 1 因子碎石图 表 7 因子协方差矩阵 图 2
8、旋转后的因子载荷图 表 8 因子得分系数矩阵 表 9 因子得分协方差矩阵 实验结果报告与实验总结:一、 实验现象,数据及结果分析:1.由表1知,据此九个原始变量之间的相关系数矩阵,可见许多变量之间直接的相关系数较强,其中最高达到了0.976。而且存在信息上的重叠,可知原始变量之间相关程度比较高,变量之间影响较大,能够从中提取公共因子,适合作主成分分析。2.由表2知,Bartletts Test得出的Sig.=0.000,所以应该拒绝零假设即各变量独立的假设,即变量间具有较强的相关性,同时Kaiser-Meyer-Olkin统计量为0.718,大于0.7,说明各变量间信息的重叠程度是比较高的,根
9、据Kaiser给出了KMO度量标准可知原有变量适合进行主因子分析。3.表3是逆图像矩阵。4.在Communalities(公因子方差)中,给出了因子载荷阵的初始公因子方差(Initial)和提取公因子方差(Extraction),提取出两个公因子后,计算出各变量的共同度即各变量中所含原始信息能被提取出的公因子所表示的程度。从上图可知除居民消费水平、商品零售价格指数的共同度外,其他四个变量的共同度都在80%以上,因此在指定条件下提取特征值的变量共同度很大,各个变量的信息丢失都较少。本次因子提取的总体效果较理想。5.由表5可知,由相关系数矩阵计算得到特征值、方差贡献率,第一个因子的特征根值为5.0
10、81,对方差的贡献率为56.459%左右;第二个因子的特征根值为2.889,对方差的贡献率为32.104%;之后的因子的贡献率为0.05371。前两个因子的累积贡献率达到了88.563%,因此,对第三因子及以后的完全可以忽略不计,用前两个因子就可以很好地概括这组数据。而第二组数据项描述了因子解的情况,可以看到,由于指定提取两个因子,两个因子共同解释了原有变量总方差的88.563%。总体上原有变量的信息丢失较少,因子分析效果较理想。又第三组数据项描述了最终因子解的情况,表中得因子旋转后累计方差并没有改变,也就是没有影响原有变量的共同度,但却重新分配了各个因子解释原有变量的方差,改变了各个因子的方
11、差贡献,使得因子更易于解释。6. 由图1因子碎石图也可以看出,横坐标为因子数目,纵坐标为特征根。第一个因子特征根很大,对解释原有变量的贡献率最大;第二个因子特征根较大,对解释原有变量的贡献率也很大;第三个及以后的因子特征根都很小,对解释原有变量的贡献率很小。虽然第三个点是明显拐点,但是第三个及以后因子对应的特征根都小于1,故选择拐点前两个因子做主要成分。7. 表6(1)是主成分因子荷载矩阵表,其中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数aij。系数表示该因子对变量的影响程度。这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分作为x1
12、-GDP,x2-年末总人口,x3-财政收入,x4-固定资产投资,x5-居民消费水平,x6-居民消费价格指数,x7-商品零售价格指数,x8-职工平均工资,x9-工业总产值,九个原先变量的线性组合,系数(比例)为0.965,0.908,0.907,0.830,0.703,-0.693,0.496,0.538,-0.552。如用x1、x2、x3、x4、x5、x6、x7、x8、x9分别表示原先的9个变量,而用y1、y2表示新的变量,那么原先9个变量与第一、第二主成分y1、y2的关系为:X1= 0.965y1+0.081y2X2= 0.908y1+0.337y2X3= 0.907y1+0.405y2X4
13、=-0.830y1+0.494y2X5= 0.703y1-0.520y2X6= -0.693y1+0.620y2X7= 0.496y1-0.791y2X8= 0.538y1+0.767y2X9= -0.552y1+0.702y2相关系数(绝对值)越大,主成分对该变量的代表性也越大。由表6(2)可知旋转后的因子载荷矩阵,利用正交因子模型得出结果。从上表可见,每个因子只有少数几个指标因子载荷较大,因此根据上述进行分类,将9个指标的因子载荷分成两类,列于下表: 公共因子高载荷指标x1GDPF1x4固定资产投资x9工业总产值x8职工平均工资F2x6居民消费价格指数8.旋转后的因子载荷图,直观显示主成分
14、对原始9变量的解释情况.图中横轴表示第一个主成分与原始变量间的相关系数;纵轴表示第二个主成分与原始变量之间的相关系数;每一个变量对应的主成分载荷就对应坐标系中的一个点,比如,GDP变量对应的点是(0.973,0.200)。9.由表 8 因子得分系数矩阵,可写出因子得分函数:F1=0.227GDP+0.241年末总人口+0.171财政收入+0.232固定资产投资+0.007居民消费水平+0.014居民消费价格指数+0.054商品零售价格指数-0.08职工平均工资+0.213工业总产值;F2=-0.01GDP-0.154年末总人口+0.088财政收入-0.044固定资产投资+0.227居民消费水平
15、-0.254居民消费价格指数-0.261商品零售价格指数+0.279职工平均工资+0.009工业总产值。10.由表9因子协方差阵知,各因子不相关。二、 实验结果报告:由主成分得分系数矩阵知,我们通过主成分分析法,将9个评价指标转化为具有典型经济价值的2个综合评价指标。三、 实验总结: 通过本次实验,了解SPSS软件的运行管理方式,熟悉各主要操作模块,窗口及其功能,相关的系统参数设置等。基本掌握了应用SPSS软件Analyze菜单中的Data Reduction模块对数据进行主成分分析,但是在操作过程和文字分析上还是有些生疏,有待进一步的熟练。思考与深入:1. 除此之外,我们还可以进一步求出各个省份的总得分,将各省市的经济发展情况进行排名。2.每个因子(主成分)的系数(载荷)没有很明显的差别,所以不好命名。因此为了对因子进行命名,可以进行旋转,使系数向0和1两极分化。教师评语: