《应用多元统计分析习题解答-朱建平-第七章(共12页).doc》由会员分享,可在线阅读,更多相关《应用多元统计分析习题解答-朱建平-第七章(共12页).doc(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上Abbo无私奉献,只收1个金币,BS收5个金币的何老师考简单点啊第七章 因子分析7.1 试述因子分析与主成分分析的联系与区别。答:因子分析与主成分分析的联系是:两种分析方法都是一种降维、简化数据的技术。两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方
2、向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。7.2 因子分析主要可应用于哪些方面?答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。因
3、子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。7.3 简述因子模型中载荷矩阵A的统计意义。 答:对于因子模型 因子载荷阵为与的协方差为:=若对作标准化处理,=,因此 一方面表示对的依赖程度;另一方面也反映了变量对公共因子的相对重要性。变量共同度 说明变量的方差由两部分组成:第一部分为共同度,它描述了全部公共因子对变量的总方差所作的贡献,反映了公共因子对变量的影响程度。第二部分为特殊因子对变量的方差的贡献,通常称为个性方差。而公共因子对的贡献表示同一公共因子对各变量所提供的方差贡
4、献之总和,它是衡量每一个公共因子相对重要性的一个尺度。7.4 在进行因子分析时,为什么要进行因子旋转?最大方差因子旋转的基本思路是什么?答:因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。但有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的,也很难对因子的实际背景进行合理的解释。这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小。最大方差旋转法是一种正交旋转的方法,其基本思路为:A其中令 的第列元素平方的相对方差可定义为最大方差旋转法就是选择正交矩阵,使
5、得矩阵所有m个列元素平方的相对方差之和达到最大。7.5 试分析因子分析模型与线性回归模型的区别与联系。答:因子分析模型是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法的模型。而线性回归模型回归分析的目的是设法找出变量间的依存(数量)关系, 用函数关系式表达出来。因子分析模型中每一个变量都可以表示成公共因子的线性函数与特殊因子之和。即,() 该模型可用矩阵表示为: 而回归分析模型中多元线性回归方程模型为: 其中是常数项,是偏回归系数,是残差。 因子模型满足:(1); (2),即公共因子与特殊因子是不相关的;(3),即各个公共因子不相关且方差为1;(4),即各个特殊因子不相关
6、,方差不要求相等。而回归分析模型满足(1)正态性:随机误差(即残差)e服从均值为 0,方差为s的正态分布;(2)等方差:对于所有的自变量x,残差e的条件方差为s ,且s为常数;(3)独立性:在给定自变量x的条件下,残差e的条件期望值为0(本假设又称零均值假设);(4)无自相关性:各随机误差项e互不相关。两种模型的联系在于都是线性的。因子分析的过程就是一种线性变换。7.6 设某客观现象可用X=()来描述, 在因子分析时,从约相关阵出发计算出特征值为 由于,所以找前两个特征值所对应的公共因子即可, 又知对应的正则化特征向量分别为(0.707,-0.316,0.632)及(0,0.899,0.447
7、0),要求:(1)计算因子载荷矩阵A,并建立因子模型。(2)计算共同度。(3)计算第一公因子对X 的“贡献”。解:(1)根据题意,A=建立因子模型为 (2) (3)因为是从约相关阵计算的特征值,所以公共因子对X的“贡献”为。7.7 利用因子分析方法分析下列30个学生成绩的因子构成,并分析各个学生较适合学文科还是理科。序号数学物理化学语文历史英语1656172848179277777664705536763496567574806975747463574708084817467884756271647667167526557877715772867198310079416750108694975
8、1635511748088647366126784535866561381626956665214716494526152157896818089761669566775948017779080686660188467756070631962678371857720746575729073219174976271662272877279837623827083687785246370609185822574799559745926666177627364279082984771602877908568737629918284546260307884100516060解:令数学成绩为X1,物理为
9、X2 ,化学为X3 ,语文为X4 ,历史为X5,英语为X1,用spss分析学生成绩的因子构成的步骤如下:1. 在SPSS窗口中选择AnalyzeData ReductionFactor,调出因子分析主界面,并将六个变量移入Variables框中。图7.1 因子分析主界面2. 点击Descriptives按钮,展开相应对话框,见图7.2。选择Initial solution复选项。这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。单击Continue按钮,返回主界面。图7.2 Descriptives子对话框3. 点击Extraction按钮,设置因子提取的选项,见图7.3
10、。在Method下拉列表中选择因子提取的方法,SPSS提供了七种提取方法可供选择,一般选择默认选项,即“主成分法”。在Analyze栏中指定用于提取因子的分析矩阵,分别为相关矩阵和协方差矩阵。在Display栏中指定与因子提取有关的输出项,如未旋转的因子载荷阵和因子的碎石图。在Extract栏中指定因子提取的数目,有两种设置方法:一种是在Eigenvalues over后的框中设置提取的因子对应的特征值的范围,系统默认值为1,即要求提取那些特征值大于1的因子;第二种设置方法是直接在Number of factors后的矩形框中输入要求提取的公因子的数目。这里我们均选择系统默认选项,单击Cont
11、inue按钮,返回主界面。图7.3 Extraction子对话框4.点击Rotation按钮,设置因子旋转的方法。这里选择Varimax(方差最大旋转),并选择Display栏中的Rotated solution复选框,在输出窗口中显示旋转后的因子载荷阵。单击Continue按钮,返回主界面。图7.4 Rotation子对话框5.点击Scores按钮,设置因子得分的选项。选中Save as variables复选框,将因子得分作为新变量保存在数据文件中。选中Display factor score coefficient matrix复选框,这样在结果输出窗口中会给出因子得分系数矩阵。单击Co
12、ntinue按钮返回主界面。图7.5 Scores子对话框6. 单击OK按钮,运行因子分析过程。结果分析:表7.1 旋转前因子载荷阵 表7.2 旋转后因子载荷阵成份矩阵a成份12x1-.662.503x2-.530.478x3-.555.605x4.900.233x5.857.357x6.816.498提取方法 :主成分分析法。旋转成份矩阵a成份12x1-.245.795x2-.152.698x3-.099.815x4.867-.335x5.904-.209x6.953-.072 从表7.1中可以看出,每个因子在不同原始变量上的载荷没有明显的差别,为了便于对因子进行命名,需要对因子载荷阵进行旋
13、转,得表7.2。经过旋转后的载荷系数已经明显地两极分化了。第一个公共因子在后三个指标上有较大载荷,说明这三个指标有较强的相关性,可以归为一类,属于文科学习能力的指标;第二个公共因子在前三个指标上有较大载荷,同样可以归为一类,这三个指标同属于理科学习能力的指标。根据表7.3易得: 表7.3 因子得分系数矩阵将每个学生的六门成绩分别代入F1、F2,比较两者的大小,F1大的适合学文,F2大的适合学理。计算结果为学号是1、16、24的学生适合学文,其余均适合学理。7.8 某汽车组织欲根据一系列指标来预测汽车的销售情况,为了避免有些指标间的相关关系影响预测结果,需首先进行因子分析来简化指标系统。下表是抽
14、查欧洲某汽车市场7个品牌不同型号的汽车的各种指标数据,试用因子分析法找出其简化的指标系统。品牌价格发动机功率轴距宽长轴距燃料容量燃料效率A215001.8140101.267.3172.42.63913.228A284003.2225108.170.3192.93.51717.225A420003.5210114.671.4196.63.85018.022B239901.8150102.668.2178.02.99816.427B339502.8200108.776.1192.03.56118.522B620004.2310113.074.0198.23.90223.721C269902.51
15、70107.368.4176.03.17916.626C334002.8193107.368.5176.03.19716.624C389002.8193111.470.9188.03.47218.525D219753.1175109.072.7194.63.36817.525D253003.8240109.072.7196.23.54317.523D319653.8205113.874.7206.83.77818.524D278853.8205112.273.5200.03.59117.525E398954.6275115.374.5207.23.97818.522E396654.627510
16、8.075.5200.63.84319.022E310103.0200107.470.3194.83.77018.022E462255.7255117.577.0201.25.57230.015F132602.2115104.167.9180.92.67614.327F165353.1170107.069.4190.43.05115.025F188903.1175107.572.5200.93.33016.625F193903.4180110.572.7197.93.34017.027F243403.8200101.174.1193.23.50016.825F457055.7345104.57
17、3.6179.73.21019.122F139601.812097.166.7174.32.39813.233F92351.05593.162.6149.41.89510.345F188903.4180110.573.0200.03.38917.027G198402.5163103.769.7190.92.96715.924G244952.5168106.069.2193.03.33216.024G222452.7200113.074.4209.13.45217.026G164802.0132108.071.0186.02.91116.027G283403.5253113.074.4207.7
18、3.56417.023G291853.5253113.074.4197.83.56717.023解:令价格为X1,发动机为X2,功率为X3,轴距为X4,宽为X5,长为X6,轴距为X7,燃料容量为X8,燃料效率为X9,用SPSS找简化的指标系统的具体步骤同7.7。 此时在系统默认情况下提取因子,结果是只抽取了一个成分,从方差贡献来看,前三个成分贡献了90.9%,因此重复因子分析过程,并在第三步Extraction子对话框中的Number of factors后的矩形框中输入3,即为要提取的公因子的数目。因子分析结果如下:表7.4 旋转后的因子得分系数矩阵其简化了指标体系为、,从旋转后的因子得分系
19、数矩阵得:7.9 根据人均 GDP、第三产业从业人员占全部从业人员的比重、第三产业增加值占GDP的比重、人均铺装道路面积、万人拥有公共汽电车、万人拥有医生、百人拥有电话机数、万人拥有高等学校在校学生人数、人均居住面积、百人拥有公共图书馆藏书、人均绿地面积等十一项指标对目前我国省会城市和计划单列市的城市化进行因子分析,并利用因子得分对其进行排序和评价。(数据可从中国统计年鉴查获)(略)7.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用因子分析法对其进行排序和分类,并与聚类分析的结果进行比较。解:对其进行因子分析的步骤与7.7相同,结果如下:表7.5 特征根与方
20、差解释分析表由表7.5可知,提取的两个因子方差贡献达到了82.75%。表7.6 旋转后的因子得分系数矩阵由上面的因子得分矩阵可知:与主成分分析中计算综合得分同理,用进行加权,得排序:F1F2F深圳.42 .93 .19 上海.03 52892.05 .16 厦门.78 .61 .81 广州.86 49740.69 .46 杭州94835.17 45211.64 78906.02 宁波91203.35 43854.84 76004.48 北京.84 17864.73 75594.07 南宁.84 17864.73 75594.07 天津89055.66 32589.70 70930.09 海口8
21、9055.66 32589.70 70930.09 南京82495.01 39893.01 68819.77 青岛79248.60 22497.55 61031.51 大连71586.92 27254.60 57356.24 济南56561.73 25507.43 46593.30 成都76035.96 -27268.81 42875.13 福州51129.12 25240.89 42818.99 乌鲁木齐50117.93 23629.54 41615.16 沈阳52143.03 19031.14 41514.12 武汉53771.95 15104.91 41359.83 长春48409.60
22、 21920.52 39906.60 太原43732.74 15165.88 34562.78 郑州41745.50 15185.84 33219.85 海口39732.42 17509.21 32598.77 昆明41593.76 13263.93 32499.88 兰州37263.61 21287.59 32135.31 长沙42382.92 9666.19 31880.85 石家庄40997.75 11439.53 31509.56 重庆62656.07 -34641.39 31423.58 呼和浩特36273.21 20652.68 31259.02 西安37702.57 7531.88 28017.78 哈尔滨35493.87 9735.24 27225.35 南昌32831.80 14359.21 26902.10 合肥32205.35 13387.12 26164.70 贵阳34499.43 6397.94 25478.85 银川28935.56 16943.87 25086.23 西宁23503.44 9499.18 19008.08 南宁25923.91 4138.99 18930.95 根据F的最终数值进行分类,由于没有给出具体的分类标准,分类具有一定的主观性,只要合理即可。聚类分析的结果见5.11,可将两者进行比较。专心-专注-专业