《多元统计分析-因子分析.ppt》由会员分享,可在线阅读,更多相关《多元统计分析-因子分析.ppt(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1第四章 因子分析2第一节 因子分析的基本思想3因子分析的基本思想因子分析的基本思想n因子分析是根据相关矩阵内部的依赖关系,把一些具有错综复杂关系的变量综合为数量较少的几个因子。通过不同因子来分析决定某些变量的本质及其分类的一种统计方法。n简单地说,就是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每组变量代表一个基本结构,这个基本结构称为因子。4例如n某机关对其职员就以下6个方面进行考核,这6个方面是职员的词汇、阅读、写作能力,以及数字、代数、微积分的运算能力。而这6个方面可归结为职员的语文能力和数学能力两个方面。5例如n某公司与48名申请工作的人进行面谈
2、,然后就申请人十五个方面进行打分,这十五个方面分别是:申请书的形式、外貌、学术能力、讨人申请书的形式、外貌、学术能力、讨人喜欢的能力、自信心、洞察力、诚实、推销能喜欢的能力、自信心、洞察力、诚实、推销能力、经验、工作积极性、抱负、理解能力、潜力、经验、工作积极性、抱负、理解能力、潜力、入围公司的强烈程度、适应性力、入围公司的强烈程度、适应性。这15个方面可归结为应聘者的外露能力、讨人喜欢的能外露能力、讨人喜欢的能力、经验、专业能力力、经验、专业能力这4个方面。6因子分析(factoranalysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数
3、几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。7但消费者主要关心的是三个方面,即商店的环境环境、商店的服务服务和商品的价格商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。而这三个公共因子可以表示为:称 是不可观测的潜潜在在因因子子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分,称
4、为特殊因子特殊因子。8注意:注意:n因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义。n主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。n主成分分析:原始变量的线性组合表示新的综合变量,即主成分。n因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。9第二节第二节 因子分析模型因子分析模型 一、数学模型一、数学模型 设 个变量,如果表示为10 称为 公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被前m个公共因子包含的部分。并且满足:即不相关;11即 互不相关,方差为1。12即互
5、不相关,方差不一定相等,。13用矩阵的表达方式14 1 1、因子载荷、因子载荷 aij 的统计意义的统计意义 因子载荷因子载荷 是第是第i i个变量与第个变量与第j j个公共因子的相关系数个公共因子的相关系数模型为模型为 (载载荷荷矩矩阵阵中中第第i i行行,第第j j列列的的元元素素)反反映映了了第第i i个个变变量量与与第第j j个个公公共共因因子子的的相相关关性性。绝绝对对值值越越大大,相关的密切程度越高。相关的密切程度越高。根据公共因子的模型性质,有根据公共因子的模型性质,有 三、三、因子载荷矩阵中的几个统计特征因子载荷矩阵中的几个统计特征15n 因子载荷不是惟一的且满足因子模型的条件
6、设T为一个pp的正交矩阵,令A*=AT,则模型可以表示为162 2、变量共同度的统计意义、变量共同度的统计意义统计意义统计意义:两边求方差两边求方差 所所有有的的公公共共因因子子和和特特殊殊因因子子对对变变量量 的的贡贡献献为为1 1。如如果果 非非常常靠靠近近1 1,非非常常小小,则则因因子子分分析析的的效效果果好好,从从原原变变量量空空间间到到公公共共因因子空间的转化性质好。子空间的转化性质好。定定义义:变变量量 的的共共同同度度是是因因子子载载荷荷矩矩阵阵的的第第i i行行的的元元素的平方和。记为素的平方和。记为17 3 3、公共因子、公共因子 方差贡献的统计意义方差贡献的统计意义因子载
7、荷矩阵中各列元素的平方和 称为所有的 对 的方差贡献和。衡量的相对重要性。18第三节第三节 因子载荷矩阵的估计方法因子载荷矩阵的估计方法设随机向量的均值为,协方差为,为的特征根,为对应的标准化特征向量,则l 主成分分析法主成分分析法19上式给出的 表达式是精确的,然而,它实际上是毫无价值的,因为我们的目的是寻求用少数几个公共因子解释,故略去后面的p-m项的贡献,有20 上式有一个假定,模型中的特殊因子是不重要的,因而从 的分解中忽略了特殊因子的方差。2122 例例假定某地固定资产投资率假定某地固定资产投资率 ,通货膨胀率,通货膨胀率 ,失业,失业率率 ,相关系数矩阵为,相关系数矩阵为试用主成分
8、分析法求因子分析模型。试用主成分分析法求因子分析模型。23特征根为:24可取前两个因子F1和F2为公共因子,第一公因子F1物价就业因子,对X的贡献率为51.67%。第二公因子F2为投资因子,对X的贡献为28.33%。共同度分别为1,。25第四节第四节 因子旋转(正交变换)因子旋转(正交变换)因子分析的数学目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的含义,以便进行进一步的分析。如果每个公共因子的含义不清,则不便于进行实际背景的解释。由于因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平平方方值值向0和1两极分化
9、。主要的正交旋转法有方差最大法方差最大法和和四次方最大法四次方最大法。(一)为什么要旋转因子(一)为什么要旋转因子26 百米跑成绩 跳远成绩 铅球成绩 跳高成绩 400米跑成绩 百米跨栏 铁饼成绩 撑杆跳远成绩 标枪成绩 1500米跑成绩奥运会十项全能运动项目奥运会十项全能运动项目得分数据的因子分析得分数据的因子分析27 因子载荷矩阵可以看出,除第一因子中所有的变量在公共因子上有较大的正载荷,可以称为一般运动因子。其他的3个因子不太容易解释。似乎是跑和投掷的能力对比,似乎是长跑耐力和短跑速度的对比。于是考虑旋转因子,得下表28变量F1F2F3F4共同度X1X2X3X4X5X6X7X8X9X10
10、0.8840.6310.2450.2390.7970.4040.186-0.036-0.0480.0450.1360.1940.8250.1500.0750.1530.8140.1760.735-0.0410.1560.5150.2230.7500.1020.6350.1470.7620.1100.112-0.113-0.006-0.1480.0760.468-0.17-0.0790.2170.1410.9340.840.700.810.650.870.620.720.660.570.8929 通过旋转,因子有了较为明确的含义。通过旋转,因子有了较为明确的含义。百米跑,百米跑,跳跳远远和和 4
11、00米米跑跑,需需要要爆爆发发力力的的项项目目在在 有有较较大大的的载荷,载荷,可以称为短跑速度因子;可以称为短跑速度因子;铅铅球球,铁铁饼饼和和 标标枪枪在在 上上有有较较大大的的载载荷荷,可可以以称为爆发性臂力因子;称为爆发性臂力因子;百百米米跨跨栏栏,撑撑杆杆跳跳远远,跳跳远远和和为为 跳跳高高在在 上上有较大的载荷,有较大的载荷,爆发腿力因子;爆发腿力因子;为长跑耐力因子。为长跑耐力因子。30(二)旋转方法(二)旋转方法1、方差最大法方差最大法2、四次方最大旋转四次方最大旋转31 1 1、方差最大法、方差最大法 方差最大法从简化因子载荷矩阵的方差最大法从简化因子载荷矩阵的每一列每一列出
12、发,使和每个因出发,使和每个因子有关的载荷值平方的方差最大。当只有少数几个变量在某个子有关的载荷值平方的方差最大。当只有少数几个变量在某个因子上有较高的载荷值时,对因子的解释最简单。因子上有较高的载荷值时,对因子的解释最简单。方差最大的直观意义是希望通过因子旋转后,使每个因子上的载荷值尽量拉开距离,一部分的载荷趋于1,另一部分趋于0。3233根据求极值的原理,使根据求极值的原理,使,由此可求出因子轴旋转角度,由此可求出因子轴旋转角度34当公共因子个数m2时,可以将上述m=2的方法用于逐次对每两个公共因子进行旋转。每旋转一次,V值就会增大,即V是单调不减的,并且V是有界的,因为因子载荷的绝对值不
13、大于1。因此,经过若干次旋转后,V变化相对就不大了,即可停止旋转。对两因子的旋转,35 2 2、四次方最大旋转、四次方最大旋转 四次方最大旋转是从简化载荷矩阵的行出发,通过四次方最大旋转是从简化载荷矩阵的行出发,通过旋转初始因子,使每个变量只在一个因子上有较高的旋转初始因子,使每个变量只在一个因子上有较高的载荷,而在其它的因子上尽可能低的载荷。载荷,而在其它的因子上尽可能低的载荷。如果每个变量只在一个因子上有非零的载荷,这时的因子解释是最简单的。四次方最大法通过使因子载荷矩阵中每一行每一行的因子载荷平方的方差达到最大。3637旋转后因子的共同度旋转后因子的共同度设 正交矩阵,做正交变换正交矩阵
14、,做正交变换旋转后因子的共同度没有发生变化!旋转后因子的共同度没有发生变化!38旋转后公共因子的方差贡献旋转后公共因子的方差贡献设 正交矩阵,做正交变换正交矩阵,做正交变换旋转后公共因子的方差贡献发生了变化!旋转后公共因子的方差贡献发生了变化!39第五节第五节 因子得分因子得分(一)因子得分的概念(一)因子得分的概念 前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。40 因子分析的数学模型为:因子得分函数:可见,要求得每个因子
15、的得分,必须求得分函数的系数,而由于pm,所以不能得到精确的得分,只能通过估计。41 2、回归、回归法法 1)思想其中其中4243简记为简记为 其中其中因此因此44而因子而因子载载荷荷阵阵故故45 人人均均要要素素变变量量因因子子分分析析。对我国31个省市自治区的要素状况作因子分析。指标体系中有如下指标:X1:人口(万人)X2:面积(万平方公里)X3:GDP(亿元)X4:人均水资源(立方米/人)X5:人均生物量(吨/人)X6:万人拥有的大学生数(人)X7:万人拥有科学家、工程师数(人)RotatedFactorPatternFACTOR1FACTOR2FACTOR3X1-0.21522-0.2
16、7397X2X3-0.157910.06334X4X5X6-0.11416X7-0.1104146高载荷指标因子命名因子1X2;面积(万平方公里)X4:人均水资源(立方米/人)X5:人均生物量(吨/人)自然资源因子因子2X6:万人拥有的大学生数(人)X7:万人拥有的科学家、工程师数(人)人力资源因子因子3X1;人口(万人)X3:GDP(亿元)经济发展总量因子X1=-0.21522F1-0.27397F2+0.89092F3+X2=0.63973F1-0.28739F2-0.28755F3+X3=-0.15791F1+0.06334F2+0.94855F3+X4=0.95898F1-0.0150
17、1F2-0.07556F3X5=0.97224F1-0.06778F2-0.17535F3X6=-0.11416F1+0.98328F2-0.08300F3X7=-0.11041F1+0.97851F2-0.07246F347StandardizedScoringCoefficientsFACTOR1FACTOR2FACTOR3X20.22724X30.14635X40.47920X50.45583X60.05416X70.0579048REGION FACTOR1FACTOR2FACTOR3beijing-0.081694.23473-0.37983tianjin-0.474221.3178
18、9-0.87891hebei-0.22192-0.358020.86263shanxi1-0.48214-0.32643-0.54219neimeng0.54446-0.66668-0.92621liaoning-0.205110.463770.34087jilin-0.214990.10608-0.57431heilongj 0.10839-0.11717-0.02219shanghai-0.200692.38962-0.04259前三个因子得分49国民生活质量的因素分析国民生活质量的因素分析 国家发展的最终目标,是为了全面提高全体国民的生活质量,满足广大国民日益增长的物质和文化的合理需求。
19、在可持续发展消费的统一理念下,增加社会财富,创自更多的物质文明和精神文明,保持人类的健康延续和生生不息,在人类与自然协同进化的基础上,维系人类与自然的平衡,达到完整的代际公平和区际公平(即时间过程的最大合理性与空间分布的最大合理化)。从1990年开始,联合国开发计划署(UYNP)首次采用“人文发展系数”指标对于国民生活质量进行测度。人文发展系数利用三类内涵丰富的指标组合,即人的健康状况(使用出生时的人均预期寿命表达)、人的智力程度(使用组合的教育成就表达)、人的福利水平(使用人均国民收入或人均GDP表达),并且特别强调三类指标组合的整体表达内涵,去衡量一个国家或地区的社会发展总体状况以及国民生
20、活质量的总水平。50在这个指标体系中有如下的指标:在这个指标体系中有如下的指标:X1预期寿命预期寿命X2成人识字率成人识字率X3综合入学率综合入学率X4人均人均GDP(美元)(美元)X5预期寿命指数预期寿命指数X6教育成就指数教育成就指数X7人均人均GDP指数指数51旋转后的因子结构旋转后的因子结构RotatedFactorPatternFACTOR1FACTOR2FACTOR3X10.38129X2X3X4X50.43295X6X7FACTOR1为经济发展因子经济发展因子FACTOR2为教育成就因子教育成就因子FACTOR3为健康水平因子健康水平因子52被每个因子解释的方差和共同度Varia
21、nceexplainedbyeachfactorFACTOR1FACTOR2FACTOR3X1X2X3X4X5X6X753StandardizedScoringCoefficients标准化得分系数FACTOR1FACTOR2FACTOR3X6-0.092300.62258-0.2487654第六节第六节 因子分析的步骤、展望和建议因子分析的步骤、展望和建议 计算所选原始变量的相关系数矩阵计算所选原始变量的相关系数矩阵 相关系数矩阵描述了原始变量之间的相关关系。可以帮助判断原始变量之间是否存在相关关系,这对因子分析是非常重要的,因为如果所选变量之间无关系,做因子分析是不恰当的。并且相关系数矩阵
22、是估计因子结构的基础。选择分析的变量选择分析的变量用定性分析和定量分析的方法选择变量,因子分析的前提条件是观测变量间有较强的相关性,因为如果变量之间无相关性或相关性较小的话,他们不会有共享因子,所以原始变量间应该有较强的相关性。一、因子分析通常包括以下五个步骤一、因子分析通常包括以下五个步骤55 提取公共因子提取公共因子 这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小。只取方差大于1(或特征值大于1)的那些因子,因为方差小于1的因子其贡献可能很小;按照因子的累计方差贡献率来确定,一般认为要达到70才能符合要求;因
23、子旋转因子旋转 通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。56 计算因子得分计算因子得分 求出各样本的因子得分,有了因子得分值,求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子则可以在许多分析中使用这些因子,例如以因子的得分做聚类分析的变量,做回归分析中的回归的得分做聚类分析的变量,做回归分析中的回归因子。因子。57通过因子分析,取m 个公共因子,以每个公共因子的方差贡献率为权,构造综合评价函数按F值的大小对样品进行排序比较或分类。用因子分析方法进行综合评价用因子分析方法进行
24、综合评价58因子分析是十分主观的,在许多出版的资料中,因子分析是十分主观的,在许多出版的资料中,因子分析模型都用少数可阐述因子提供了合理解因子分析模型都用少数可阐述因子提供了合理解释。实际上,绝大多数因子分析并没有产生如此释。实际上,绝大多数因子分析并没有产生如此明确的结果。不幸的是,评价因子分析质量的法明确的结果。不幸的是,评价因子分析质量的法则尚未很好量化,质量问题只好依赖一个则尚未很好量化,质量问题只好依赖一个“哇!”准则 如果在仔细检查因子分析的时候,研究人员如果在仔细检查因子分析的时候,研究人员能够喊出能够喊出“哇,我明白这些因子哇,我明白这些因子”的时候,就可的时候,就可看着是成功
25、运用了因子分析方法。看着是成功运用了因子分析方法。59作业:作业:n阐述因子分析的基本思想n因子模型与回归模型相比较之异同n因子分析与主成分分析之比较procfactordata=文件名r=vn=?out=文件名文件名1 outstat=文文件名件名2;run;SAS 程序程序data=文件名r=vn=说明说明指定公共因子的个数指定用于分析的数据文件指定旋转的方法,是rotate=varimax的缩写,也可以用rotate=quartimax(r=q)out=outstat=文件名自己取,保存原始数据和因子得分文件名自己取,保存因子分析过程中的统计量特别注意,分号表示一个语句的结束,不能遗漏。特别注意,分号表示一个语句的结束,不能遗漏。主成份分析和因子分析的异同n降维、简化数据结构n基于变量之间的内部依赖关系(R)n可以用于综合评价n可以用于图解样品n和回归分析结合n因子载荷的统计含义相同之处相同之处主成份分析和因子分析的异同n数学模型不同n主成份是原变量的线性组合,是综合的过程;因子分析实际上是对原变量进行分组n因子载荷矩阵n综合评价函数的构造方法(主成份分析:取第一主成份,因子分析:n和回归分析结合时,主成份、公共因子的作用是不同的不同之处不同之处