主成分分析和因子分析.pptx

上传人:莉*** 文档编号:87134897 上传时间:2023-04-16 格式:PPTX 页数:62 大小:444.12KB
返回 下载 相关 举报
主成分分析和因子分析.pptx_第1页
第1页 / 共62页
主成分分析和因子分析.pptx_第2页
第2页 / 共62页
点击查看更多>>
资源描述

《主成分分析和因子分析.pptx》由会员分享,可在线阅读,更多相关《主成分分析和因子分析.pptx(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2008年8月模型选择是艺术,而不是科学。William Navidi统计名言第1页/共62页第 11 章 主成分分析和因子分析11.111.1 主成分分析主成分分析11.2 11.2 因子分析因子分析 第2页/共62页2008年8月学习目标l主成分分析和因子分析的基本原理 l主成分分析和因子分析的异同l主成分分析和因子分析的数学模型l用SPSS进行主成分分析和因子分析l用主成分分析和因子分析对实际问题进行综合评价第3页/共62页2008年8月n n在在研研究究实实际际问问题题时时,往往往往需需要要收收集集多多个个变变量量。但但这这样样会会使使多多个个变变量量间间存存在在较较强强的的相相关关关

2、关系系,即即这这些些变变量量间间存存在在较较多多的的信信息息重重复复,直直接接利利用用它它们们进进行行分分析析,不不但但模模型型复复杂杂,还还会会因因为为变变量量间间存存在在多多重重共共线线性性而而引引起起较较大的误差大的误差n n为为能能够够充充分分利利用用数数据据,通通常常希希望望用用较较少少的的新新变变量量代代替替原原来来较较多多的的旧旧变变量量,同同时时要要求求这这些些新新变变量量尽尽可可能能反反映映原变量的信息原变量的信息n n主主成成分分分分析析和和因因子子分分子子正正式式解解决决这这类类问问题题的的有有效效方方法法。它它们们能能够够提提取取信信息息,使使变变量量简简化化降降维维,

3、从从而而使使问问题题更更加简单直观加简单直观主成分分析和因子分析(Principal Component Analysis&Factor Analysis)第4页/共62页2008年8月因子分析得到的是什么?因子分析方法在部分领域应用的一些例子l心理学:心理学家瑟斯登对56项测验的得分进行因子分析,得出了7中主要智利因子:词语理解能力,语言流畅能力、计数能力、空间能力、记忆力、知觉速度和推理能力l教育学:某师范大学在对以幼儿园36岁幼儿为对象,通过80名幼儿教师对480名幼儿好奇心行为特征描述的开放式问卷调查,编制出60个项目的初始问卷,对500名幼儿的初测结果进行探索性因子分析后,形成了33

4、个项目的正式问卷,对1000名幼儿的评价结果进行验证性因子分析,结果表明:教师评价的36岁幼儿好奇心结构包括敏感、对未知事物的关注、好问、喜欢摆弄、探索持久和好奇体验6个因子第5页/共62页2008年8月因子分析得到的是什么?l医学:一位研究者对山东某县20002002年3年的全死因调查资料中不同地区各恶性肿瘤标化死亡率进行因子分析后发现,该县居民恶性肿瘤的发病和死亡具有明显的地区分布。在地区分布中,各种恶性肿瘤的死亡具有一定程度的聚集性。经因子分析得到的4个主因子可以解释10种恶性肿瘤死亡率的74.54;10种恶性肿瘤中,被解释的比例最小也在62以上;而胃癌、白血病、膀胱癌、乳腺癌、结肠癌死

5、亡率被解释的比例均在77以上,表明这10种恶性肿瘤之间存在中等偏强的内在联系和地区分布特点第6页/共62页2008年8月因子分析得到的是什么?l地质学:海南岛的石绿铁矿及外围地区有透辉石透闪岩石和阳起石两种岩石。地质工作者对两种岩石标本的11种化验数据进行了因子分析,分别得到5种和4种主要因子。结果表明,透辉石透闪岩石与阳起石有明显区别,前者的元素组合属碳酸盐沉积型,后者属岩浆分异型。透辉石透闪岩石中铁的沉积与泥质成分有关,属于正常沉积。由此推断石绿铁矿的主要成矿为沉积作用,并据此提出了找矿标志和找矿方向l上市公司评价:某研究者选择35家能源类上市公司,根据2007年的12项经营指标数据,采用

6、因子分析法分别按盈利能力、资产管理能力、偿债能力及经营业绩综合评分等方面对35家上市公司进行了排名。其中:盈利能力排在前5位的是:神火股份、海油工程、兰花科创、潞安环能和中国石油;经营业绩综合得分排在前5位的是:神火股份、潞安环能、兰花科创、海油工程和开滦股份第7页/共62页11.1 主成分分析 11.1.1 主成分分析的基本原理 11.1.2 主成分分析的数学模型 11.1.3 主成分分析的步骤第 11 章 主成分分析和因子分析第8页/共62页11.1.1 主成分分析的基本原理11.1 主成分分析第9页/共62页2008年8月n主成分的概念由主成分的概念由Karl PearsonKarl P

7、earson在在19011901年提出年提出n考察多个变量间相关性一种多元统计方法考察多个变量间相关性一种多元统计方法n研研 究究 如如 何何 通通 过过 少少 数数 几几 个个 主主 成成 分分(principal(principal component)component)来来解解释释多多个个变变量量间间的的内内部部结结构构。即即从从原原始始变变量量中中导导出出少少数数几几个个主主分分量量,使使它它们们尽尽可可能能多地保留原始变量的信息,且彼此间互不相关多地保留原始变量的信息,且彼此间互不相关n主成分分析的目的:数据的压缩;数据的解释主成分分析的目的:数据的压缩;数据的解释l l常常被被用

8、用来来寻寻找找判判断断事事物物或或现现象象的的综综合合指指标标,并并对对综综合指标所包含的信息进行适当的解释合指标所包含的信息进行适当的解释什么是主成分分析?(principal component analysis)第10页/共62页2008年8月n n对对这这两两个个相相关关变变量量所所携携带带的的信信息息(在在统统计计上上信信息息往往往往是是指数据的变异指数据的变异)进行浓缩处理进行浓缩处理n n假假定定只只有有两两个个变变量量x x1 1和和x x2 2,从从散散点点图图可可见见两两个个变变量量存存在相关关系,这意味着两个变量提供的信息有重叠在相关关系,这意味着两个变量提供的信息有重叠

9、主成分分析的基本思想(以两个变量为例)n n如如果果把把两两个个变变量量用用一一个个变变量量来来表表示示,同同时时这这一一个个新新的的变变量量又又尽尽可可能能包包含含原原来来的的两两个个变变量量的的信信息息,这这就就是是降降维维的的过程过程第11页/共62页2008年8月n n椭椭圆圆中中有有一一个个长长轴轴和和一一个个短短轴轴,称称为为主主轴轴。在在长长轴轴方方向向,数数据据的变化明显较大,而短轴方向变化则较小的变化明显较大,而短轴方向变化则较小n n如如果果沿沿着着长长轴轴方方向向设设定定一一个个新新的的坐坐标标系系,则则新新产产生生的的两两个个变变量量和和原原始始变变量量间间存存在在一一

10、定定的的数数学学换换算算关关系系,同同时时这这两两个个新新变变量量之之间彼此不相关,而且长轴变量携带了大部分的数据变化信息,间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而而主成分分析的基本思想(以两个变量为例)短短轴轴变变量量只只携携带带了了一一小小部分变化的信息部分变化的信息(变异变异)n n此此时时,只只需需要要用用长长轴轴方方向向的的变变量量就就可可以以代代表表原原来来两两个个变变量量的的信信息息。这这样样也也就就把把原原来来的的两两个个变变量量降降维维成成了了一一个个变变量量。长长短短轴轴相相差差越越大大,降降维维也就越合理也就越合理第12页/共62页2008年8月n n多多

11、维维变变量量的的情情形形类类似似,只只不不过过是是一一个个高高维维椭椭球球,无无法法直观地观察直观地观察n n每每个个变变量量都都有有一一个个坐坐标标轴轴,所所以以有有几几个个变变量量就就有有几几主主轴轴。首首先先把把椭椭球球的的各各个个主主轴轴都都找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量,这这样样,降降维维过程也就完成了过程也就完成了主成分分析的基本思想(以两个变量为例)n n找找出出的的这这些些新新变变量量是是原原来来变变量量的的线线性性组合,叫做主成分组合,叫做主成分第13页/共62页11.1.2 主成分分析的数学模型11

12、.1 主成分分析第14页/共62页2008年8月n n数数学学上上的的处处理理是是将将原原始始的的p p个个变变量量作作线线性性组组合合,作作为为新新的的变量变量n n设设p p个个原原始始变变量量为为 ,新新的的变变量量(即即主主成成分分)为为 ,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为主成分分析的数学模型主成分分析的数学模型aij为第i个主成分yi和原来的第j个变量xj之间的线性相关系数,称为载荷(loading)。比如,a11表示第1主成分和原来的第1个变量之间的相关系数,a21表示第2主成分和原来的第1个变量之间的相关系数第15页/共62页2008年8月n选择

13、几个主成分?选择几个主成分?选择标准是什么?选择标准是什么?n被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴总程度之和的大部分总程度之和的大部分n在在统统计计上上,主主成成分分所所代代表表的的原原始始变变量量的的信信息息用用其其方方差差来来表表示示。因因此此,所所选选择择的的第第一一个个主主成成分分是是所所有主成分中的方差最大者,即有主成分中的方差最大者,即Var(yVar(yi i)最大最大n如如果果第第一一个个主主成成分分不不足足以以代代表表原原来来的的个个变变量量,在在考虑选择第二个主成分,依次类推考虑选择第二个主成分,依次类推n这些主成分互不相关,

14、且方差递减这些主成分互不相关,且方差递减主成分的选择第16页/共62页2008年8月n究竟选择几个主成分才合适呢?究竟选择几个主成分才合适呢?n一一般般要要求求所所选选主主成成分分的的方方差差总总和和占占全全部部方方差差的的80%80%以以上上就就可可以以了了。当当然然,这这只只是是一一个个大大体体标标准准,具体选择几个要看实际情况具体选择几个要看实际情况n如如果果原原来来的的变变量量之之间间的的相相关关程程度度高高,降降维维的的效效果果就就会会好好一一些些,所所选选的的主主成成分分就就会会少少一一些些,如如果果原原来来的的变变量量之之间间本本身身就就不不怎怎么么相相关关,降降维维的的效效果果

15、自自然就不好然就不好n不相关的变量就只能自己代表自己了不相关的变量就只能自己代表自己了主成分的选择第17页/共62页11.1.3 主成分分析的步骤11.1 主成分分析第18页/共62页2008年8月n对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响n根据标准化后的数据矩阵求出相关系数矩阵n求出协方差矩阵的特征根和特征向量n确定主成分,并对各主成分所包含的信息给予适当的解释主成分分析的步骤第19页/共62页2008年8月【例】根据我国31个省市自治区2006年的6项主要经济指标数据,进行主成分分析,找出主成分并进行适当的解释主成分分析(实例分析)第20页/共62页2008年8月SPSS

16、的输出结果各变量之间的相关系数矩阵各变量之间的相关系数矩阵变量之间的存在较强的相关关系,适合作主成分分析 第21页/共62页2008年8月SPSS的输出结果(选择主成分)各主成分所解释的原始变量的方差各主成分所解释的原始变量的方差该表是选则主成分的主要依据第22页/共62页2008年8月n n“Initial EigenvaluesInitial Eigenvalues”(初始特征根初始特征根)l l实际上就是本例中的实际上就是本例中的6 6个主轴的长度个主轴的长度l l特特征征根根反反映映了了主主成成分分对对原原始始变变量量的的影影响响程程度度,表表示示引引入入该主成分后可以解释原始变量的信

17、息该主成分后可以解释原始变量的信息l l特特征征根根又又叫叫方方差差,某某个个特特征征根根占占总总特特征征根根的的比比例例称称为为主主成分方差贡献率成分方差贡献率l l设特征根为设特征根为,则第,则第i i个主成分的方差贡献率为个主成分的方差贡献率为l l比比如如,第第一一个个主主成成分分的的特特征征根根为为3.9633.963,占占总总特特征征根根的的的的比比例例(方方差差贡贡献献率率)为为66.052%66.052%,这这表表示示第第一一个个主主成成分分解解释释了了原原始始6 6个个变变量量66.052%66.052%的的信信息息,可可见见第第一一个个主主成成分分对对原原来的来的6 6个变

18、量解释的已经很充分了个变量解释的已经很充分了根据什么选择主成分?第23页/共62页2008年8月n n根据主成分贡献率根据主成分贡献率l l一一般般来来说说,主主成成分分的的累累计计方方差差贡贡献献率率达达到到80%80%以以上上的的前前几个主成分,都可以选作最后的主成分几个主成分,都可以选作最后的主成分l l比如表比如表13.313.3中前两个主成分的累计方差贡献率为中前两个主成分的累计方差贡献率为95.57%95.57%n n根据特特征根的大小根据特特征根的大小l l一一般般情情况况下下,当当特特征征根根小小于于1 1时时,就就不不再再选选作作主主成成分分了了,因因为为该该主主成成分分的的

19、解解释释力力度度还还不不如如直直接接用用原原始始变变量量解解的的释释力度大力度大l l比比如如表表13.313.3中中除除前前两两个个外外,其其他他主主成成分分的的特特征征根根都都小小于于1 1。所以。所以SPSSSPSS只选择了两个主成分只选择了两个主成分l l就就本本例例而而言言,两两个个主主成成分分就就足足以以说说明明各各地地区区的的经经济济发发展展状况了状况了根据什么选择主成分?第24页/共62页2008年8月nSPSS还提供了一个更为直观的图形工具来帮助选择主成分,即碎石图(Scree Plot)n从碎石图可以看到6个主轴长度变化的趋势n实践中,通常结合具体情况,选择碎石图中变化趋势

20、出现拐点的前几个主成分作为原先变量的代表,该例中选择前两个主成分即可根据什么选择主成分?(Scree Plot)拐点第25页/共62页2008年8月怎样解释主成分?主成分的因子载荷矩阵主成分的因子载荷矩阵 l表1中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数aijl比如,第一主成分所在列的系数0.670表示第1个主成分和原来的第一个变量(人均GDP)之间的线性相关系数。这个系数越大,说明主成分对该变量的代表性就越大第26页/共62页2008年8月n根据主成分分析模型和因子载荷,可以得到两个主成分与原来6个变量之间的线性组合表达式如下 怎样解释主成分?(主成分与

21、原始变量的关系)注意:表达式中的不是原始变量,而是标准化变量第27页/共62页2008年8月n载荷图(Loading Plot)直观显示主成分对原始6变量的解释情况n图中横轴表示第一个主成分与原始变量间的相关系数;纵轴表示第二个主成分与原始变量之间的相关系数n每一个变量对应的主成分载荷就对应坐标系中的一个点,比如,人均GDP变量对应的点是(0.670,0.725)n第一个主成分很充分地解释了原始的6个变量(与每个原始变量都有较强的正相关关系),第二个主成分则较好地解释了居民消费水平、人均GDP和年末总人口这3个变量(与它们的相关关系较高),而与其他变量的关系则较弱(相关系数的点靠近坐标轴)怎样

22、解释主成分?(Loading Plot)相关系数的点越远离坐标轴,主成分对原始变量的代表性就越大。这3个点远离主成分2的坐标第28页/共62页11.2 因子分析 11.2.1 因子分析的意义和数学模型 11.2.2 因子分析的步骤 11.2.3 因子分析的应用第 11 章 主成分分析和因子分析第29页/共62页11.2.1 因子分析的意义和数学模型11.2 因子分析第30页/共62页2008年8月n n由由Charles SpearmanCharles Spearman于于19041904年首次提出的年首次提出的n n与与主主成成分分分分析析类类似似,它它们们都都是是要要找找出出少少数数几几个

23、个新新的的变量来代替原始变量变量来代替原始变量n n不不同同之之处处:主主成成分分分分析析中中的的主主成成分分个个数数与与原原始始变变量量个个数数是是一一样样的的,即即有有几几个个变变量量就就有有几几个个主主成成分分,只只不不过过最最后后我我们们确确定定了了少少数数几几个个主主成成分分而而已已。而而因因子子分分析析则则需需要要事事先先确确定定要要找找几几个个成成分分,也也称称为为因因子子(factor)(factor),然然后后将将原原始始变变量量综综合合为为少少数数的的几几个个因因子子,以以再再现现原原始始变变量量与与因因子子之之间间的的关关系系,一一般般来来说说,因因子的个数会远远少于原始

24、变量的个数子的个数会远远少于原始变量的个数什么是因子分析?(factor analysis)第31页/共62页2008年8月n n因因子子分分析析可可以以看看作作是是主主成成分分分分析析的的推推广广和和扩扩展展,但但它它对对问问题题的的研研究究更更深深入入、更更细细致致一一些些。实实际际上上,主主成分分析可以看作是因子分析的一个特例成分分析可以看作是因子分析的一个特例n n简简言言之之,因因子子分分析析是是通通过过对对变变量量之之间间关关系系的的研研究究,找找出出能能综综合合原原始始变变量量的的少少数数几几个个因因子子,使使得得少少数数因因子子能能够够反反映映原原始始变变量量的的绝绝大大部部分

25、分信信息息,然然后后根根据据相相关关性性的的大大小小将将原原始始变变量量分分组组,使使得得组组内内的的变变量量之之间间相相关关性性较较高高,而而不不同同组组的的变变量量之之间间相相关关性性较较低低。因因此此,因因子子分分析析属属于于多多元元统统计计中中处处理理降降维维的的一一种种统统计计方方法法,其其目目的的就就是是要要减减少少变变量量的的个个数数,用用少少数数因因子子代表多个原始变量代表多个原始变量什么是因子分析?(factor analysis)第32页/共62页2008年8月n因因变变量量和和因因子子个个数数的的不不一一致致,使使得得不不仅仅在在数数学学模模型型上上,而而且且在在实实际际

26、求求解解过过程程中中,因因子子分分析析和和主主成成分分分分析析都都有有着着一一定定的的区区别别,计计算算上上因因子子分分析析更更为为复杂复杂n因因子子分分析析可可能能存存在在的的一一个个优优点点是是:在在对对主主成成分分和和原原始始变变量量之之间间的的关关系系进进行行描描述述时时,如如果果主主成成分分的的直直观观意意义义比比较较模模糊糊不不易易解解释释,主主成成分分分分析析没没有有更更好好的的改改进进方方法法;因因子子分分析析则则额额外外提提供供了了“因因子子旋旋转转(factor(factor rotation)”rotation)”这这样样一一个个步步骤骤,可可以以使使分分析析结果尽可能达

27、到易于解释且更为合理的目的结果尽可能达到易于解释且更为合理的目的因子分析的数学模型第33页/共62页2008年8月n n原始的原始的p p个变量表达为个变量表达为k k个因子的线性组合变量个因子的线性组合变量n n设设p p个个原原始始变变量量为为 ,要要寻寻找找的的k k个个因因子子(k k p p)为为 ,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为因子分析的数学模型因子分析的数学模型系数aij为第个i变量与第k个因子之间的线性相关系数,反映变量与因子之间的相关 程 度,也 称 为 载 荷(loading)。由于因子出现在每个原始变量与因子的线性组合中,因此也称为公因

28、子。为特殊因子,代表公因子以外的因素影响第34页/共62页2008年8月n共同度量(Communality)n因子的方差贡献率 因子分析的数学模型(共同度量Communality和公因子的方差贡献率)变量xi的信息能够被k个公因子解释的程度,用 k个公因子对第i个变量xi的方差贡献率表示第j个公因子对变量xi的提供的方差总和,反映第j个公因子的相对重要程度第35页/共62页11.2.2 因子分析的步骤11.2 因子分析第36页/共62页2008年8月n n因子分析要求样本的个数要足够多因子分析要求样本的个数要足够多l l一一般般要要求求样样本本的的个个数数至至少少是是变变量量的的5 5倍倍以以

29、上上。同同时时,样样本本总数据量理论要求应该在总数据量理论要求应该在100100以上以上n n用于因子分析的变量必须是相关的用于因子分析的变量必须是相关的l l如如果果原原始始变变量量都都是是独独立立的的,意意味味着着每每个个变变量量的的作作用用都都是是不不可替代的,则无法降维可替代的,则无法降维n n检验方法检验方法l l计计算算各各变变量量之之间间的的相相关关矩矩阵阵,观观察察各各相相关关系系数数。若若相相关关矩矩阵中的大部分相关系数小于阵中的大部分相关系数小于0.30.3,则不适合作因子分析,则不适合作因子分析l l使使用用Kaiser-Meyer-OlkinKaiser-Meyer-O

30、lkin检检验验(简简称称KMOKMO检检验验)和和 BartlettBartlett球球度度检检验验(Bartletts Bartletts test test of of sphericitysphericity)来来判判断断(SPSS(SPSS将将两两种种检检验统称为验统称为“KMO and Bartletts test of sphericity”)KMO and Bartletts test of sphericity”)因子分析的步骤(数据检验)第37页/共62页2008年8月n nBartlettBartlett球度检验球度检验l l以以变变量量的的相相关关系系数数矩矩阵阵为为基

31、基础础,假假设设相相关关系系数数矩矩阵阵是是单单位位阵阵(对对角角线线元元素素不不为为0 0,非非对对角角线线元元素素均均为为0)0)。如如果果相相关关矩矩阵是单位阵,则各变量是独立的,无法进行因子分析阵是单位阵,则各变量是独立的,无法进行因子分析n nKMOKMO检验检验l l用用于于检检验验变变量量间间的的偏偏相相关关性性,KMOKMO统统计计量量的的取取值值在在0 01 1之间之间l l如如果果统统计计量量取取值值越越接接近近1 1,变变量量间间的的偏偏相相关关性性越越强强,因因子子分析的效果就越好分析的效果就越好l lKMOKMO统统计计量量在在0.70.7以以上上时时,因因子子分分析

32、析效效果果较较好好;KMOKMO统统计计量在量在0.50.5以下时,因子分析效果很差以下时,因子分析效果很差因子分析的步骤(数据检验)第38页/共62页2008年8月n nPrincipal Principal components(components(主主成成分分法法):多多数数情情况况下下可可以以使使用用该该方方法法(这这也也是是SPSSSPSS的的默默认认选选项项)。通通过过主主成成分分分分析析的的思思想想提提取取公公因子,它假设变量是因子的线性组合因子,它假设变量是因子的线性组合n nUnweight Unweight Least Least Square(Square(不不加加权权

33、最最小小平平方方法法):该该方方法法使使实实际际的相关矩阵和再生的相关矩阵之差的平方和达到最小的相关矩阵和再生的相关矩阵之差的平方和达到最小n nGeneralized Generalized Least Least Square(Square(加加权权最最小小平平方方法法):用用变变量量值值进进行行加加权权,该该方方法法也也是是使使实实际际的的相相关关矩矩阵阵和和再再生生的的相相关关矩矩阵阵之之差差的的平方和达到最小平方和达到最小n nMaximum Maximum Likelihood(Likelihood(最最大大似似然然法法):该该方方法法不不要要求求数数据据服服从从正态分布,在样本量

34、较大时使用较好正态分布,在样本量较大时使用较好n nPrincipal Principal Axis Axis Factoring(Factoring(主主轴轴因因子子法法):该该方方法法从从原原始始变变量量的的相关性出发,使得变量间的相关程度尽可能地被公因子解释相关性出发,使得变量间的相关程度尽可能地被公因子解释因子分析的步骤(因子提取)第39页/共62页2008年8月n因子数量的确定l l用用公公因因子子方方差差贡贡献献率率提提取取:与与主主成成分分分分析析类类似似,一一般般累累计计方方差差贡贡献献率率达达到到80%80%以以上上的的前前几几个个因因子子可以作为最后的公因子可以作为最后的公

35、因子l l用用特特征征根根提提取取:一一般般要要求求因因子子对对应应的的特特征征根根要要大大于于1 1,因因为为特特征征根根小小于于1 1说说明明该该共共因因子子的的解解释释力力度度太弱,还不如使用原始变量的解释力度大太弱,还不如使用原始变量的解释力度大n实际应用中,因子的提取要结合具体问题而定,在某种程度上,取决于研究者自身的知识和经验 因子分析的步骤(因子提取)第40页/共62页2008年8月n因子命名是因子分析重要一步l l一一个个因因子子包包含含了了多多个个原原始始变变量量的的信信息息,它它究究竟反映了原始变量的哪些共同信息?竟反映了原始变量的哪些共同信息?l l因因子子分分析析得得到

36、到的的因因子子的的含含义义是是模模糊糊的的,需需要要重新命名,以便对研究的问题作出合理解释重新命名,以便对研究的问题作出合理解释l l可可通通过过考考察察观观察察因因子子载载荷荷矩矩阵阵并并结结合合实实际际问问题完成题完成l l命命名名已已经经不不是是统统计计问问题题。它它需需要要研研究究者者自自身身的的专专业业素素质质和和对对实实际际问问题题背背景景的的了了解解程程度度,这需要更多的实践经验这需要更多的实践经验因子分析的步骤(因子命名)第41页/共62页2008年8月n观察因子载荷矩阵观察因子载荷矩阵l l如如果果因因子子载载荷荷a aij ij的的绝绝对对值值在在第第i i行行的的多多个个

37、列列上上都都有有较较大大的的取取值值(通通常常大大于于0.5)0.5),表表明明原原始始变变量量与与多多个个因因子子都都有有较较大大的的相相关关关关系系,意意味味着着原原始始变变量量x xi i需需要要由由多多个个因子来共同解释因子来共同解释l l如如果果因因子子载载荷荷a aij ij的的绝绝对对值值在在第第j j列列的的多多个个行行上上都都有有较较大大的的取取值值,则则表表因因子子f fi i能能共共同同解解释释许许多多变变量量的的信信息息,而而对对每每个个原原始始变变量量只只能能解解释释其其中中的的少少部部分分信信息息,表表明明因因子子不不能能有有效效代代表表任任何何一一个个原原始始变变

38、量量,因因子子的的含含义义模模糊不清,难以对因子给出一个合理的解释糊不清,难以对因子给出一个合理的解释l l需要进行因子旋转,以便得到更加合理的解释需要进行因子旋转,以便得到更加合理的解释因子分析的步骤(因子命名)第42页/共62页2008年8月n因因子子旋旋转转(factor(factor rotation)rotation)的的目目的的是是使使因因子子的的含含义义更加清楚,以便于对因子的命名和解释更加清楚,以便于对因子的命名和解释n旋转的方法有正交旋转和斜交旋转两种旋转的方法有正交旋转和斜交旋转两种l l正正交交旋旋转转是是指指坐坐标标轴轴始始终终保保持持垂垂直直9090度度旋旋转转,这这

39、样样新生成的因子仍可保持不相关新生成的因子仍可保持不相关l l斜斜交交旋旋转转坐坐标标轴轴的的夹夹角角可可以以是是任任意意的的,因因此此新新生生成成的的因因子子不不能能保保证证不不相相关关。因因此此实实际际应应用用中中更更多多地地使使用用正正交旋转交旋转l lSPSSSPSS提提供供5 5种种旋旋转转方方法法,其其中中最最常常用用的的是是VarimaxVarimax(方差最大正交旋转方差最大正交旋转)法法因子分析的步骤(因子命名旋转)第43页/共62页2008年8月n nVarimax(Varimax(方方差差最最大大正正交交旋旋转转):最最常常用用的的旋旋转转方方法法。使使各各因因子子保保持

40、持正正交交状状态态,但但尽尽量量使使各各因因子子的的方方法法达达到到最最大大,即相对的载荷平方和达到最大,从而方便对因子的解释即相对的载荷平方和达到最大,从而方便对因子的解释n nQuartimax(Quartimax(四四次次方方最最大大正正交交旋旋转转):该该方方法法倾倾向向于于减减少少和和每个变量有关的因子数,从而简化对原变量的解释每个变量有关的因子数,从而简化对原变量的解释n nEquamax(Equamax(平平方方最最大大正正交交旋旋转转):该该方方法法介介于于方方差差最最大大正正交旋转和四次方最大正交旋转之间交旋转和四次方最大正交旋转之间n nDirect Direct Obli

41、min(Oblimin(斜斜交交旋旋转转):该该方方法法需需要要事事先先指指定定一一个个因因子映像的自相关范围子映像的自相关范围n nPromaxPromax:该该方方法法在在方方差差最最大大正正交交旋旋转转的的基基础础上上进进行行斜斜交交旋转旋转因子分析的步骤(因子命名旋转)第44页/共62页2008年8月n因子得分(factor score)是每个因子在每个样本上的具体取值,它由下列因子得分函数给出因子分析的步骤(计算因子得分)因子得分函数因子得分是各变量的线性组合 第45页/共62页11.2.3 因子分析的应用11.2 因子分析第46页/共62页2008年8月【例】根据我国31个省市自治

42、区2006年的6项主要经济指标数据,进行因子分析,对因子进行命名和解释,并计算因子得分和排序因子分析(实例分析)第47页/共62页2008年8月 数据的相关性检验数据的相关性检验因子分析(实例分析)KMO检验和Bartlett球度检验 Bartlett球度检验统计量为277.025。检验的P值接近0。表明6个变量之间有较强的相关关系。而KMO统计量为0.695,接近0.7。适合作因子分析 第48页/共62页2008年8月 共同度量共同度量 因子分析(实例分析)变量共同度量 所有变量的共同度量都在80%以上,因此,提取出的公因子对原始变量的解释能力应该是很强的 第49页/共62页2008年8月

43、因子方差贡献率因子方差贡献率 因子分析(实例分析)各因子所解释的原始变量的方差 除最后3列外,其余部分与主成分分析中的表相同。“Rotation Sums of Squared Loadings”部分是因子旋转后对原始变量方差的解释情况。旋转后的累计方差没有改变,只是两个因子所解释的原始变量的方差发生了一些变化。第50页/共62页2008年8月 VarimaxVarimax法得到的旋转后的因子载荷矩阵法得到的旋转后的因子载荷矩阵 因子分析(实例分析)旋转后的因子载荷矩阵 第一个因子与年末总人口、固定资产投资、社会消费品零售总额、财政收入这几个载荷系数较大,主要解释了这几个变量。从实际意义上看,

44、可以把因子1姑且命名为“经济水平”因子。而第二个因子与人均GDP、居民消水平这两个变量的载荷系数较大,主要解释了这两个变量,从实际意义看,可以将因子2姑且命名为“消费水平”因子 (是否合理读者自己评判是否合理读者自己评判)第51页/共62页2008年8月n原始的6个变量与两个因子的关系(模型表达)因子分析(实例分析)因子分析的数学模型表达式中的xi已经不是原始变量,而是标准化变量 第52页/共62页2008年8月 旋转后的因子载荷图旋转后的因子载荷图 因子分析(实例分析)旋 转 后 的 因子 载 荷 系 数更 加 接 近 于1(如 果 旋 转后 的 因 子 载荷 系 数 向 01分化越明显,说

45、 明 旋 转 的效 果 越 好),从 而 使 因 子的 意 义 更 加清楚了 第53页/共62页2008年8月 按回归法按回归法(Regression)(Regression)估计的因子得分系数矩阵估计的因子得分系数矩阵 因子分析(实例分析)因子得分系数矩阵 根据因子得分系数矩阵可将因子表示为变量的线性组合 第54页/共62页2008年8月n n由由因因子子得得分分系系数数矩矩阵阵,可可以以将将公公因因子子表表示示为为各各变变量量的的线性组合。得到的因子得分函数为线性组合。得到的因子得分函数为因子分析(实例分析)上面表达式中的xi标准化变量。根据这一表达式便可以计算每个地区对应的第一个因子和第

46、二个因子的取值,也称为因子得分(factor score)。有了因子得分,就可以对每个地区分别按照前面命名的“经济水平”因子和“消费水平”因子进行评价和排序 因子得分函数第55页/共62页2008年8月 综合评价n n计计算算每每个个地地区区的的因因子子得得分分n n每每个个地地区区的的因因子子得得分分计计算算方方法法是是:用用每每个个共共因因子子的的方方差差贡贡献献率率做做权权数数,对对每每个个因因子子进进行行加加权权,然然后后加加总总得得到到每每个个地地区区的总因子得分的总因子得分n n按按总总得得分分的的多多少少进进行行排排序序,以以反反映映各各地地区区经经济济发展的差异发展的差异因子分

47、析(实例分析)要由SPSS得出各样本的不同因子得分,点 击【Scores】【Save as variables】即可。SPSS会计算出每个因子的得分,并保存在工作表的FAC1_1和FAC2_1中因子综合得分第56页/共62页2008年8月 各地区的因子得分及排名各地区的因子得分及排名 因子分析(实例分析)第57页/共62页2008年8月 地区两个因子得分的散点图地区两个因子得分的散点图 因子分析(实例分析)因 子 1得 分 最 高的是广东,最低的西藏,这说明广东是经济发展水平较高的地区,西藏是经济发展水平较低的地区;因 子 2得 分 最 高的是上海,最低的是贵州,说明上海是消费水平较高的地区,

48、而贵州则是消费水平较低的地区 第58页/共62页2008年8月n n主主成成分分分分析析和和因因子子分分析析都都是是多多元元分分析析中中处处理理降降维维的的两两种种统统计计方方法法。只只有有当当原原始始数数据据中中的的变变量量之之间间具具有有较较强强的的相相关关关关系系时时,降降维维的的效效果才会明显,否则不适合进行主成分分析和因子分析果才会明显,否则不适合进行主成分分析和因子分析n n主主成成分分和和因因子子的的选选择择标标准准应应结结合合具具体体问问题题而而定定。在在某某种种程程度度上上取取决于研究者的知识和经验,而不是方法本身决于研究者的知识和经验,而不是方法本身n n即即使使得得到到了

49、了满满意意的的主主成成分分或或因因子子,在在运运用用它它们们对对实实际际问问题题进进行行评评价价、排排序序等等分分析析时时,仍仍然然要要保保持持谨谨慎慎,因因为为主主成成分分和和因因子子毕毕竟竟是是高度抽象的量,无论如何,它们的含义都不如原始变量清晰高度抽象的量,无论如何,它们的含义都不如原始变量清晰n n因因子子分分析析可可以以看看作作是是主主成成分分分分析析的的推推广广和和扩扩展展,而而主主成成分分分分析析则则可可以以看看作作是是因因子子分分析析的的一一个个特特例例。目目前前因因子子分分析析在在实实际际中中被被广广泛泛应应用用,而而主主成成分分分分析析通通常常只只作作为为大大型型统统计计分分析析的的中中间间步步骤骤,几几乎乎不再单独使用不再单独使用几点说明第59页/共62页2008年8月本章小节l主成分分析和因子分析的基本原理 l主成分分析和因子分析的异同l主成分分析和因子分析的数学模型l用SPSS进行主成分分析和因子分析l用主成分分析和因子分析对实际问题进行综合评价第60页/共62页结 束第61页/共62页2008年8月谢谢您的观看!第62页/共62页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁