《SPSS主成分分析与因子分析.ppt》由会员分享,可在线阅读,更多相关《SPSS主成分分析与因子分析.ppt(71页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八章第八章 主成分分析与因子分析主成分分析与因子分析Principle Component Analysis&Factor Analysis8-1 8-1 概述概述 在许多研究中在许多研究中,为了全面系统地分析问题为了全面系统地分析问题,都尽可能都尽可能完整地搜集信息完整地搜集信息,对每个观测对象往往需测量很多指标对每个观测对象往往需测量很多指标(变量变量),),人们自然希望用较少的新变量代替原来较多的旧人们自然希望用较少的新变量代替原来较多的旧变量变量,而这些新变量应尽可能地反映旧变量的信息而这些新变量应尽可能地反映旧变量的信息.主成分分析与因子分析正是满足这一要求的处理多主成分分析与因子
2、分析正是满足这一要求的处理多变量问题的方法变量问题的方法.由于它们能浓缩信息由于它们能浓缩信息,使指标降维使指标降维,简化简化指标的结构指标的结构,使分析问题简单、直观、有效使分析问题简单、直观、有效,故被广泛应故被广泛应用于医学、心理学、经济学等领域用于医学、心理学、经济学等领域.参考文献1、综合评价中如何运用主成分分析。作者:朱峰统计教育2005年第10期P45472、对因子分析方法及其过程中几个问题的探讨。作者:马晓君统计教育2005年第8期P61643、基于SPSS的主成分分析与因子分析的辨析。作者:唐功爽统计教育2007年第2期P12144、主成分分析法在证券市场个股评析中的应用作者
3、:江东明数理统计与管理2001年第2期P28315、因子分析法在企业综合经济效益评价中的应用作者:王增民数理统计与管理 2002年第1期P1013参考文献6、甘肃省区域综合经济实力变动分析作者:魏奋子开发研究2003年第3期P43457、江苏省区域经济实力的综合评价与实证分析作者:门可佩江苏统计2001年第12期P15178、数理统计方法在河南经济发展水平和分区研究中的应用作者:刘钦普数理统计与管理 2002年第3期P10158、科技实力国际比较的因子分析作者:徐小阳统计与决策2003年第1期P15178.1.18.1.1主成分分析的几何意义主成分分析的几何意义1.11.1在在P P维总体中抽
4、取了维总体中抽取了N N个样品个样品,可以得到在可以得到在P P维空间中的维空间中的N N个点个点,来研究这来研究这N N个点之间的关系个点之间的关系.首先以简单的低维空间首先以简单的低维空间说明说明.以二维空间以二维空间,即平面的二个变量即平面的二个变量P=2P=2为例为例:1 2 3 4 5 6X11 2 3 4 5 6X22 4 6 8 10 12样品指标直线方程X2=2X1X1X21 2 3 4 5 6Y1 样品变量Y1将X1和X2轴同时逆时针旋转X1X2Y1Y2.8.1.28.1.2主成分分析的基本概念主成分分析的基本概念主成分分析主成分分析(Principle Component
5、Analysis)(Principle Component Analysis)也称主分量分析也称主分量分析,是一种将多个指标化为少数几个综合指标是一种将多个指标化为少数几个综合指标的统计分析方法。的统计分析方法。基本思想基本思想:描述经济现象需要用很多指标描述经济现象需要用很多指标(也称变量也称变量)来刻划来刻划,但是指标之间往往有一定的相关性但是指标之间往往有一定的相关性,因而所得的统计数据因而所得的统计数据在一定程度上反映的信息有重叠。主成分分析可将相关的在一定程度上反映的信息有重叠。主成分分析可将相关的指标化成一些不相关的指标指标化成一些不相关的指标,避免了信息重叠带来的虚假避免了信息重
6、叠带来的虚假性性,而且这些主成分可以尽可能地反映原来变量的绝大部而且这些主成分可以尽可能地反映原来变量的绝大部分信息。分信息。2.2.主成分分析的一般数学模型主成分分析的一般数学模型并且满足:其中其中e e i j i j 由下列原则决定:由下列原则决定:1.1.任一两个主成分之间都不相关:任一两个主成分之间都不相关:i i与与Y Y j j(i(i j j;i i,j=1,2,j=1,2,p),p)2.Y2.Y1 1是是X X1 1、X X2 2、X pX p的一切线性组合中方差最大的;的一切线性组合中方差最大的;Y Y2 2是与是与Y Y1 1不相关的不相关的X X1 1、X X2 2、X
7、 pX p的一切线性组合的一切线性组合中方差最大的;(中方差最大的;(Y Y2 2的方差小于的方差小于Y Y1 1的方差);的方差);Y pY p是与是与Y Y1 1、Y Y2 2、Y Yp-1p-1都不相关的都不相关的X X1 1、X X2 2、X X p p的一切线性组合中方差最大的(的一切线性组合中方差最大的(Y Y p p的方差小于的方差小于Y Y1 1、Y Y2 2、Y Yp-1p-1的方差的方差)。这样确定的综合指标就称为原变量的第一主成分这样确定的综合指标就称为原变量的第一主成分,第二主成分第二主成分,第第p p主成分。主成分。3.主成分的求解关键是求系数关键是求系数 ,而其正是
8、观测,而其正是观测变量相关矩阵的单位特征向量变量相关矩阵的单位特征向量.因此通过求解观测变量相关矩因此通过求解观测变量相关矩阵的特征方程,得到阵的特征方程,得到P个特征根和个特征根和P个单位特征向量,把个单位特征向量,把P个个特征根按从大到小的顺序排列,记作特征根按从大到小的顺序排列,记作 它们分别代表它们分别代表P个主成分所解释的观测变量的方差个主成分所解释的观测变量的方差 .相应的相应的P个单位特征向量就是主成分的系数个单位特征向量就是主成分的系数 主成分模型中的各统计量的意义主成分模型中的各统计量的意义(1)(1)主成分主成分Y Yi i的方差贡献率的方差贡献率 主成分分析是把主成分分析
9、是把P P个原始变量个原始变量X X1 1、X X2 2、X pX p总方差总方差 分解成分解成P P个不相关变量个不相关变量Y Y1 1、Y Y2 2、Y pY p的方差的方差 之和之和 ,而,而 因此因此 描述了第描述了第i i 个主成分反映的信息占个主成分反映的信息占 总信总信 息的份额,我们称它为第息的份额,我们称它为第i i主成分主成分Y Yi i的方差贡献的方差贡献率。率。第一主成分的方差贡献率最大,表明第一主成分的方差贡献率最大,表明Y Y1 1综合原始变量综合原始变量X X1 1、X X2 2、X pX p所含信息的能力最强,而所含信息的能力最强,而Y Y2 2、Y pY p的
10、综合能力依次的综合能力依次减弱。减弱。主成分模型中的各统计量的意义主成分模型中的各统计量的意义(2)(2)前前k k个主成分个主成分Y Y k k(i=1(i=1,2 2,k)k)的对原变量的贡献率的对原变量的贡献率,称为称为Y Y1 1、Y Y2 2、Y Y k k的累计方差贡献率。的累计方差贡献率。它表明前它表明前K K个主成分个主成分Y Y1 1、Y Y2 2、Y kY k综合提供综合提供X X1 1、X X2 2、X X p p中信息的能力。实际应用中,通常选取中信息的能力。实际应用中,通常选取KP,KP,使前使前K K个主成个主成分的方差贡献率达到较高的比例分的方差贡献率达到较高的比
11、例(85%(85%以上以上).).这样用前这样用前K K个个主成分主成分Y Y1 1、Y Y2 2、Y Y k k,代替原始变量,代替原始变量X X1 1、X X2 2、X pX p,不仅减少了变量的个数,便于对实际问题的研究,而且对不仅减少了变量的个数,便于对实际问题的研究,而且对于原始变量中的信息损失减少。于原始变量中的信息损失减少。(3)因子载荷量)因子载荷量前前K K个主成分个主成分YkYk与原变量与原变量XiXi的相关系数的相关系数3.3.主成分分析的步骤主成分分析的步骤()对原个变量的数据标准化()对原个变量的数据标准化()求观测变量的相关矩阵()求观测变量的相关矩阵()求相关矩阵
12、的特征根和单位特征向量()求相关矩阵的特征根和单位特征向量()确定主成分,结合专业知识给各主成分所蕴藏的信()确定主成分,结合专业知识给各主成分所蕴藏的信息给予恰当的解释,并利用它们来判断样品的特性息给予恰当的解释,并利用它们来判断样品的特性5.5.主成分个数的确定主成分个数的确定 主成分分析的目的是为了减少变量的个数,主成分分析的目的是为了减少变量的个数,以便对实际问题的研究,而且对于原始变量以便对实际问题的研究,而且对于原始变量中的信息损失很少,故一般不用中的信息损失很少,故一般不用p个主成分,个主成分,而用而用Kp个主成分。个主成分。K的选取要看前的选取要看前K个主个主成分累计方差贡献率
13、达到成分累计方差贡献率达到85%以上。以上。7.1.27.1.2因子分析因子分析(Factor Analysis)因子分析因子分析(Factor Analysis)(Factor Analysis)是主成分分析的推广,它是主成分分析的推广,它也是一种把多个相关变量(指标)化为少数几个不相关变量也是一种把多个相关变量(指标)化为少数几个不相关变量因子的统计分析方法。在许多实际问题中,我们经常因子的统计分析方法。在许多实际问题中,我们经常用用多个指标(变量)来描述某一现象多个指标(变量)来描述某一现象,由于这些指标之间往往,由于这些指标之间往往具有一定的具有一定的相关性相关性,即很多指标反映的,即
14、很多指标反映的信息有重叠信息有重叠,并且指,并且指标太多给分析问题带来了不方便,这时我们总希望能用少数标太多给分析问题带来了不方便,这时我们总希望能用少数几个不相关指标(变量)来代替原来的指标。与主成分分析几个不相关指标(变量)来代替原来的指标。与主成分分析方法一样,因子分析也给我们提供了解决这个问题的另一种方法一样,因子分析也给我们提供了解决这个问题的另一种方法。方法。例如,某市场调查公司为了帮助快餐店了解例如,某市场调查公司为了帮助快餐店了解其市场竞争能力进行消费者调查,通过定性研究其市场竞争能力进行消费者调查,通过定性研究设计了设计了3030项有关快餐店及其产品和服务的调查项项有关快餐店
15、及其产品和服务的调查项目。这目。这3030个指标对于我们评价快餐店市场竟争能个指标对于我们评价快餐店市场竟争能力很不方便。事实上这力很不方便。事实上这3030个指标可能反映了快餐个指标可能反映了快餐的质量、价格、就餐环境和服务四个基本方面,的质量、价格、就餐环境和服务四个基本方面,通过因子分析我们能找出反映数据本质特征的这通过因子分析我们能找出反映数据本质特征的这四个因子,并分析原来四个因子,并分析原来3030个指标和这四个因子之个指标和这四个因子之间的关系,通过这四个因子能较方便地评价快餐间的关系,通过这四个因子能较方便地评价快餐店的市场竞争能力。店的市场竞争能力。一、因子分析模型设设p个可
16、观测变量个可观测变量X1、X2、XP可表示为:可表示为:称上式为因子分析模型。其中称上式为因子分析模型。其中F1、F2、Fm称为公称为公因子,因子,称为特殊因子,他们都是不可观测的随机称为特殊因子,他们都是不可观测的随机变量。变量。正交因子模型满足的四个假定条件正交因子模型满足的四个假定条件:解释因子分析模型解释因子分析模型 公因子公因子F1、F2、Fm出现在每一个原始变出现在每一个原始变量量X i(i=1,2,p)的表达式中,可理解为原始的表达式中,可理解为原始变量共同具有的公共因素;每个公因子变量共同具有的公共因素;每个公因子F j(j=1,2,m)至少对两个原始变量有作用,否则它将归至少
17、对两个原始变量有作用,否则它将归入特殊因子。每个特殊因子仅仅出现在与之相应的入特殊因子。每个特殊因子仅仅出现在与之相应的第第i个原始变量个原始变量Xi的表达式中,它只对这个原始变量的表达式中,它只对这个原始变量有作用。有作用。因子分析模型假设因子分析模型假设p个特殊因子之间是彼此独立个特殊因子之间是彼此独立的,特殊因子和公因子之间也是彼此独立的的,特殊因子和公因子之间也是彼此独立的。在因子分析模型中,每一个观测变量由在因子分析模型中,每一个观测变量由m m个公个公因子和一个特殊因子的线性组合来表示,我们感因子和一个特殊因子的线性组合来表示,我们感兴趣的只是这些能够代表较多信息的公因子。兴趣的只
18、是这些能够代表较多信息的公因子。公因子的个数最多可以等于观测变量数。因公因子的个数最多可以等于观测变量数。因为在求因子解时,总是使第一个公因子代表了所为在求因子解时,总是使第一个公因子代表了所有变量中最多的信息,随后的公因子代表性逐步有变量中最多的信息,随后的公因子代表性逐步减少,因此通常忽略掉最后几个公因子。所以,减少,因此通常忽略掉最后几个公因子。所以,在因子分析模型中,公因子的个数,往往远远小在因子分析模型中,公因子的个数,往往远远小于观测变量的个数。于观测变量的个数。为什么公因子的个数远远小于变量个数?二、几个重要的概念二、几个重要的概念1因子载荷因子载荷在因子分析模型中,在因子分析模
19、型中,a a i ji j称为因子载荷,它反应了第称为因子载荷,它反应了第i i个原始个原始变量变量X Xi i在第在第j j个公因子个公因子F F j j上的相对重要性。可以证明原始上的相对重要性。可以证明原始变量变量X Xi i与公因子与公因子F F j j之间的相关系数等于之间的相关系数等于a a i i j j ,即,即 a a i i j j的绝对值越大,表示原始变量的绝对值越大,表示原始变量X Xi i与公因子与公因子F F j j之间之间关系越密切。关系越密切。因子载荷矩阵由所有因子载荷构成的矩阵称为因子载荷矩阵,由所有因子载荷构成的矩阵称为因子载荷矩阵,记作记作A A。2变量共
20、同度变量共同度也称公因子方差。变量共同度也称公因子方差。原始变量原始变量X Xi i的方差由两部分组成,的方差由两部分组成,h hi i2 2 +=1+=1第一部分由公因子决定的方差即公因子方差第一部分由公因子决定的方差即公因子方差 h hi i2 2 公因子方差记作公因子方差记作h hi i2 2,用公式表示为:用公式表示为:hi2=ai12+ai22+aim2 (i=1,2,p)第二部分由特殊因子决定的方差即特殊因子方差第二部分由特殊因子决定的方差即特殊因子方差公因子方差表示了原始变量方差中能被公因子所解释的部分,公因子方差表示了原始变量方差中能被公因子所解释的部分,公因子方差越大,变量能
21、被公因子说明的程度越高。若公因公因子方差越大,变量能被公因子说明的程度越高。若公因子方差接近于子方差接近于1 1,这说明该变量的几乎全部原始信息都被所,这说明该变量的几乎全部原始信息都被所选取的公因子说明了。选取的公因子说明了。进一步解释(1)每个元素表明每个变量对公因子的依赖程度,解释公因子要根据每个公因子系数大小情况(2)变量共同度:载荷矩阵行元素的平方和.(3)表示的是所有公因子对Xi的方差贡献,特殊因子方差解释不足部分(4)(3)载荷矩阵列元素的平方和:表示某一公因子对所有变量的方差贡献.3公因子F j的方差贡献(列)公因子公因子F j的方差贡献记作的方差贡献记作g j2,用公式表示为
22、:用公式表示为:gj2=a1j2+a2j2+apj2 (j=1,2,p)公因子公因子F j的方差贡献的方差贡献gj2,是公因子,是公因子F j对诸对诸原始变量所提供方差贡献的总和。它是衡量公因原始变量所提供方差贡献的总和。它是衡量公因子相对重要性的指标,它等于公因子子相对重要性的指标,它等于公因子F j所对应的所对应的特征值,即特征值,即所有公因子的方差总贡献所有公因子的方差总贡献在实际问题中常用下列相对指标:在实际问题中常用下列相对指标:每个公因子每个公因子F j的方差贡献率的方差贡献率为:为:前前k个公因子的累积方差贡献率个公因子的累积方差贡献率为:为:根据前根据前k个公因子的累积方差贡献
23、率个公因子的累积方差贡献率的大小达到一定的比例时,来决定的大小达到一定的比例时,来决定选取多少个公因子。选取多少个公因子。第二节 求因子模型及因子得分一、求解初始因子一、求解初始因子要求因子模型,关键是求出因子载荷矩阵要求因子模型,关键是求出因子载荷矩阵A A。对对A A的估计方法有很多,如的估计方法有很多,如主成分法主成分法 (Principal ComponentsPrincipal Components)主轴因子法主轴因子法 (Principal axis factoringPrincipal axis factoring)最大似然法最大似然法 (Maximum likelihood)(
24、Maximum likelihood)因子提取法因子提取法 (Alpha factoring)(Alpha factoring)映像分析法映像分析法 (Image analysis)(Image analysis)最小二乘法最小二乘法 (Least squares)(Least squares)应用较为普遍的是主成分法。应用较为普遍的是主成分法。主成分法就是按主成分分析求出相关矩阵的特征根就是按主成分分析求出相关矩阵的特征根 j和单位和单位特征向量(特征向量(e1j,e2j,e p j)(j=1,2,p),则则:载荷矩阵载荷矩阵A的估计就是原变量协方差矩阵的特的估计就是原变量协方差矩阵的特征值
25、的平方根与特征向量的乘积征值的平方根与特征向量的乘积.二、因子旋转二、因子旋转因子分析的目的不仅是找出公因子,更重要的是知道每个公因子的意义。但是用上述方法所求出的公因子解,各因子的典型代表变量不很突出,因而容易使因子的意义含糊不清,不便于对因子进行解释。为此必须对因子载荷矩阵进行旋转,使得因子载荷的平方按列向向0和和1两级转化,达到其结构简化的目的。所谓结构简化所谓结构简化就是使每个变量仅在一个公因子上有较大的载荷,而在其余公因子上的载荷比较小。这种变换因子载荷矩阵的方法称为因子旋转。为什么要进行旋转?如果初始因子在原变量上的载荷值都相差不大,就不便于解释各因子的意义因子旋转的方法有很多种:
26、最大方差旋转(最大方差旋转(Varimax)斜交旋转(Promax)四次方最大正交旋转(Quartimax)平均正交旋转(Equamax)直接斜交旋转(Direct Oblimin rotation)三、公因子得分三、公因子得分 因子模型使将因子模型使将原变量表示为公因子的线性组合原变量表示为公因子的线性组合。由于公因子能反映原变量的相关关系,用公因子代表原由于公因子能反映原变量的相关关系,用公因子代表原变量时,有时更有利于描述研究对象的特征。因此,常常反变量时,有时更有利于描述研究对象的特征。因此,常常反过来将公因子表示为原变量的线性组合,即过来将公因子表示为原变量的线性组合,即F j=bj
27、1X1+bj2X2+b j p X p (j=1,2,m)称上式为因子得分函数。用它来计算每个样品的公因子值,称称上式为因子得分函数。用它来计算每个样品的公因子值,称为公因子得分。为公因子得分。对于用主成分法求得的公因子解,可以直接得到因子得分函数,对于用主成分法求得的公因子解,可以直接得到因子得分函数,对于用其它方法得到的公因子解,只能得到因子得分函数系对于用其它方法得到的公因子解,只能得到因子得分函数系数的估计值,通常用回归法进行估计。数的估计值,通常用回归法进行估计。四四.因子分析的步骤因子分析的步骤1 1将原始数据标准化。将原始数据标准化。2 2计算变量的相关矩阵。根据计算的相关矩阵还
28、应进一步判计算变量的相关矩阵。根据计算的相关矩阵还应进一步判断应用因子分析方法是否合适断应用因子分析方法是否合适.(.(后面具体说明后面具体说明)3 3计算相关矩阵的特征根和单位特征向量。计算相关矩阵的特征根和单位特征向量。4.4.提取因子提取因子.确定描述数据所需要的因子个数和求因子解的方确定描述数据所需要的因子个数和求因子解的方程程.5 5进行因子旋转,集中于变换因子使因子解的实际意义更好进行因子旋转,集中于变换因子使因子解的实际意义更好解释解释.6 6计算每一个样品计算每一个样品CaseCase的因子得分,然后将它们用于各种进的因子得分,然后将它们用于各种进一步的分析中。一步的分析中。*
29、适合作因子分析的四个检验适合作因子分析的四个检验(包括三个统计量包括三个统计量)()A.相关矩阵检验相关矩阵检验:使用因子分析的前提条件是观测变量之间应该有较强的相使用因子分析的前提条件是观测变量之间应该有较强的相关关系,相关程度很小,不可能享有公共因子。关关系,相关程度很小,不可能享有公共因子。相关矩阵中的大部分相关矩阵中的大部分r0.3,则不适合做因子分析,则不适合做因子分析.B.反映象相关矩阵反映象相关矩阵(Anti-image correlation matrix)检验检验:其元素等于负的偏相关系数其元素等于负的偏相关系数-偏相关是控制其他变量不变,一个自变量对因变量的独偏相关是控制其
30、他变量不变,一个自变量对因变量的独特解释作用,如果数据中确实存在公因子,变量间的偏特解释作用,如果数据中确实存在公因子,变量间的偏相关系数应该很小,因为它与其他变量重叠的解释影响相关系数应该很小,因为它与其他变量重叠的解释影响被消除掉了被消除掉了.故矩阵中诸元素的值比较大,应考虑观测数故矩阵中诸元素的值比较大,应考虑观测数据可能不适合做因子分析。据可能不适合做因子分析。适合作因子分析的四个检验适合作因子分析的四个检验(包括三个统计量包括三个统计量)()C.巴特利特球体检验巴特利特球体检验(Bartlett test of sphericity)检验检验:该统计量从检验整个相关矩阵出发,其零假该
31、统计量从检验整个相关矩阵出发,其零假设为相关矩阵是单位阵,如果不能拒绝该假设的话,设为相关矩阵是单位阵,如果不能拒绝该假设的话,应该重新考虑因子分析的使用。应该重新考虑因子分析的使用。适合作因子分析的四个检验适合作因子分析的四个检验(包括三个统计量包括三个统计量)()D.KMO(K-image correlation matrix)测度测度:该测试比较观测量之间简单相关系数和偏相关系数的相对大小出发,其值的变化该测试比较观测量之间简单相关系数和偏相关系数的相对大小出发,其值的变化范围从范围从01。当所有变量之间的偏相关系数的平方和,远远小于简单相关系数。当所有变量之间的偏相关系数的平方和,远远
32、小于简单相关系数的平方和时,的平方和时,KMO的值接近于的值接近于1,KMO值较小时,表明观测变量不适合做因值较小时,表明观测变量不适合做因子分析子分析.通常按以下指标解释该指标值的大小:通常按以下指标解释该指标值的大小:0.9以上以上,非常好非常好;0.8以上以上,好好;0.7一般一般 0.6差差 0.5很差很差 0.5以下不能接受以下不能接受源自:Joseph F.Hair,JR.etc.(1995)Multivarite Data Analysis with Readings,4th Edition.Prentice-Hall International,Inc.:374因子个数的确定1
33、.特征值准则特征值准则:特征值大于等于特征值大于等于1的主成分作为初始因子,放的主成分作为初始因子,放弃特征值小于弃特征值小于1的主成分的主成分.因为每个变量的方差为因为每个变量的方差为1,该准,该准则认为每个保留下来的因子应该能解释一个变量的方差,则认为每个保留下来的因子应该能解释一个变量的方差,否则达不到精减的目的。否则达不到精减的目的。2.碎石检验准则:按照因子被提取的顺序碎石检验准则:按照因子被提取的顺序,画出因子的特征值画出因子的特征值随因子个数变化的散点图,根据图形来判断因子的个数随因子个数变化的散点图,根据图形来判断因子的个数.3.因子累积解释方差的比例因子累积解释方差的比例:达
34、到达到85%以上。实际中结合几以上。实际中结合几个准则进行判断。个准则进行判断。7.1.37.1.3主成分分析与因子分析的区别主成分分析与因子分析的区别主成分是原观测变量的线性组合每个主成分相应的系数是唯一确定的特征向量每个主成分相应的系数是唯一确定的特征向量因子分析模型是原观测变量表现为各新因子的线性组合每个因子相应系数不唯一每个因子相应系数不唯一.即因子载荷矩阵不唯一即因子载荷矩阵不唯一.主成分个数m=P 因子个数mP(为经济起见,总是越小越好)当时m=P就不能考虑特殊因子.主成分分析是因子分析的一个特例7.1.37.1.3主成分分析与因子分析的区别主成分分析与因子分析的区别区别区别:主成
35、分分析是一种变量的变换不能作为一个模型主成分分析是一种变量的变换不能作为一个模型一表述,因子分析需要构造因子模型,且其中的一表述,因子分析需要构造因子模型,且其中的因子满足特定的条件,当这些条件不满足时因子因子满足特定的条件,当这些条件不满足时因子分析就可能是虚假的分析就可能是虚假的.7.1.37.1.3主成分分析与因子分析的区别主成分分析与因子分析的区别区别区别:两种方法的侧重点有所不同:主成分分析重点在两种方法的侧重点有所不同:主成分分析重点在于从观测变量到主成分的变换上,而因子分析重于从观测变量到主成分的变换上,而因子分析重点在公共因子和特殊因子到观测量的变换上。点在公共因子和特殊因子到
36、观测量的变换上。两者的实际应用范围有所不同:主成分分析主要两者的实际应用范围有所不同:主成分分析主要应用在综合评价和指标筛选上,因子分析除这两应用在综合评价和指标筛选上,因子分析除这两个作用外,还可对个作用外,还可对样本或变量样本或变量的分类。的分类。7.1.37.1.3主成分分析与因子分析的联系主成分分析与因子分析的联系联系联系:因子分析数学模型的特殊因子的影响微不足道可以因子分析数学模型的特殊因子的影响微不足道可以忽略时,数学模型就变成:忽略时,数学模型就变成:X=AF。如果如果F中的各分量均为正交,就形成特殊形式的因中的各分量均为正交,就形成特殊形式的因子分析,即主成分分析,它的数学系模
37、型为子分析,即主成分分析,它的数学系模型为Y=UX,这两个数学系模型的含义是不同的,但,这两个数学系模型的含义是不同的,但从因子分析求解主因子过程可以看到,当特殊因从因子分析求解主因子过程可以看到,当特殊因子变差贡献为零时,主因子分析和主成分分析完子变差贡献为零时,主因子分析和主成分分析完全是等价的。全是等价的。7.27.2因子分析过程在在SPSS13.0中进行主成分分析与因子分析的统计中进行主成分分析与因子分析的统计分析过程由主菜单的分析过程由主菜单的Analyze下拉菜单中的下拉菜单中的Data Reduction功能中的功能中的Factor过程实现。过程实现。Factor Analysi
38、s:因子分析的主对话框因子分析的主对话框变量栏选择变量值范围选择项按钮因子得分按钮旋转方法选择按钮因子提取按钮 选择描述统计量按钮Descriptives描述统计对话框初始因子分析结果相关矩阵KMO和球形Bartlett检验因子模型是否适合反映象再生相关系数矩阵的逆矩阵行列式Extraction提取因子对话框 控制提取进程和提取结果的选择项因子分析收敛的最大迭代次数提取因子的方法提取因子的方法Rotation 因子旋转对话框:方差最大斜交旋转0-1之间四次方最大正交旋转平方正交在正交最大方差旋转的基础上进行斜交旋转因子载荷散点图旋转收敛的最大迭代次数Factor Scores因子得分对话框:因
39、子得分作为新变量保存在数据文件中 因子得分作为新变量保存在数据文件中 均值为0,方差为估与实间多元相关的平方均值为0均值为0,方差为1原始变量得分后的标准化系数矩阵Options选择项子对话框变量中有缺失值的观测量一律删除 成对剔除带有缺失值的观测量相关系数的显示格式系数按其数值大小排列不显示那些绝对值小于指定值的相关系数案例分析1(主成分分析)某市某市15个大中型工业企业的经济效益分析,个大中型工业企业的经济效益分析,从有关经济效益指标中选取从有关经济效益指标中选取7个指标作分析:即个指标作分析:即固定资产产值率、固定资产利税率、资金利润率、固定资产产值率、固定资产利税率、资金利润率、资金利
40、税率、流动资金周转天数、销售收入利税资金利税率、流动资金周转天数、销售收入利税率和全员劳动生产率,对这率和全员劳动生产率,对这15个大中型工业企业个大中型工业企业的经济效益的状况及差异进行分析。的经济效益的状况及差异进行分析。分析表1相关矩阵表。各变量间存在着较强的相关关系,因此 有必要进行主成分分析。表表2变量共同度:变量共同度:变量的共同度对所有变量都是,表变量的共同度对所有变量都是,表明模型解释了每一个变量的全部方差,而不需要特殊因子,即明模型解释了每一个变量的全部方差,而不需要特殊因子,即特殊因子的方差为。特殊因子的方差为。表表3解释总方差:变量相关阵有两个最大特征根,解释总方差:变量
41、相关阵有两个最大特征根,即即4.660和和1.316,一起解释总方差的一起解释总方差的85.372%,说明前两说明前两个主成分提供了原始数据足够的信息。个主成分提供了原始数据足够的信息。碎石图:由图可以看出第一主成分与第二主成分的碎石图:由图可以看出第一主成分与第二主成分的特征根大于特征根大于1,而其它主成分的特征值小于,而其它主成分的特征值小于1,可以,可以认为前二个主成分能概括绝大部分信息。认为前二个主成分能概括绝大部分信息。因子载荷矩阵分析与小结第一主成分是由,确定的,因为它们在式中系数远远大于其他变量的系数,故标志着是这个指标的综合反映,说明企业经济效益盈利方面有能力;而且这个指标的系
42、数相当,进而说明这项指标用于考核评价企业经济效益都是必不可少的第二主成分是依赖于、变量,这标志着是反映企业资金和人力的利用水平这两个主成分从影响经济效益的二个主要方面刻划分析企业经济效益,用它们考核企业经济效益具有的可靠性。综合评价:从以上的输出信息与分析结果未能看出个企业的从以上的输出信息与分析结果未能看出个企业的综合经济效益的好坏,及企业在经营过程中的优势综合经济效益的好坏,及企业在经营过程中的优势与不足,故要计算各企业在第一、二个主成分及综与不足,故要计算各企业在第一、二个主成分及综合经济效益方面的得分,以此作为评价的依据。合经济效益方面的得分,以此作为评价的依据。操作步骤:操作步骤:1
43、.原始变量标准化原始变量标准化2.选择选择Transform Compute,求求Z1、Z2和和=0.66568Z1+0.18803Z2值值3.分别按分别按Z1、Z2和排序和排序主成分得分值及排序表盈利能力方面资金和人力方面综合经济效益评价Z1名次z2名次Z名次康佳电子1茂名石化2华空空调3三星集团4数源科技5中华电子6南方制药7中国长城8白云制药9五羊自行10广发烟卷11岭南通信12华南冰箱13潮州二轻15稀土高科16-0.570.73-1.45-4.063.763.961.75-1.70-0.170.6-0.72-0.88-1.051.78-1.9985121521413769101131
44、40.982.16-0.130.93-1.642.110.11-0.91-0.75-0.120.17-0.18-0.19-1.590.05319415261211851013147-0.200.89-0.98-2.532.203.011.19-1.30-0.25-0.37-0.45-0.62-0.900.88-1.31741215213138691011514案例分析2:对全国对全国30个省、市自治区经济发展基本情况的八项个省、市自治区经济发展基本情况的八项指标作主成分分析。指标作主成分分析。考核的指标有:考核的指标有:GDP、居民消费水平、固定资产投、居民消费水平、固定资产投资、职工平均工资
45、、货物周转量、居民消费价格资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。数据指数、商品零售价格指数、工业总产值。数据P150分析:在第一主成分的表达式中第一、三、八项指标的系数较大,这三个指标起主要作用,我们可以把第一主成分看成是由国内生产总值、固定资产投资工业总产值所刻划的反映经济发展情况的综合指标;在第二主成分中,第二、第四、第五、第七项指标的影响大,且第四、第五项尤其大,可将之看成是反映物价指数、职工工资和货物周转量的综合指标;在第三主成分中,第六项指数影响最大,远远超过其他指标的影响可单独看成是居民价格指数的影响。案例分析3(因子分析):某公司欲招聘一批
46、新员工,为了了解他(她)和知识水平、交际能力,自信心及应变能力等,为此人事部制定了个方面考核指标,即:申请书形式:外貌 X3:专业能力X4:讨人喜欢能力 X5:自信程度 X6:洞察力X7:诚实 X8:推销能力 X9:经验X10:驾驶汽车本领 X11:志向X12:理解能力 X13:潜在能力X14:对工作要求强烈程度 X15:适应性对48名应聘者进行面试,并对每一方面考核指标按十分制打分,最好表现给予最高分,普普通通给予中间分数,不好表现给予低分。面试结果见数据,请综合评价48名应聘者的素质,从而找出最优挑选方案。因子得分及排序表综合素质方面外在表现方面经验方面专业能力方面综合F1名次F2名次F3
47、名次F4名次F名次123456.48综合评价综合评价(1)a1、a2、a3、a4分别为旋转之后的方差贡献F=(a1*FAC1-1+a2*FAC2-1+a3*FAC3-1+a4*FAC4-1)/a1+a2+a3+a4(38.176*FAC1-1+18.20*FAC2-1+15.99*FAC3-1+8.975*FAC4-1)/81.35(2)分别对四个因子和F进行排序整理得下表:从因子得分表可以看出48名应聘者在综合素质方面、外露能力、经验及专业能力等方面的得分。作为公司主管可根据本公司及各部门的需要,并结合应聘者综合素质及特长,选择所需要的人员。案例4:对全国30个省、市自治区经济发展基本情况的
48、八项指标作因子分析。考核的指标有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。数据P150第一个因子在X1、X3、X8有较大的载荷,这些是从GDP、固定资产投资、工业总产值三个方面反映经济发展善的,因此命名为总量因子。第二个因子在X2、X4、X5有较大的载荷,这些是从居民消费水平,职工平均工资、货物周转量这三方面反映经济发展状况的,因此,命名为消费因子。第三个因子在X6、X7有较大的载荷,因此命名为价格因子。案例分析5:抽取深圳、上海八家上市公司2001年中九天收盘价格资料,进行投资组合时,常常希望在相关性较大的一类股票中只选择
49、一只或少数几只投资,试用因子分析法,确定投资方式.8 种股票收盘价资料 公司日期洞庭水殖X1南方汇通X2上海邮通X3广东明珠X3禾嘉股份X5离合器X6长征电器X7浙江东日X84.265.215.286.66.136.206.267.177.2024.1026.1026.0926.7527.0027.4028.6925.8026.6118.7318.8318.4619.2019.0018.8521.1019.2019.9520.5821.9920.8022.6822.2220.5520.8218.4919.0015.2616.1815.4016.1917.1116.4417.0115.4415.
50、9414.4015.8116.6617.4317.7816.5016.8016.2517.0513.5814.6014.5115.5216.0415.2515.9814.9615.3115.0016.3516.2116.9316.8815.3116.2715.1415.6216.0417.2017.2518.3618.2816.9717.6216.7017.25小结主成分分析与因子分析两者都是将多个指标转化为少数几个主成分分析与因子分析两者都是将多个指标转化为少数几个变量指标的一种实用多元统计分析方法,其用意在于重新变量指标的一种实用多元统计分析方法,其用意在于重新组织数据,使变量的维数降低,