《怎样用做主成分分析和因子分析精选PPT.ppt》由会员分享,可在线阅读,更多相关《怎样用做主成分分析和因子分析精选PPT.ppt(108页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于怎样用做主成分分析和因子分析第1页,讲稿共108张,创作于星期日2 主主成成分分分分析析(principal components analysis,简简称称PCA)是是由由霍霍特特林林(Hotelling)于于1933年年首首先先提提出出的的。它它通通过过投投影影的的方方法法,实实现现数数据据的的降降维维,在在损损失失较较少少数数据据信信息息的的基基础础上把多个指标转化为几个有代表意义的综合指标。上把多个指标转化为几个有代表意义的综合指标。13.1 13.1 主成分分析主成分分析主成分分析主成分分析第2页,讲稿共108张,创作于星期日313.1.1 13.1.1 主成分分析的基本思想主成
2、分分析的基本思想主成分分析的基本思想主成分分析的基本思想 假如对某一问题的研究涉及假如对某一问题的研究涉及 p 个指标,记为个指标,记为X1,X2,Xp,由,由这这 p 个随机变量构成的随机向量为个随机变量构成的随机向量为X=(X1,X2,Xp),设,设 X 的均的均值向量为值向量为,协方差矩阵为,协方差矩阵为。设。设Y=(Y1,Y2,Yp)为对为对 X 进行线性进行线性变换得到的合成随机向量,即变换得到的合成随机向量,即 (13.1.1)设设 i=(i1,i2,ip),(),A=(1,2,p),则有则有 (13.1.2)第3页,讲稿共108张,创作于星期日4且且 (13.1.3)由式(由式(
3、13.1.1)和式()和式(13.1.2)可以看出,可以对原始变量进)可以看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量行任意的线性变换,不同线性变换得到的合成变量Y的统计特征的统计特征显然是不一样的。每个显然是不一样的。每个Yi 应尽可能多地反映应尽可能多地反映 p 个原始变量的信息,个原始变量的信息,通常用方差来度量通常用方差来度量“信息信息”,Yi 的方差越大表示它所包含的信息的方差越大表示它所包含的信息越多。由式(越多。由式(13.1.3)可以看出将系数向量)可以看出将系数向量 i 扩大任意倍数会使扩大任意倍数会使Yi 的方差无限增大,为了消除这种不确定性,增加约束
4、条件:的方差无限增大,为了消除这种不确定性,增加约束条件:第4页,讲稿共108张,创作于星期日5 为了有效地反映原始变量的信息,为了有效地反映原始变量的信息,Y的不同分量包含的信息不的不同分量包含的信息不应重叠。综上所述,式(应重叠。综上所述,式(13.1.1)的线性变换需要满足下面的约束:)的线性变换需要满足下面的约束:(1),即,即 ,i=1,2,p。(2)Y1在满足约束在满足约束(1)即的情况下,方差最大;即的情况下,方差最大;Y2是在满足约束是在满足约束(1),且与,且与Y1不相关的条件下,其方差达到最大;不相关的条件下,其方差达到最大;Yp是在满是在满足约束足约束(1),且与,且与Y
5、1,Y2,Y p-1不相关的条件下,在各种线性组不相关的条件下,在各种线性组合中方差达到最大者。合中方差达到最大者。满足上述约束得到的合成变量满足上述约束得到的合成变量Y1,Y2,Yp分别称为原始变量的分别称为原始变量的第一主成分、第二主成分、第一主成分、第二主成分、第、第 p 主成分,而且各成分方差在总方主成分,而且各成分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。主成分,以达到简化系统结构的目的。第5页,讲稿共108张,创作于星期日613.1.2 13.1.2 总体主
6、成分求解及其性质总体主成分求解及其性质总体主成分求解及其性质总体主成分求解及其性质 13.1.1节中提到主成分分析的基本思想是考虑合成变量的方节中提到主成分分析的基本思想是考虑合成变量的方差大小及其对原始变量波动差大小及其对原始变量波动(方差方差)的贡献大小,而对于原始随机变的贡献大小,而对于原始随机变量量X1,X2,Xp,其协方差矩阵或相关矩阵正是对各变量离散,其协方差矩阵或相关矩阵正是对各变量离散程度和相关程度的度量。在实际求解主成分时,一般从原始变量程度和相关程度的度量。在实际求解主成分时,一般从原始变量的协方差矩阵或相关矩阵的结构分析出发。的协方差矩阵或相关矩阵的结构分析出发。第6页,
7、讲稿共108张,创作于星期日7 1 1从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分 设设 1是任意是任意 p 1向量,求解主成份就是在约束条件向量,求解主成份就是在约束条件 下,求下,求 X 的线性函数的线性函数 使其方差使其方差 达到最大,即达到最达到最大,即达到最大,且大,且 ,其中,其中 是随机变量向量是随机变量向量X=(X1,X2,Xp)的协方差的协方差矩阵。设矩阵。设 1 2 p 0 为为 的特征值,的特征值,e1,e2,ep为为 矩阵各特矩阵各特征值对应的标准正交特征向量,则对于任意的征值对应的标准正交特征向量,则对于任意
8、的ei 和和 ej,有,有 (13.1.4)且且 (13.1.5)第7页,讲稿共108张,创作于星期日8因此因此 (13.1.6)当当 1=e1 时有时有 (13.1.7)此时此时 达到最大值为达到最大值为 1。同理有。同理有 并并且且 (13.1.8)第8页,讲稿共108张,创作于星期日9 由上述推导得由上述推导得 (13.1.9)可见可见Y1,Y2,Yp 即为原始变量的即为原始变量的 p 个主成份。因此,主成分的个主成份。因此,主成分的求解转变为求求解转变为求 X1,X2,Xp 协方差矩阵协方差矩阵 的特征值和特征向量的问的特征值和特征向量的问题。题。第9页,讲稿共108张,创作于星期日1
9、0主成份的性质主成份的性质主成份的性质主成份的性质 性质性质性质性质1 1 Y的协方差矩阵为对角阵的协方差矩阵为对角阵,即,即 (13.1.10)性质性质性质性质2 2 设设=(ij)pp是随机变量向量是随机变量向量 X 的协方差矩阵,可得的协方差矩阵,可得即即第10页,讲稿共108张,创作于星期日11 由此可见,主成分分析是把由此可见,主成分分析是把 p 个随机变量的总方差分解为个随机变量的总方差分解为 p 个个不相关随机变量的方差之和不相关随机变量的方差之和 1 2 P,则总方差中属于第,则总方差中属于第 i 个主成分(被第个主成分(被第 i 个主成分所解释)的比例为个主成分所解释)的比例
10、为 (13.1.12)称为第称为第 i 个主成分的贡献度。定义个主成分的贡献度。定义 (13.1.13)称为前称为前 m 个主成分的累积贡献度,衡量了前个主成分的累积贡献度,衡量了前 m 个主成份对原始变量个主成份对原始变量的解释程度。的解释程度。第11页,讲稿共108张,创作于星期日12 性质性质性质性质3 3记第记第k个主成分个主成分 Yk 与原始变量与原始变量 Xi 的相关系数为的相关系数为r(Yk,Xi),称为因子载荷,或者因子负荷量,则有,称为因子载荷,或者因子负荷量,则有 (13.1.14)第12页,讲稿共108张,创作于星期日133 3从相关矩阵出发求解主成分从相关矩阵出发求解主
11、成分从相关矩阵出发求解主成分从相关矩阵出发求解主成分 在实际应用时,为了消除原始变量量纲的影响,通常将数据标在实际应用时,为了消除原始变量量纲的影响,通常将数据标准化。考虑下面的标准化变化,令准化。考虑下面的标准化变化,令 (13.1.15)其中其中 i,ii 分别表示随机变量分别表示随机变量 Xi 的期望与方差,则的期望与方差,则 第13页,讲稿共108张,创作于星期日14 原始变量的相关矩阵就是原始变量标准化后的协方差矩阵,原始变量的相关矩阵就是原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程与由协方差矩阵求主成分的因此,由相关矩阵求主成分的过程与由协方差矩阵求主成分的过程是一
12、致的。如果仍然采用(过程是一致的。如果仍然采用(i,ei)表示相关矩阵)表示相关矩阵R对应的对应的特征值和标准正交特征向量,根据式(特征值和标准正交特征向量,根据式(13.1.9)有:)有:(13.1.17)由相关矩阵求得的主成分仍然满足性质由相关矩阵求得的主成分仍然满足性质13。性质。性质3可以进可以进一步表示为:一步表示为:(13.1.18)第14页,讲稿共108张,创作于星期日1513.1.3 13.1.3 样本的主成分样本的主成分样本的主成分样本的主成分1 1样本统计量样本统计量样本统计量样本统计量 在实际工作中,我们通常无法获得总体的协方差矩阵在实际工作中,我们通常无法获得总体的协方
13、差矩阵 和相和相关矩阵关矩阵R。因此,需要采用样本数据来估计。设从均值向量为。因此,需要采用样本数据来估计。设从均值向量为,协,协方差矩阵为方差矩阵为 的的 p 维总体中得到的维总体中得到的 n 个样本,且样本数据矩阵为个样本,且样本数据矩阵为 (13.1.19)第15页,讲稿共108张,创作于星期日16则样本协方差矩阵为:则样本协方差矩阵为:(13.1.20)其中其中:(13.1.21)样本相关矩阵为:样本相关矩阵为:(13.1.22)样本协方差矩阵样本协方差矩阵 S 是总体协方差矩阵是总体协方差矩阵 的无偏估计量,样本相的无偏估计量,样本相关矩阵关矩阵 是总体相关矩阵是总体相关矩阵 R 的
14、估计量。的估计量。第16页,讲稿共108张,创作于星期日172 2样本主成份及其性质样本主成份及其性质样本主成份及其性质样本主成份及其性质 由于采用相关矩阵和协方差矩阵求解主成分的过程基本一致,由于采用相关矩阵和协方差矩阵求解主成分的过程基本一致,因此本节仅介绍基于样本相关矩阵求解主成分的过程。设样本相关因此本节仅介绍基于样本相关矩阵求解主成分的过程。设样本相关矩阵矩阵 的特征值为的特征值为 ,且,且与特征值相对应的标准正交特征向量为与特征值相对应的标准正交特征向量为 ,根据式(,根据式(13.1.17)第)第 i 个样本主成分可表示为:个样本主成分可表示为:(13.1.23)而且而且 (13
15、.1.24)(13.1.25)第17页,讲稿共108张,创作于星期日18且由式(且由式(13.1.16)和性质)和性质2可得可得 (13.1.26)则第则第i个样本主成分的贡献度为个样本主成分的贡献度为 ,前,前m个样本主成份的累计贡个样本主成份的累计贡献度为献度为 另外另外 (13.1.27)第18页,讲稿共108张,创作于星期日193 3主成份个数的确定主成份个数的确定主成份个数的确定主成份个数的确定 主成分分析的目的之一是减少变量的个数,但是对于应保留多少个主成分分析的目的之一是减少变量的个数,但是对于应保留多少个主成分没有确切的回答。通常需要综合考虑样本总方差的量、特征值的主成分没有确
16、切的回答。通常需要综合考虑样本总方差的量、特征值的相对大小以及各成分对现实的阐述。一般所取相对大小以及各成分对现实的阐述。一般所取 m 使得累积贡献率达到使得累积贡献率达到85%以上为宜。以上为宜。另一个比较常用的可视的方法是碎石图,首先将特征值另一个比较常用的可视的方法是碎石图,首先将特征值 按照从按照从大到小的顺序进行排列,碎石图是特征值与相应序号大到小的顺序进行排列,碎石图是特征值与相应序号i的(的(i,)图形,)图形,其中横轴表示序号,纵轴表示特征值其中横轴表示序号,纵轴表示特征值 。为了确定主成分的合适。为了确定主成分的合适个数,选择碎石图斜率变化较大的拐弯点,通常在此序号之后的特个
17、数,选择碎石图斜率变化较大的拐弯点,通常在此序号之后的特征值取值比较小,则此序号作为主成分的个数。例如,图征值取值比较小,则此序号作为主成分的个数。例如,图13.1所示所示的碎石图在的碎石图在 i=2 处拐弯,则处拐弯,则 m 选择选择2。第三个经验的判断方法是只。第三个经验的判断方法是只保留那些方差大于保留那些方差大于1的主成分。的主成分。第19页,讲稿共108张,创作于星期日20例例例例13.1 13.1 宏观经济景气波动的主成分分析宏观经济景气波动的主成分分析宏观经济景气波动的主成分分析宏观经济景气波动的主成分分析 本例从一批对景气变动敏感,有代表的指标中筛选出本例从一批对景气变动敏感,
18、有代表的指标中筛选出5个反应宏个反应宏观经济波动的一致指标组:工业增加值增速(观经济波动的一致指标组:工业增加值增速(iva)、工业行业产品)、工业行业产品销售收入增速(销售收入增速(sr)、固定资产投资增速()、固定资产投资增速(if)、发电量增速()、发电量增速(elec)和货币供应量和货币供应量M1增速(增速(m1),样本区间从),样本区间从1998年年1月月2006年年12月,月,为了消除季节性因素和不规则因素,采用为了消除季节性因素和不规则因素,采用X-12方法进行季节调整。常用方法进行季节调整。常用的方法是美国商务部采用的计算合成指数的方法是美国商务部采用的计算合成指数CI的方法。
19、特别的,本例的方法。特别的,本例利用主成分分析降维的思想,提取主成分(利用主成分分析降维的思想,提取主成分(PCA),并与合成指数),并与合成指数CI的结果进行比较。的结果进行比较。第20页,讲稿共108张,创作于星期日2113.3.1 EViews13.3.1 EViews软件中主成分分析的计算软件中主成分分析的计算软件中主成分分析的计算软件中主成分分析的计算 本节以例本节以例13.1的数据为例,介绍的数据为例,介绍EViews软件中主成分分析软件中主成分分析的实现过程。首先将所涉及的变量建成一个组的实现过程。首先将所涉及的变量建成一个组(g1),选择组菜单,选择组菜单的的View/Prin
20、cipal Components.,出现如图,出现如图13.6所示的窗口。在所示的窗口。在窗口中有两个切换钮:第一个钮标着窗口中有两个切换钮:第一个钮标着Components,第二个钮标,第二个钮标着着Calculation,控制着组中各序列离差矩阵的计算和估计。默认,控制着组中各序列离差矩阵的计算和估计。默认的,的,EViews完成主成分分析使用普通的(完成主成分分析使用普通的(Pearson)相关矩阵,)相关矩阵,也可以在这个菜单下重新设定主成分的计算。也可以在这个菜单下重新设定主成分的计算。第21页,讲稿共108张,创作于星期日221 1ComponentsComponents选择纽选择
21、纽选择纽选择纽 Components按钮用于设定显示主成分和保存方差的特征按钮用于设定显示主成分和保存方差的特征值和特征向量。在值和特征向量。在Display对话框中可以以表的形式显示特征值和对话框中可以以表的形式显示特征值和特征向量,或者按照特征值的大小以线性图的形式显示,或者是载荷、特征向量,或者按照特征值的大小以线性图的形式显示,或者是载荷、得分的散点图,或者两个都显示(得分的散点图,或者两个都显示(biplot)。选择不同的显示方式,)。选择不同的显示方式,对话框中其余的内容也会发生相应的改变。对话框中其余的内容也会发生相应的改变。第22页,讲稿共108张,创作于星期日23图图图图13
22、.6 13.6 主成分估计对话框主成分估计对话框主成分估计对话框主成分估计对话框(1)(1)第23页,讲稿共108张,创作于星期日24第24页,讲稿共108张,创作于星期日25 表头描述了观测值的样本区间、计算离差矩阵的方法以及表头描述了观测值的样本区间、计算离差矩阵的方法以及保留成分的个数(在这个例子中显示了所有的保留成分的个数(在这个例子中显示了所有的5个主成分)。个主成分)。表的第一部分概括了特征值(表的第一部分概括了特征值(Value)、相应特征值与后一)、相应特征值与后一项的差(项的差(Difference)、对总方差的累积解释比例()、对总方差的累积解释比例(Cumulative
23、Proportion)等等。由于上述结果的计算采用相关矩阵,所以)等等。由于上述结果的计算采用相关矩阵,所以5个特个特征值之和等于征值之和等于5。第一个成分占总方差的。第一个成分占总方差的72.94%,第二个成分占总,第二个成分占总方差的方差的19.22%。前两个成分占总方差的。前两个成分占总方差的92.16%。表的第二部分描述了线性组合的系数,第一个主成分(标为表的第二部分描述了线性组合的系数,第一个主成分(标为“PC1”)大约等于所有)大约等于所有5个一致指标的线性组合,它可以解释为一个一致指标的线性组合,它可以解释为一般的经济景气指数。般的经济景气指数。输出的第三部分表示计算的相关矩阵。
24、输出的第三部分表示计算的相关矩阵。第25页,讲稿共108张,创作于星期日26第第1主成分主成分第第2主成分主成分第第3主成分主成分 第第4主成分主成分 第第5主成分主成分特特征征向向量量固定资产投资增速(固定资产投资增速(if)0.449-0.3670.6960.2000.374工业增加值增速(工业增加值增速(iva)0.510-0.153-0.0780.312-0.783货币供应量增速(货币供应量增速(m1r)0.2040.9130.2850.2080.009产品销售收入增速(产品销售收入增速(sr)0.4900.023-0.6540.2930.496发电量增速(发电量增速(elec)0.5
25、080.088-0.020-0.857-0.026特特 征征 值值3.6030.9880.2700.0870.051贡贡 献献 率率0.7210.1970.0540.0180.01累积贡献率累积贡献率0.7210.9180.9720.9901.000表表表表13.1 13.1 一致指标组的主成分分析结果一致指标组的主成分分析结果一致指标组的主成分分析结果一致指标组的主成分分析结果第26页,讲稿共108张,创作于星期日27 由表由表13.1可以看出,第可以看出,第1主成分的贡献率为主成分的贡献率为72.1%,已能较好地,已能较好地反映反映5个一致指标的总体变动情况,而且根据它们的特征值可以发现个
26、一致指标的总体变动情况,而且根据它们的特征值可以发现第第2个特征值开始明显变小个特征值开始明显变小(小于小于1),碎石图出现明显的拐弯,同时,碎石图出现明显的拐弯,同时为了讨论方便,仅选择为了讨论方便,仅选择m=1,提取第一个主成分反映经济变动。表,提取第一个主成分反映经济变动。表13.1中已经给出对应的特征向量,根据式(中已经给出对应的特征向量,根据式(13.1.23)可以得到对应的)可以得到对应的主成分序列。主成分序列。第27页,讲稿共108张,创作于星期日28图图图图13.7 13.7 主成分估计对话框(主成分估计对话框(主成分估计对话框(主成分估计对话框(2 2)如果在主对话框的如果在
27、主对话框的Display部分选择部分选择Eigenvalues plots,则显示按顺序排列的特,则显示按顺序排列的特征值的线性图(碎石图)。在对话框的下面将发生改变,可以选择显示特征值(碎石图)征值的线性图(碎石图)。在对话框的下面将发生改变,可以选择显示特征值(碎石图)、特征值的差、方差累积贡献率其中之一,或是全部。如图、特征值的差、方差累积贡献率其中之一,或是全部。如图13.7所示可以选择任意的复所示可以选择任意的复选框。默认的选框。默认的EViews仅显示特征值排序的碎石图。仅显示特征值排序的碎石图。第28页,讲稿共108张,创作于星期日29第29页,讲稿共108张,创作于星期日30图
28、图图图13.8 13.8 主成分估计对话框(主成分估计对话框(主成分估计对话框(主成分估计对话框(3 3)变量载荷图(变量载荷图(Variable loadings plot)给出对应主成分的变量载荷系数,从图中可以)给出对应主成分的变量载荷系数,从图中可以看出如何根据原始变量合成新的主成分;成分得分图(看出如何根据原始变量合成新的主成分;成分得分图(Component scores plot)显示对)显示对应于样本区间内的观测值成分的得分值;应于样本区间内的观测值成分的得分值;biplot(Biplots(scores&loadings)则则表示在一个图中同时显示载荷系数和得分值。表示在一个
29、图中同时显示载荷系数和得分值。第30页,讲稿共108张,创作于星期日31第31页,讲稿共108张,创作于星期日32图图图图13.10 13.10 计算得分序列的设置对话框计算得分序列的设置对话框计算得分序列的设置对话框计算得分序列的设置对话框 2.Calculation2.Calculation选择钮选择钮选择钮选择钮 在在Type下拉菜单中选择使用相关下拉菜单中选择使用相关(Correlation)还是协方差还是协方差(Covariance)矩阵。在矩阵。在Method下拉菜单中选择计算方法:下拉菜单中选择计算方法:Ordinary,Ordinary(uncentered),Spearman
30、 rank-order or Kendalls tau-a,or Kendalls tau-b。在该对话框中,还可以设定计算使用的观测值样本。在该对话框中,还可以设定计算使用的观测值样本。第32页,讲稿共108张,创作于星期日33图图图图13.9 13.9 保存得分序列的对话框保存得分序列的对话框保存得分序列的对话框保存得分序列的对话框3 3保存得分序列保存得分序列保存得分序列保存得分序列 如果想保存主成分得分序列,直接从组(如果想保存主成分得分序列,直接从组(Group)菜单中)菜单中选择选择Proc/Make Principal Components.,则出现图,则出现图13.9所示所示的
31、对话框。的对话框。第33页,讲稿共108张,创作于星期日34 第一个选项是第一个选项是Scaling,用于选择得分序列和载荷计算的权重。,用于选择得分序列和载荷计算的权重。有有4个选项:个选项:Normalize loadings,Normalize scores,Symmetric weights和和User loading weight,默认的,默认的Normalize loadings,表示,表示标准化载荷,使得所有观测值得分对特征值有标准的比例;选标准化载荷,使得所有观测值得分对特征值有标准的比例;选择择Normalize scores,所有变量标准化为,所有变量标准化为1;选择;选择
32、Symmetric weights,将会有对称的权重;选择,将会有对称的权重;选择User loading weight,可以用户自己定,可以用户自己定义权重。义权重。然后需要输入得分序列的名称,在例然后需要输入得分序列的名称,在例13.1中,我们输入第一中,我们输入第一主成分的名字主成分的名字“PAC1”,用于保存第一个主成分。也可以根据需,用于保存第一个主成分。也可以根据需要保存对应得分的载荷、特征值和特征向量。要保存对应得分的载荷、特征值和特征向量。第34页,讲稿共108张,创作于星期日35 图图13.2中的实线给出了由主成分分析的第一主成分表示的一致景气指数(中的实线给出了由主成分分析
33、的第一主成分表示的一致景气指数(PCA),虚),虚线给出的是由国际上常用的美国商务部计算合成指数的方法给出的一致合成指线给出的是由国际上常用的美国商务部计算合成指数的方法给出的一致合成指数(数(CI),可以发现二者的变化趋势和转折点几乎完全相同,只是波动的幅度),可以发现二者的变化趋势和转折点几乎完全相同,只是波动的幅度略有差异。进一步表明:略有差异。进一步表明:PCA指数不仅能够反映景气波动的变化趋势和峰谷的指数不仅能够反映景气波动的变化趋势和峰谷的转折点,而且还能反映波动的幅度。转折点,而且还能反映波动的幅度。图图图图13.2 13.2 第一主成分第一主成分第一主成分第一主成分 (PCA(
34、PCA,左坐标,左坐标,左坐标,左坐标),),一致合成指数一致合成指数一致合成指数一致合成指数(CI(CI,右坐标,右坐标,右坐标,右坐标)第35页,讲稿共108张,创作于星期日3613.2 13.2 因子分析因子分析因子分析因子分析 因子分析(因子分析(factor analysis,简称,简称FA)是主成分分析的推广,)是主成分分析的推广,相对于主成分分析,因子分析更侧重于解释被观测变量之间的相关相对于主成分分析,因子分析更侧重于解释被观测变量之间的相关关系或协方差之间的结构。因子分析的思想源于关系或协方差之间的结构。因子分析的思想源于1904年查尔斯年查尔斯斯皮斯皮尔曼(尔曼(Charl
35、es Spearman)对学生考试成绩的研究。研究多指标)对学生考试成绩的研究。研究多指标问题时常常会发现,这些指标相关性形成的背景原因是各种各问题时常常会发现,这些指标相关性形成的背景原因是各种各样的,其中共同的原因称为公共因子;每一个变量也含有其特样的,其中共同的原因称为公共因子;每一个变量也含有其特定的原因,成为特定(特殊)因子。因子分析的实质就是用几定的原因,成为特定(特殊)因子。因子分析的实质就是用几个潜在的但不能观察的互不相关的随机变量去描述许多变量之个潜在的但不能观察的互不相关的随机变量去描述许多变量之间的相关关系(或者协方差关系),这些随机变量被称为因子。间的相关关系(或者协方
36、差关系),这些随机变量被称为因子。为了使得这些因子能很好的替代原始数据,需要对这些因子给为了使得这些因子能很好的替代原始数据,需要对这些因子给出合理的解释。同时为了使用这些因子,还需要对提取结果进出合理的解释。同时为了使用这些因子,还需要对提取结果进行评价。行评价。第36页,讲稿共108张,创作于星期日37 因此,可以简单将因子分析的目标概括为以下几方面:因此,可以简单将因子分析的目标概括为以下几方面:(1)首先考虑是否存在较少的不相关的随机变量可用于描述原始变)首先考虑是否存在较少的不相关的随机变量可用于描述原始变量之间的关系;量之间的关系;(2)如果存在公共因子,那么究竟应该选择几个;)如
37、果存在公共因子,那么究竟应该选择几个;(3)对提取的公共因子的含义进行解释;)对提取的公共因子的含义进行解释;(4)评价每一个原始变量与公共因子之间的关系;)评价每一个原始变量与公共因子之间的关系;(5)可以将这些公共因子用于其他的统计分析。)可以将这些公共因子用于其他的统计分析。本节将从这几个角度给出详细的介绍。需要注意的是因子分析本节将从这几个角度给出详细的介绍。需要注意的是因子分析从一系列高度相关的原始变量矩阵从一系列高度相关的原始变量矩阵X=(X1,X2,Xp)中提取少数几个不中提取少数几个不相关的因子,所以如果原始变量之间不相关则没有必要进行因子分析。在相关的因子,所以如果原始变量之
38、间不相关则没有必要进行因子分析。在实际研究和应用中,为了消除观察值之间由于量纲的差异而造成的影响,实际研究和应用中,为了消除观察值之间由于量纲的差异而造成的影响,需要将观测值按照式(需要将观测值按照式(13.1.15)进行标准化处理。本节的讨论都是基于)进行标准化处理。本节的讨论都是基于标准化后的序列,为了方便,把标准化后的随机变量矩阵仍记为标准化后的序列,为了方便,把标准化后的随机变量矩阵仍记为Z=(Z1,Z 2,Zp)。第37页,讲稿共108张,创作于星期日3813.2.1 13.2.1 基本的因子分析模型基本的因子分析模型基本的因子分析模型基本的因子分析模型 假如对某一问题的研究涉及假如
39、对某一问题的研究涉及 p 个指标,且这个指标,且这 p 个指标之间存在个指标之间存在较强的相关性,则基本的因子模型可以表示为较强的相关性,则基本的因子模型可以表示为 (13.2.1)称式(称式(13.2.1)中)中F1,F2,Fm为公共因子,为公共因子,1,2,p 表示特殊因子,表示特殊因子,其中包含了随机误差,其中包含了随机误差,i 只与第只与第 i 个变量个变量 Zi 有关,有关,lij 称为第称为第 i 个变量个变量 Zi 在第在第 j 个因子个因子 Fj 上的载荷(因子载荷),由其构成的矩阵上的载荷(因子载荷),由其构成的矩阵 L 称为因子称为因子载荷矩阵。载荷矩阵。第38页,讲稿共1
40、08张,创作于星期日39 式(式(13.2.1)进一步可以表示为下面的矩阵形式)进一步可以表示为下面的矩阵形式 (13.2.2)其中,其中,F=(F1,F2,Fm);=(1,2,p)。注意式(。注意式(13.2.1)中的中的F1,F2,Fm 是不可观测的随机变量,因此,必须对随机变是不可观测的随机变量,因此,必须对随机变量量 F 和和 做一些假定,使得模型具有特定的且能验证的协方差结构。做一些假定,使得模型具有特定的且能验证的协方差结构。第39页,讲稿共108张,创作于星期日40假设假设 (13.2.3)(13.2.4)且且 F 与与 独立,即独立,即 (13.2.5)满足式(满足式(13.2
41、.3)式()式(13.2.5)假定的模型()假定的模型(13.2.1)(或)(或(13.2.2)称为正交因子模型。)称为正交因子模型。第40页,讲稿共108张,创作于星期日4113.2.2 13.2.2 正交因子模型的性质正交因子模型的性质正交因子模型的性质正交因子模型的性质1 1正交因子模型的协方差结构正交因子模型的协方差结构正交因子模型的协方差结构正交因子模型的协方差结构 假定随机变量假定随机变量Z的协方差矩阵为的协方差矩阵为,则有,则有 (13.2.6)(13.2.7)第41页,讲稿共108张,创作于星期日422 2因子载荷因子载荷因子载荷因子载荷 l lij ij 的意义的意义的意义的
42、意义 由式(由式(13.2.7)可得)可得 (13.2.8)由于假定由于假定 Zi 和和 Fj 都是方差为都是方差为1的随机变量,因此的随机变量,因此 lij 即为变量即为变量 Zi 与因子与因子Fj 的相关系数。的相关系数。第42页,讲稿共108张,创作于星期日433 3共同度与公因子的方差贡献共同度与公因子的方差贡献共同度与公因子的方差贡献共同度与公因子的方差贡献 由式(由式(13.2.6)可得)可得令令 则有则有 (13.2.9)其中其中 hi2 反映了公共因子对反映了公共因子对 Zi 方差的贡献,称为共性方差,或者变方差的贡献,称为共性方差,或者变量共同度。量共同度。i 称为特殊方差,
43、或者剩余方差。称为特殊方差,或者剩余方差。第43页,讲稿共108张,创作于星期日44 式(式(13.2.9)表明,)表明,hi2 接近接近1时,时,i 接近接近 0,说明,说明 Zi 包含的几乎包含的几乎全部信息都可以被公因子解释;当全部信息都可以被公因子解释;当 hi2 接近接近 0 时,表明公共因子对时,表明公共因子对 的的影响不大,主要由特殊因子描述。因此,影响不大,主要由特殊因子描述。因此,hi2 也反映了变量也反映了变量 Zi 对公对公共因子的依赖程度。与此类似,矩阵共因子的依赖程度。与此类似,矩阵 L 的第的第 j 列元素反映了第列元素反映了第 j 个因子个因子 Fj 对所有变量对
44、所有变量 Z 的影响,记为的影响,记为 (13.2.10)称为公共因子称为公共因子Fj 对原始变量向量对原始变量向量 Z 的方差贡献,是衡量公共因子相的方差贡献,是衡量公共因子相对重要性的一个尺度,其值越大反映对重要性的一个尺度,其值越大反映 Fj 对原始变量向量对原始变量向量 Z 的方差贡的方差贡献也越大。献也越大。第44页,讲稿共108张,创作于星期日4513.2.3 13.2.3 因子载荷的估计方法因子载荷的估计方法因子载荷的估计方法因子载荷的估计方法 因子分析的首要步骤是先确定因子载荷,或估计得到因子载荷矩因子分析的首要步骤是先确定因子载荷,或估计得到因子载荷矩阵阵L,注意在式(,注意
45、在式(13.2.1)和式()和式(13.2.2)中的)中的F1,F2,Fm是不是不可观测的随机变量,因此因子载荷矩阵可观测的随机变量,因此因子载荷矩阵L的估计方法都比较复杂,的估计方法都比较复杂,常用的方法有极大似然法、主成分法、迭代主成分方法、最小二乘法、常用的方法有极大似然法、主成分法、迭代主成分方法、最小二乘法、因子提取法等。因子提取法等。第45页,讲稿共108张,创作于星期日461 1极大似然法极大似然法极大似然法极大似然法如果假设公共因子如果假设公共因子 F 和特殊因子和特殊因子 服从正态分布,即服从正态分布,即F Nm(0,I),Np(0,),X1,X2,Xp 的均值为的均值为 =
46、(1,2,p),则观测值,则观测值 X1,X2,Xp 为来自正态总体为来自正态总体 Np(,)的样本,可以采的样本,可以采用极大似然法估计因子载荷矩阵和特殊方差,似然函数是用极大似然法估计因子载荷矩阵和特殊方差,似然函数是 和和 的函数的函数 L(,)。由于由于 ,因此似然函数可以更清楚地表示为,因此似然函数可以更清楚地表示为L(,L,),记,记(,L,)的估计量为,则有(13.2.11)第46页,讲稿共108张,创作于星期日472 2主成分方法主成分方法主成分方法主成分方法 用主成分法确定因子载荷,就是对随机变量进行主成分用主成分法确定因子载荷,就是对随机变量进行主成分分析,把前面几个主成分
47、作为原始公共因子。其具体过程如分析,把前面几个主成分作为原始公共因子。其具体过程如下,设有下,设有 p 个变量个变量 Z=(Z1,Z2,Zp),可以求得从大到小排序,可以求得从大到小排序的的 p 个主成分个主成分Y1,Y2,Yp,根据,根据13.1节的内容可知,原始变节的内容可知,原始变量与主成分之间存在如下的关系:量与主成分之间存在如下的关系:(13.2.13)第47页,讲稿共108张,创作于星期日48 由于由于A=(1,p)=(e1,e2,ep)为正交矩阵,则有为正交矩阵,则有 (13.2.14)如果在式(如果在式(13.2.13)中仅取前)中仅取前m个主成分,把其余的个主成分,把其余的
48、p-m 个主成分个主成分用特殊因子用特殊因子 i 代替,则式(代替,则式(13.2.13)可以表示为)可以表示为 (13.2.15)式(式(13.2.15)与式()与式(13.2.1)的形式一致,)的形式一致,Yi 表示主成分,因此相表示主成分,因此相互独立。互独立。第48页,讲稿共108张,创作于星期日49 为了使为了使 Yi 符合式(符合式(13.2.3)假设的公共因子,需要将主成分)假设的公共因子,需要将主成分Yi 的方的方差转变为差转变为1。由。由13.1节的介绍可知,主成分方差为特征根节的介绍可知,主成分方差为特征根 i,只需要将,只需要将 Yi 除以标准差除以标准差 即可,令即可,
49、令,(13.2.16)则式(则式(13.2.15)转变为:)转变为:(13.2.17)式(式(13.2.15)已与式()已与式(13.2.1)不仅在形式上一致,而且完全符)不仅在形式上一致,而且完全符合式(合式(13.2.3)式()式(13.2.5)的假设。由此就得到因子载荷矩阵和)的假设。由此就得到因子载荷矩阵和一组初始公共因子。一组初始公共因子。第49页,讲稿共108张,创作于星期日503 3迭代主成分方法(迭代主成分方法(迭代主成分方法(迭代主成分方法(Iterated Principal FactorsIterated Principal Factors)迭代主成分方法也叫主因子法,或
50、主轴因子方法迭代主成分方法也叫主因子法,或主轴因子方法,是对主成分法是对主成分法的一种修正。首先对原始变量进行标准化处理,其相关矩阵与协的一种修正。首先对原始变量进行标准化处理,其相关矩阵与协方差矩阵一致,使其因子模型满足式(方差矩阵一致,使其因子模型满足式(13.2.1),根据式(),根据式(13.2.6)有有 (13.2.18)令令 (13.2.19)称称R*为调整相关矩阵,或约相关矩阵。不妨设特殊因子为调整相关矩阵,或约相关矩阵。不妨设特殊因子 i 的方差的初的方差的初始估计为始估计为 i*,则有,则有hi*2=1-i*,且相应的样本相关矩阵为,且相应的样本相关矩阵为 ,则对,则对应的约