《主成分分析与因子分析法精选课件.ppt》由会员分享,可在线阅读,更多相关《主成分分析与因子分析法精选课件.ppt(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于主成分分析与因子分析法第一页,本课件共有37页主要内容主成分分析法主成分分析法 因子分析法因子分析法附:主成分分析法与因子分析法的区别附:主成分分析法与因子分析法的区别第二页,本课件共有37页主成分分析法主成分分析法(Principal Components Analysis,PCA)主成分分析法概述主成分分析法概述主成分分析的基本原理主成分分析的基本原理 主成分分析的计算步骤主成分分析的计算步骤 第三页,本课件共有37页一、主成分分析概述第四页,本课件共有37页假定你是一个公司的财务经理,掌握了公假定你是一个公司的财务经理,掌握了公司的所有数据,这包括司的所有数据,这包括众多的变量众多的
2、变量,比如,比如固定资产、流动资金、每一笔借贷的数额固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分产值、利润、折旧、职工人数、职工的分工和教育程度等等工和教育程度等等。如果让你向上级或有关方面介绍公司状况,如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都你能够把这些指标和数字都原封不动地摆原封不动地摆出去吗出去吗?引子第五页,本课件共有37页当然不能。当然不能。汇报什么?汇报什么?发现在如此多的变量之中,有很多是发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的相关的
3、。人们希望能够找出它们的少数少数“代表代表”来对它们进行描述。来对它们进行描述。需要把这种有需要把这种有很多变量很多变量的数据进行高度的数据进行高度概括,概括,用少数几个指标简单明了地把情用少数几个指标简单明了地把情况说清楚。况说清楚。第六页,本课件共有37页主成分分析主成分分析法法(Principal Components Analysis)和)和因子分析因子分析法法(Factor Analysis)就就是把变量维数降低以是把变量维数降低以便于描述、理解和分析的方法。便于描述、理解和分析的方法。主成分分析也称为主分量分析,是一种通过降维来简主成分分析也称为主分量分析,是一种通过降维来简化数据
4、结构的方法:如何把多个变量化为少数几个综化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标)合变量(综合指标),而这几个综合变量可以反映原,而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。即它们之间要相互独立,互不相关。这些综合变量就叫因子或主成分,它是不可观测的,这些综合变量就叫因子或主成分,它是不可观测的,即即它不是具体的变量它不是具体的变量,只是几个指标的综合只是几个指标的综合。在引入主成分分析之前,先看下面的例子。在引入主成分分析之前,先看下面的例子。什么是主成分分析法?什
5、么是主成分分析法?第七页,本课件共有37页成绩数据5353个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史史、英语的成绩如下表(部分)。英语的成绩如下表(部分)。第八页,本课件共有37页从本例可能提出的问题能能不不能能把把这这个个数数据据表表中中的的6 6个个变变量量用用一一两个综合变量来表示呢?两个综合变量来表示呢?这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的的信信息呢?息呢?第九页,本课件共有37页事实上,以上问题在事实上,以上问题在平时的平时的研究中,也会经常遇研究中,也会经常遇到。它到。它所涉及的问题可以推广到对企业、对学校、所涉及的问题可以推广到对企业
6、、对学校、对区域进行对区域进行分析、评价、排序和分类分析、评价、排序和分类等。等。比如对比如对n n个个样本样本进行综合评价,可选的描述进行综合评价,可选的描述样本样本特征的指标很多,而这些指标往往存在特征的指标很多,而这些指标往往存在一定的一定的相关性相关性(既不完全独立,又不完全相关),这(既不完全独立,又不完全相关),这就给研究带来很大不便。就给研究带来很大不便。若选指标太多,会增若选指标太多,会增加分析问题的难度与复杂性,选指标太少,加分析问题的难度与复杂性,选指标太少,有可能会漏掉对有可能会漏掉对样本样本影响较大的指标,影响结影响较大的指标,影响结果的可靠性。果的可靠性。第十页,本课
7、件共有37页这就需要我们在相关分析的基础上,采用这就需要我们在相关分析的基础上,采用主成分分析法找到几个主成分分析法找到几个新的相互独立的综新的相互独立的综合指标合指标,达到既减少指标数量、又能区分,达到既减少指标数量、又能区分样本间差异的目的。样本间差异的目的。第十一页,本课件共有37页 二、主成分分析的基本原理二、主成分分析的基本原理第十二页,本课件共有37页(一)(一)主成分分析的几何解释主成分分析的几何解释(二)主成分分析的基本思想(二)主成分分析的基本思想第十三页,本课件共有37页(一)主成分分析的几何解释(一)主成分分析的几何解释例例中中数数据据点点是是六六维维的的;即即每每个个观
8、观测测值值是是6 6维维空空间间中的一个点。希望把中的一个点。希望把6 6维空间用低维空间表示。维空间用低维空间表示。先先假假定定只只有有二二维维,即即只只有有两两个个变变量量,语语文文成成绩绩(x x1 1)和和数数学学成成绩绩(x x2 2),分分别别由由横横坐坐标标和和纵纵坐标所代表;坐标所代表;每个学生都是二维坐标系中的一个点。每个学生都是二维坐标系中的一个点。第十四页,本课件共有37页因因为为在在实实际际应应用用中中,往往往往存存在在指指标标的的量量纲纲不不同同,所所以以在在计计算算之之前前须须先先消消除除量量纲纲的的影影响响,而而将将原原始始数数据据标标准准化化。为为了了实实现现样
9、样本本数数据据的的标标准准化化,应应求求样样本本数数据据的的平平均均和和方方差差。对对数数据据矩矩阵阵Y Y作作标标准准化化处处理理,即即对对每每一一个个指指标标分分量量作作标标准准化化变变换,变换公式为:换,变换公式为:第十五页,本课件共有37页其中,其中,样本均值:样本均值:样本标准差:样本标准差:第十六页,本课件共有37页原原始始变变量量 经经规规格格化化后后变变为为新新变变量量 ,其其均均值为零,方差为值为零,方差为1 1。对对二二维维空空间间来来讲讲n n个个标标准准化化后后的的样样本本在在二二维维空空间间的的分分布布大大体体为为一一椭椭圆圆形形,该该椭椭圆圆有有一一个个长长轴轴和和
10、一一个个短短轴轴。在在短短轴轴方方向向上上数数据据变变化化很很少少,极极端端的的情情况况下下,短短轴轴如如退退化化成成一一点点,长长轴轴的的方方向向可可以以完完全全解解释释这这些些点点的的变变化化,由由二二维维到到一一维维的的降降维维就就自自然然完完成成了。了。第十七页,本课件共有37页假定语文成绩假定语文成绩(X1)和数学成和数学成绩绩(X2)分别为)分别为标准化后的分数,标准化后的分数,右图为其散点图,右图为其散点图,椭圆倾斜为椭圆倾斜为45度。度。第十八页,本课件共有37页如果将坐标轴如果将坐标轴 X1 和和 X2 旋转旋转45 ,那么点在新坐标,那么点在新坐标系中的坐标(系中的坐标(Y
11、1,Y2)与原坐标()与原坐标(X1,X2)有如下的关系:)有如下的关系:Y1和和Y2均是均是X1 和和 X2的线性组合的线性组合第十九页,本课件共有37页在新坐标系中,在新坐标系中,可以发现:虽然可以发现:虽然散点图的形状没散点图的形状没有改变,但新的有改变,但新的随机变量随机变量 Y1 和和 Y2 已经不再相关。已经不再相关。而且大部分点沿而且大部分点沿 Y1 轴散开,在轴散开,在 Y1 轴方向的变异较大轴方向的变异较大(即(即 Y1的方差较的方差较大)大),相对来说,相对来说,在在 Y2轴方向的变轴方向的变异较小(即异较小(即 Y2 的方差较小)的方差较小)。第二十页,本课件共有37页在
12、上面的例子中在上面的例子中 Y1 和和 Y2 就是原变量就是原变量 X1和和 X2的的第一主成分和第二主成分。实际上第一主成分第一主成分和第二主成分。实际上第一主成分 Y1 就基本上反映了就基本上反映了 X1 和和X2 的主要信息,因为图中的的主要信息,因为图中的各点在新坐标系中的各点在新坐标系中的 Y1 坐标基本上就代表了这些坐标基本上就代表了这些点的分布情况,因此可以选点的分布情况,因此可以选 Y1 为一个新的综合为一个新的综合变量。当然如果再选变量。当然如果再选 Y2也作为综合变量,那么也作为综合变量,那么 Y1 和和 Y2 则反映了则反映了 X1 和和 X2的全部信息。的全部信息。第二
13、十一页,本课件共有37页22(二二)主成分分析的基本思想主成分分析的基本思想 假如对某一问题的研究涉及假如对某一问题的研究涉及 p p 个指标,记为个指标,记为X X1 1,X X2 2,X Xp p,由这,由这 p p 个随机变量构成的随机向量为个随机变量构成的随机向量为X X=(=(X X1 1,X X2 2,X Xp p),设设 X X 的均值向量为的均值向量为,协方差矩阵为,协方差矩阵为。设。设Y Y=(=(Y Y1 1,Y Y2 2,Y Yp p)为对为对 X X 进行线性变换得到的合成随机向量,即进行线性变换得到的合成随机向量,即 (1)设设 i i=(=(i i1 1,i i2
14、2,ipip),A A=(=(1 1,2 2,p p),则有,则有 (2)第二十二页,本课件共有37页23且且 (3)由是式由是式(1)(2)(1)(2)能够看出,可以对原始变量进行任意的线性变换,能够看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量不同线性变换得到的合成变量Y Y的统计特征显然是不一样的。每个的统计特征显然是不一样的。每个Y Yi i 应尽可能多地反映应尽可能多地反映 p p 个原始变量的信息,通常用方差来度个原始变量的信息,通常用方差来度量量“信息信息”,Y Yi i 的方差越大表示它所包含的信息越多。由式(的方差越大表示它所包含的信息越多。由式(3 3)
15、可以看出将系数向量可以看出将系数向量 i i 扩大任意倍数会使扩大任意倍数会使Y Yi i 的方差无限增大,的方差无限增大,为了消除这种不确定性,增加约束条件:为了消除这种不确定性,增加约束条件:第二十三页,本课件共有37页24 为了有效地反映原始变量的信息,为了有效地反映原始变量的信息,Y Y的不同分量包含的信息不应的不同分量包含的信息不应重叠。综上所述,式(重叠。综上所述,式(1 1)的线性变换需要满足下面的约束:)的线性变换需要满足下面的约束:(1)(1)即即 ,i i=1,2,=1,2,p p。(2)(2)Y Y1 1在满足约束在满足约束(1)(1)即的情况下,方差最大;即的情况下,方
16、差最大;Y Y2 2是在满足是在满足约束约束(1)(1),且与,且与Y Y1 1不相关的条件下,其方差达到大;不相关的条件下,其方差达到大;Y Yp p是在满足约束是在满足约束(1)(1),且与,且与Y Y1 1,Y Y2 2,Y Y p-p-1 1不相关的条件下,不相关的条件下,在各种线性组合中方差达到最大者。在各种线性组合中方差达到最大者。满足上述约束得到的合成变量满足上述约束得到的合成变量Y Y1 1,Y Y2 2,Y Yp p分别称为原分别称为原始变量的第一主成分、第二主成分、始变量的第一主成分、第二主成分、第、第 p p 主成分,而且各成主成分,而且各成分方差在总方差中占的比重依次递
17、减。在实际研究工作中,仅挑分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。选前几个方差较大的主成分,以达到简化系统结构的目的。第二十四页,本课件共有37页三、主成分分析的计算步骤第二十五页,本课件共有37页(一一)计算相关系数矩阵计算相关系数矩阵(二二)计算特征值与特征向量计算特征值与特征向量(三三)计算主成分贡献率及累计贡献率计算主成分贡献率及累计贡献率(四四)计算主成分载荷计算主成分载荷第二十六页,本课件共有37页(一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,j=1,2,p)为为原原变变量量xi与与xj标标准准化化后后的
18、的相相关系数,关系数,rij=rji,其计算公式为其计算公式为(3.5.3)(3.5.4)第二十七页,本课件共有37页(二)计算特征值与特征向量(二)计算特征值与特征向量 1、解特征方程,求出特征值,并使其、解特征方程,求出特征值,并使其按大小顺序排列按大小顺序排列 2、分别求出对应于特征值、分别求出对应于特征值 的特征向量的特征向量 ,要求,要求=1,即,即,其中表示向量其中表示向量 的第的第j个分量个分量,也就是说也就是说 为为单位向量。单位向量。第二十八页,本课件共有37页29(三)计算主成分贡献率及累计贡献率(三)计算主成分贡献率及累计贡献率 主成分分析是把主成分分析是把 p p 个随
19、机变量的总方差分解为个随机变量的总方差分解为 p p 个不相关个不相关随机变量的方差之和随机变量的方差之和 1 1 2 2 P P,则总方差中属于第,则总方差中属于第 i i 个个主成分(被第主成分(被第 i i 个主成分所解释)的比例为个主成分所解释)的比例为 称为第称为第 i i 个主成分的贡献率。定义个主成分的贡献率。定义 称为前称为前 m m 个主成分的累积贡献率,衡量了前个主成分的累积贡献率,衡量了前 m m 个主成份对原始变个主成份对原始变量的解释程度。量的解释程度。第二十九页,本课件共有37页(四)计算主成分载荷计算主成分载荷 在主成分之间不相关时,在主成分之间不相关时,主成分载
20、荷就是主成主成分载荷就是主成 分分z zi i与变量与变量x xj j之间的相关系数之间的相关系数第三十页,本课件共有37页因子分析法因子分析法(Factor Analysis,FA)因子分析法概述因子分析法概述因子分析法的模型因子分析法的模型附:主成分分析与因子分析的区别附:主成分分析与因子分析的区别第三十一页,本课件共有37页(一)因子分析法概述因子分析法与主成分分析法都基于统计分因子分析法与主成分分析法都基于统计分析法,但两者有较大的区别。析法,但两者有较大的区别。主成分分析主成分分析是是通过坐标变换提取主成分,也就是将一组具通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组
21、独立的变量,将有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性组合。而主成分表示为原始观察变量的线性组合。而因子分析因子分析法是要构造因子模型,将原始观察法是要构造因子模型,将原始观察变量分解为因子的线性组合。因此因子分析变量分解为因子的线性组合。因此因子分析法是主成分分析法的发展。法是主成分分析法的发展。第三十二页,本课件共有37页(二)因子分析法的模型狭义的因子分析法常与主成分分析法在处理方法上有相类似之处,都要对变量规格化,并找出原始变量规格化后的相关矩阵。其主要不同点在于建立线性方程组时所考虑的方法,因子分析是以回归方程的形式将变量表示成因子的线性组合,而且要使因子
22、数m小于原始变量维数p,从而简化了模型结构。其步骤为:将原始数据标准化求标准化数据的相关矩阵求相关矩阵的特征值和特征向量计算方差贡献率与累计方差贡献率确定因子因子旋转用原始的线性组合求各因子得分求综合得分得分排序第三十三页,本课件共有37页因子模型的表达式为:第三十四页,本课件共有37页 其矩阵形式为:其中 为因子载荷。数学上可以证明,因子载荷 就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。第三十五页,本课件共有37页附、主成分分析与因子分析的区别第三十六页,本课件共有37页12/9/2022感谢大家观看第三十七页,本课件共有37页