《主成分分析与因子分析法.ppt》由会员分享,可在线阅读,更多相关《主成分分析与因子分析法.ppt(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于主成分分析与因子分析法现在学习的是第1页,共37页主要内容主成分分析法主成分分析法 因子分析法因子分析法附:主成分分析法与因子分析法的区别附:主成分分析法与因子分析法的区别现在学习的是第2页,共37页主成分分析法主成分分析法(Principal Components Analysis,PCA) 主成分分析法概述主成分分析法概述主成分分析的基本原理主成分分析的基本原理 主成分分析的计算步骤主成分分析的计算步骤 现在学习的是第3页,共37页一、主成分分析概述现在学习的是第4页,共37页假定你是一个公司的财务经理,掌握了公假定你是一个公司的财务经理,掌握了公司的所有数据,这包括司的所有数据,这包
2、括众多的变量众多的变量,比如,比如固定资产、流动资金、每一笔借贷的数额固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分产值、利润、折旧、职工人数、职工的分工和教育程度等等工和教育程度等等。如果让你向上级或有关方面介绍公司状况,如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都你能够把这些指标和数字都原封不动地摆原封不动地摆出去吗出去吗? 引子现在学习的是第5页,共37页当然不能。当然不能。汇报什么?汇报什么?发现在如此多的变量之中,有很多是发现在如此多的变量之中,有很多是相关的。人们
3、希望能够找出它们的相关的。人们希望能够找出它们的少少数数“ “代表代表” ”来对它们进行描述。来对它们进行描述。需要把这种有需要把这种有很多变量很多变量的数据进行高度概的数据进行高度概括,括,用少数几个指标简单明了地把情况说用少数几个指标简单明了地把情况说清楚。清楚。现在学习的是第6页,共37页主成分分析主成分分析法法( Principal Components Analysis )和因子)和因子分析分析法法(Factor Analysis)就就是把变量维数降低以便于是把变量维数降低以便于描述、理解和分析的方法。描述、理解和分析的方法。主成分分析也称为主分量分析,是一种通过降维来简化主成分分析
4、也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标)量(综合指标) ,而这几个综合变量可以反映原来多个,而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。间要相互独立,互不相关。这些综合变量就叫因子或主成分,它是不可观测的,即这些综合变量就叫因子或主成分,它是不可观测的,即它不是具体的变量它不是具体的变量, ,只是几个指标的综合只是几个指标的综合。在引入主成分分析之前,先看下面的例子。在引入主成分分
5、析之前,先看下面的例子。什么是主成分分析法?什么是主成分分析法?现在学习的是第7页,共37页成绩数据5353个学生的数学、物理、化学、语文、历史、个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。英语的成绩如下表(部分)。 现在学习的是第8页,共37页从本例可能提出的问题能不能把这个数据表中的能不能把这个数据表中的6 6个变量用一个变量用一两个综合变量来表示呢?两个综合变量来表示呢?这一两个综合变量包含有多少原来的信这一两个综合变量包含有多少原来的信息呢?息呢?现在学习的是第9页,共37页事实上,以上问题在事实上,以上问题在平时的平时的研究中,也会经常遇到。研究中,也会经常遇到。
6、它它所涉及的问题可以推广到对企业、对学校、对区域所涉及的问题可以推广到对企业、对学校、对区域进行进行分析、评价、排序和分类分析、评价、排序和分类等。等。比如对比如对n n个个样本样本进行综合评价,可选的描述进行综合评价,可选的描述样本样本特特征的指标很多,而这些指标往往存在征的指标很多,而这些指标往往存在一定的相关性一定的相关性(既不完全独立,又不完全相关),这就给研究(既不完全独立,又不完全相关),这就给研究带来很大不便。带来很大不便。若选指标太多,会增加分析问题若选指标太多,会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉的难度与复杂性,选指标太少,有可能会漏掉对对样本样本影响较大的
7、指标,影响结果的可靠性。影响较大的指标,影响结果的可靠性。现在学习的是第10页,共37页这就需要我们在相关分析的基础上,采用主这就需要我们在相关分析的基础上,采用主成分分析法找到几个成分分析法找到几个新的相互独立的综合新的相互独立的综合指标指标,达到既减少指标数量、又能区分样本,达到既减少指标数量、又能区分样本间差异的目的。间差异的目的。现在学习的是第11页,共37页 二、主成分分析的基本原理二、主成分分析的基本原理现在学习的是第12页,共37页(一)(一)主成分分析的几何解释主成分分析的几何解释现在学习的是第13页,共37页(一)主成分分析的几何解释(一)主成分分析的几何解释例中数据点是六维
8、的;即每个观测值是例中数据点是六维的;即每个观测值是6 6维空间中的维空间中的一个点。希望把一个点。希望把6 6维空间用低维空间表示。维空间用低维空间表示。先假定只有二维,即只有两个变量,语文成绩(先假定只有二维,即只有两个变量,语文成绩(x x1 1)和数学成绩(和数学成绩(x x2 2),分别由横坐标和纵坐标所代表;),分别由横坐标和纵坐标所代表;每个学生都是二维坐标系中的一个点。每个学生都是二维坐标系中的一个点。现在学习的是第14页,共37页因为在实际应用中,往往存在指标的量纲不同,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原所以在计算之前须先消除量
9、纲的影响,而将原始数据标准化。为了实现样本数据的标准化,始数据标准化。为了实现样本数据的标准化,应求样本数据的平均和方差。对数据矩阵应求样本数据的平均和方差。对数据矩阵Y Y作标作标准化处理,即对每一个指标分量作标准化变换,准化处理,即对每一个指标分量作标准化变换,变换公式为:变换公式为: pjniSYYXjjijij, 2 , 1, 2 , 1现在学习的是第15页,共37页其中,其中, 样本均值:样本均值: 样本标准差:样本标准差: nkkiiYnY11nkikiiYYnS1211现在学习的是第16页,共37页原始变量原始变量 经规格化后变为新变量经规格化后变为新变量 ,其均,其均值为零,方
10、差为值为零,方差为1 1。对二维空间来讲对二维空间来讲n n个标准化后的样本在二维个标准化后的样本在二维空间的分布大体为一椭圆形,空间的分布大体为一椭圆形,该椭圆有一个该椭圆有一个长轴和一个短轴。在短轴方向上数据变化很长轴和一个短轴。在短轴方向上数据变化很少少,极端的情况极端的情况下下,短轴如退化成一点,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。由二维到一维的降维就自然完成了。ijYijX现在学习的是第17页,共37页2x1x假定语文成绩假定语文成绩 (X1) 和数学成绩和数学成绩 (X2)分别为标准化后)分别为标
11、准化后的分数,右图为其的分数,右图为其散点图,椭圆倾斜散点图,椭圆倾斜为为45度。度。现在学习的是第18页,共37页如果将坐标轴如果将坐标轴 X1 和和 X2 旋转旋转45 ,那么点在新坐标系中,那么点在新坐标系中的坐标(的坐标(Y1,Y2)与原坐标()与原坐标(X1,X2)有如下的关系:)有如下的关系: Y1和和Y2均是均是X1 和和 X2的线性组合的线性组合现在学习的是第19页,共37页2x1x在新坐标系中,在新坐标系中,可以发现:虽然可以发现:虽然散点图的形状没散点图的形状没有改变,但新的有改变,但新的随机变量随机变量 Y1 和和 Y2 已经不再相关。已经不再相关。而且大部分点沿而且大部
12、分点沿 Y1 轴散开,在轴散开,在 Y1 轴轴方向的变异较大方向的变异较大(即(即 Y1的方差较的方差较大)大) ,相对来说,相对来说,在,在 Y2轴方向的变轴方向的变异较小(即异较小(即 Y2 的的方差较小)方差较小) 。现在学习的是第20页,共37页在上面的例子中在上面的例子中 Y1 和和 Y2 就是原变量就是原变量 X1和和 X2的第一的第一主成分和第二主成分。实际上第一主成分主成分和第二主成分。实际上第一主成分 Y1 就基本上就基本上反映了反映了 X1 和和X2 的主要信息,因为图中的各点在新坐的主要信息,因为图中的各点在新坐标系中的标系中的 Y1 坐标基本上就代表了这些点的分布情况,
13、坐标基本上就代表了这些点的分布情况,因此可以选因此可以选 Y1 为一个新的综合变量。当然如果再选为一个新的综合变量。当然如果再选 Y2也作为综合变量,那么也作为综合变量,那么 Y1 和和 Y2 则反映了则反映了 X1 和和 X2的全部信息。的全部信息。 现在学习的是第21页,共37页22 假如对某一问题的研究涉及假如对某一问题的研究涉及 p p 个指标,记为个指标,记为X X1 1,X X2 2, , , , X Xp p,由这,由这 p p 个随机变量构成的随机向量为个随机变量构成的随机向量为X X=(=(X X1 1, , X X2 2, , , , X Xp p) ) ,设,设 X X
14、的均值向量为的均值向量为 ,协方差矩阵为,协方差矩阵为 。设。设Y Y=(=(Y Y1 1, , Y Y2 2 , , , , Y Yp p) ) 为对为对 X X 进行线性变换得到进行线性变换得到的合成随机向量,即的合成随机向量,即 (1)设设 i i=(=( i i1 1, , i i2 2 , , , , ipip) ) , , A A=(=( 1 1 , , 2 2 , , p p) ) ,则,则有有 ppppppppXXXYYY2121222211121121AXY pi,2,1(2)现在学习的是第22页,共37页23且且 (3) 由是式由是式(1)(2)(1)(2)能够看出,可以对
15、原始变量进行任意的线能够看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量性变换,不同线性变换得到的合成变量Y Y的统计特征显然是不一样的统计特征显然是不一样的。每个的。每个Y Yi i 应尽可能多地反映应尽可能多地反映 p p 个原始变量的信息,通常用方差来度个原始变量的信息,通常用方差来度量量“信息信息”,Y Yi i 的方差越大表示它所包含的信息越多。由式(的方差越大表示它所包含的信息越多。由式(3 3)可以)可以看出将系数向量看出将系数向量 i i 扩大任意倍数会使扩大任意倍数会使Y Yi i 的方差无限增大,为了消除的方差无限增大,为了消除这种不确定性,增加约束条件:
16、这种不确定性,增加约束条件:pjiYYpiYjijiii,2,1,),cov(,2,1)var(i1iaai现在学习的是第23页,共37页24 为了有效地反映原始变量的信息,为了有效地反映原始变量的信息,Y Y的不同分量包含的信息不的不同分量包含的信息不应重叠。综上所述,式(应重叠。综上所述,式(1 1)的线性变换需要满足下面的约束:)的线性变换需要满足下面的约束:(1) (1) 即即 ,i i =1, 2, , =1, 2, , p p。(2) (2) Y Y1 1在满足约束在满足约束 (1) (1) 即的情况下,方差最大;即的情况下,方差最大;Y Y2 2是在满足约束是在满足约束(1) (
17、1) ,且与,且与Y Y1 1不相关的条件下,其方差达到大;不相关的条件下,其方差达到大;Y Yp p是在满足约束是在满足约束(1) (1) ,且与,且与Y Y1 1,Y Y2 2,Y Y p- p-1 1不相关的条件下,在各种线性组合中方差达不相关的条件下,在各种线性组合中方差达到最大者。到最大者。 满足上述约束得到的合成变量满足上述约束得到的合成变量Y Y1 1, , Y Y2 2, , , , Y Yp p分别称为原始变量分别称为原始变量的第一主成分、第二主成分、的第一主成分、第二主成分、第、第 p p 主成分,而且各成分方差在总方差主成分,而且各成分方差在总方差中占的比重依次递减。在实
18、际研究工作中,仅挑选前几个方差较大的主成中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。分,以达到简化系统结构的目的。122221ipiiaaa1iaai现在学习的是第24页,共37页三、主成分分析的计算步骤现在学习的是第25页,共37页( (一一) )计算相关系数矩阵计算相关系数矩阵( (二二) )计算特征值与特征向量计算特征值与特征向量( (三三) )计算主成分贡献率及累计贡献率计算主成分贡献率及累计贡献率( (四四) )计算主成分载荷计算主成分载荷现在学习的是第26页,共37页(一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,j=1,2
19、, ,p)为原变量)为原变量xi与与xj标准化后的相关系标准化后的相关系数,数, rij=rji,其计算公式为其计算公式为pppppprrrrrrrrrR212222111211(3.5.3) nknkjkjikinkjkjikiijxxxxxxxxr11221)()()((3.5.4) 现在学习的是第27页,共37页(二)计算特征值与特征向量(二)计算特征值与特征向量 1、解特征方程,求出特征值,并使其按大、解特征方程,求出特征值,并使其按大小顺序排列小顺序排列 0RI021p 2、分别求出对应于特征值、分别求出对应于特征值 的特征向量的特征向量 ,要求,要求 =1,即,其,即,其中表示向量
20、中表示向量 的第的第j个分量个分量,也就是说也就是说 为单位向为单位向量。量。i), 2 , 1(pieiie112pjijeijeieie现在学习的是第28页,共37页29(三)计算主成分贡献率及累计贡献率(三)计算主成分贡献率及累计贡献率 主成分分析是把主成分分析是把 p p 个随机变量的总方差分解为个随机变量的总方差分解为 p p 个不相关随机变个不相关随机变量的方差之和量的方差之和 1 1 2 2 P P,则总方差中属于第,则总方差中属于第 i i 个主成分(被第个主成分(被第 i i 个主成分所解释)的比例为个主成分所解释)的比例为 称为第称为第 i i 个主成分的贡献率。定义个主成
21、分的贡献率。定义 称为前称为前 m m 个主成分的累积贡献率,衡量了前个主成分的累积贡献率,衡量了前 m m 个主成份对原始变量个主成份对原始变量的解释程度。的解释程度。pi21pmpiimjj11现在学习的是第29页,共37页 (四)计算主成分载荷计算主成分载荷 在主成分之间不相关时,在主成分之间不相关时,主成分载荷就是主成主成分载荷就是主成 分分z zi i与变量与变量x xj j之间的相关系数之间的相关系数), 2 , 1,(),(pjiexzplijijiij现在学习的是第30页,共37页因子分析法因子分析法(Factor Analysis,FA)因子分析法概述因子分析法概述因子分析法
22、的模型因子分析法的模型附:主成分分析与因子分析的区别附:主成分分析与因子分析的区别现在学习的是第31页,共37页(一)因子分析法概述因子分析法与主成分分析法都基于统计分因子分析法与主成分分析法都基于统计分析法,但两者有较大的区别。析法,但两者有较大的区别。主成分分析主成分分析是通过坐标变换提取主成分,也就是将一是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性量,将主成分表示为原始观察变量的线性组合。而组合。而因子分析因子分析法是要构造因子模型,法是要构造因子模型,将原始观察变量分解为因子的线性组合。
23、将原始观察变量分解为因子的线性组合。因此因子分析法是主成分分析法的发展。因此因子分析法是主成分分析法的发展。现在学习的是第32页,共37页(二)因子分析法的模型狭义的因子分析法常与主成分分析法在处理方法上有相类似之处,都要对变量规格化,并找出原始变量规格化后的相关矩阵。其主要不同点在于建立线性方程组时所考虑的方法,因子分析是以回归方程的形式将变量表示成因子的线性组合,而且要使因子数m小于原始变量维数p,从而简化了模型结构。其步骤为: 将原始数据标准化求标准化数据的相关矩阵求相关矩阵的特征值和特征向量计算方差贡献率与累计方差贡献率确定因子因子旋转用原始的线性组合求各因子得分求综合得分得分排序现在学习的是第33页,共37页因子模型的表达式为:pmpmpppmmmmeFaFaFaxeFaFaFaxeFaFaFax 2211222221212112121111现在学习的是第34页,共37页 其矩阵形式为: 其中 为因子载荷。数学上可以证明,因子载荷 就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。 F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。 eAFXijijaaA),(ija现在学习的是第35页,共37页附、主成分分析与因子分析的区别现在学习的是第36页,共37页8/30/2022感谢大家观看感谢大家观看现在学习的是第37页,共37页