《主成分分析与因子分析法教学提纲.ppt》由会员分享,可在线阅读,更多相关《主成分分析与因子分析法教学提纲.ppt(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、主成分主成分(chng fn)(chng fn)分析法与分析法与因子分析法因子分析法第一页,共37页。主要(zhyo)内容主成分分析法主成分分析法 因子因子(ynz)(ynz)分析法分析法附:主成分分析法与因子附:主成分分析法与因子(ynz)(ynz)分析法的分析法的区别区别第二页,共37页。主成分主成分(chng fn)(chng fn)分析法分析法(Principal Components Analysis,PCAPrincipal Components Analysis,PCA)主成分分析主成分分析(fnx)(fnx)法概述法概述主成分分析主成分分析(fnx)(fnx)的基本原理的基本原
2、理 主成分分析主成分分析(fnx)(fnx)的计算步骤的计算步骤 第三页,共37页。一、主成分(chng fn)分析概述第四页,共37页。假定你是一个公司的财务经理,掌握了公假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,比如司的所有数据,这包括众多的变量,比如固定资产、流动资金、每一笔借贷的数额固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分产值、利润、折旧、职工人数、职工的分工和教育程度等等。工和教育程度等等。如果让你向上级或有关方面介绍如果让你向上级或有关方面介绍(ji
3、sho)(jisho)公公司状况,你能够把这些指标和数字都原封司状况,你能够把这些指标和数字都原封不动地摆出去吗?不动地摆出去吗?引子(yn zi)第五页,共37页。当然不能。汇报什么?当然不能。汇报什么?发现在如此多的变量之中,有很多是相发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数关的。人们希望能够找出它们的少数“代代表表”来对它们进行描述。来对它们进行描述。需要把这种有很多变量的数据进行高度需要把这种有很多变量的数据进行高度概括,用少数几个指标概括,用少数几个指标(zh(zhbio)bio)简单明简单明了地把情况说清楚。了地把情况说清楚。第六页,共37页。主成分分析法
4、(主成分分析法(Principal Components Analysis Principal Components Analysis)和因子)和因子分析法(分析法(Factor AnalysisFactor Analysis)就是把变量维数降低以便于描)就是把变量维数降低以便于描述、理解和分析的方法。述、理解和分析的方法。主成分分析也称为主分量分析,是一种通过降维来简化数主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量据结构的方法:如何把多个变量化为少数几个综合变量(综合指标)(综合指标),而这几个综合变量可以反映原来多个变,而这几个综合变量
5、可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。相互独立,互不相关。这些这些(zhxi)(zhxi)综合变量就叫因子或主成分,它是不可观测综合变量就叫因子或主成分,它是不可观测的,即它不是具体的变量的,即它不是具体的变量,只是几个指标的综合。只是几个指标的综合。在引入主成分分析之前,先看下面的例子。在引入主成分分析之前,先看下面的例子。什么什么(shn me)(shn me)是主成分分析法是主成分分析法?第七页,共37页。成绩(chngj)数据5353个个学学生生的的数数学学、物物理理、化化学学、语语文文
6、、历历史史(lsh(lsh)、英语的成绩如下表(部分)。、英语的成绩如下表(部分)。第八页,共37页。从本例可能(knng)(knng)提出的问题能能不不能能把把这这个个数数据据表表中中的的6 6个个变变量量用用一一两个综合变量来表示两个综合变量来表示(bi(biosh)osh)呢?呢?这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的的信信息呢?息呢?第九页,共37页。事实上,以上问题事实上,以上问题(wnt)(wnt)在平时的研究中,在平时的研究中,也会经常遇到。它所涉及的问题也会经常遇到。它所涉及的问题(wnt)(wnt)可以可以推广到对企业、对学校、对区域进行分析、评推广到
7、对企业、对学校、对区域进行分析、评价、排序和分类等。价、排序和分类等。比如对比如对n n个样本进行综合评价,可选的描述样个样本进行综合评价,可选的描述样本特征的指标很多,而这些指标往往存在一定本特征的指标很多,而这些指标往往存在一定的相关性(既不完全独立,又不完全相关),的相关性(既不完全独立,又不完全相关),这就给研究带来很大不便。若选指标太多,会这就给研究带来很大不便。若选指标太多,会增加分析问题增加分析问题(wnt)(wnt)的难度与复杂性,选指的难度与复杂性,选指标太少,有可能会漏掉对样本影响较大的指标,标太少,有可能会漏掉对样本影响较大的指标,影响结果的可靠性。影响结果的可靠性。第十
8、页,共37页。这就需要我们在相关分析的基础上,采用这就需要我们在相关分析的基础上,采用主成分分析法找到几个新的相互独立的综主成分分析法找到几个新的相互独立的综合合(zngh)(zngh)指标,达到既减少指标数量、指标,达到既减少指标数量、又能区分样本间差异的目的。又能区分样本间差异的目的。第十一页,共37页。二、主成分二、主成分(chng fn)(chng fn)分析分析的基本原理的基本原理第十二页,共37页。(一)主成分分析的几何(一)主成分分析的几何(j h)解解释释(二)主成分分析的基本思想(二)主成分分析的基本思想第十三页,共37页。(一)主成分分析(一)主成分分析(fnx)的几何解释
9、的几何解释例例中中数数据据点点是是六六维维的的;即即每每个个观观测测值值是是6 6维维空空间间中中的的一一个个点点。希希望望(xwng)(xwng)把把6 6维维空空间间用用低低维维空空间间表表示。示。先先假假定定只只有有二二维维,即即只只有有两两个个变变量量,语语文文成成绩绩(x1x1)和和数数学学成成绩绩(x2x2),分分别别由由横横坐坐标标和和纵纵坐坐标所代表;标所代表;每个学生都是二维坐标系中的一个点。每个学生都是二维坐标系中的一个点。第十四页,共37页。因因为为在在实实际际应应用用中中,往往往往存存在在(cnzi)(cnzi)指指标标的的量量纲纲不不同同,所所以以在在计计算算之之前前
10、须须先先消消除除量量纲纲的的影影响响,而而将将原原始始数数据据标标准准化化。为为了了实实现现样样本本数数据据的的标标准准化化,应应求求样样本本数数据据的的平平均均和和方方差差。对对数数据据矩矩阵阵Y Y作作标标准准化化处处理理,即即对对每每一一个个指指标标分分量量作作标标准准化化变变换换,变变换换公式为:公式为:第十五页,共37页。其中其中(qzhng)(qzhng),样本均值:样本均值:样本标准差:样本标准差:第十六页,共37页。原原始始变变量量 经经规规格格化化后后变变为为新新变变量量 ,其其均值为零,方差为均值为零,方差为1 1。对对二二维维空空间间来来讲讲n n个个标标准准化化后后的的
11、样样本本在在二二维维空空间间的的分分布布大大体体为为一一椭椭圆圆形形,该该椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴。在在短短轴轴方方向向上上数数据据变变化化很很少少,极极端端的的情情况况下下,短短轴轴如如退退化化成成一一点点,长长轴轴的的方方向向可可以以完完全全解解释释这这些些点点的的变变化化,由由二二维维到到一一维维的的降降维维就就自自然然(zrn)(zrn)完成了。完成了。第十七页,共37页。假定假定(jidng)语语文成绩文成绩(X1)和和数学成绩数学成绩(X2)分别为标准化后分别为标准化后的分数,右图为的分数,右图为其散点图,椭圆其散点图,椭圆倾斜为倾斜为45度。度。第十八页,
12、共37页。如果如果(rgu)将坐标轴将坐标轴 X1 和和 X2 旋转旋转45 ,那么点在新坐,那么点在新坐标系中的坐标(标系中的坐标(Y1,Y2)与原坐标()与原坐标(X1,X2)有如下的关)有如下的关系:系:Y1和和Y2均是均是X1 和和 X2的线性组合的线性组合第十九页,共37页。在新坐标系中,在新坐标系中,可以可以(ky)发现:发现:虽然散点图的形虽然散点图的形状没有改变,但状没有改变,但新的随机变量新的随机变量 Y1 和和 Y2 已经不再已经不再相关。而且大部相关。而且大部分点沿分点沿 Y1 轴散轴散开,在开,在 Y1 轴方轴方向的变异较大(向的变异较大(即即 Y1的方差较大)的方差较
13、大),相对来说,在,相对来说,在 Y2轴方向的变异轴方向的变异较小(即较小(即 Y2 的的方差较小)方差较小)。第二十页,共37页。在上面的例子中在上面的例子中 Y1 和和 Y2 就是原变量就是原变量 X1和和 X2的第的第一主成分和第二主成分。实际上第一主成分一主成分和第二主成分。实际上第一主成分 Y1 就基就基本上反映了本上反映了 X1 和和X2 的主要信息,因为图中的各点的主要信息,因为图中的各点在新坐标系中的在新坐标系中的 Y1 坐标基本上就代表了这些点的分坐标基本上就代表了这些点的分布情况,因此布情况,因此(ync)可以选可以选 Y1 为一个新的综合变为一个新的综合变量。当然如果再选
14、量。当然如果再选 Y2也作为综合变量,那么也作为综合变量,那么 Y1 和和 Y2 则反映了则反映了 X1 和和 X2的全部信息。的全部信息。第二十一页,共37页。22(二二)主成分分析的基本思想主成分分析的基本思想 假如对某一问题的研究涉及假如对某一问题的研究涉及 p 个指标,记为个指标,记为X1,X2,Xp,由这,由这 p 个随机变量构成的随机向量个随机变量构成的随机向量(xingling)为为X=(X1,X2,Xp),设,设 X 的均值的均值向量向量(xingling)为为,协方差矩阵为,协方差矩阵为。设。设Y=(Y1,Y2,Yp)为对为对 X 进行线性变换得到的合成随机进行线性变换得到的
15、合成随机向量向量(xingling),即,即 (1)设设i=(i1,i2,ip),A=(1,2,p),则有,则有 (2)第二十二页,共37页。23且且 (3)由是式由是式(1)(2)能够看出,可以对原始变量进行能够看出,可以对原始变量进行(jnxng)任意的线性变换,任意的线性变换,不同线性变换得到的合成变量不同线性变换得到的合成变量Y的统计特征显然是不一样的。每个的统计特征显然是不一样的。每个Yi 应尽可能多应尽可能多地反映地反映 p 个原始变量的信息,通常用方差来度量个原始变量的信息,通常用方差来度量“信息信息”,Yi 的方差越大表示的方差越大表示它所包含的信息越多。由式(它所包含的信息越
16、多。由式(3)可以看出将系数向量)可以看出将系数向量i 扩大任意倍数会使扩大任意倍数会使Yi 的方差无限增大,为了消除这种不确定性,增加约束条件:的方差无限增大,为了消除这种不确定性,增加约束条件:第二十三页,共37页。24 为了有效地反映原始变量的信息,为了有效地反映原始变量的信息,Y的不同分量包含的信息不应重叠。综上所述,式的不同分量包含的信息不应重叠。综上所述,式(1)的线性变换需要满足)的线性变换需要满足(mnz)下面的约束:下面的约束:(1)即即 ,i=1,2,p。(2)Y1在满足在满足(mnz)约束约束(1)即的情况下,方差最大;即的情况下,方差最大;Y2是在满足是在满足(mnz)
17、约束约束(1),且,且与与Y1不相关的条件下,其方差达到大;不相关的条件下,其方差达到大;Yp是在满足是在满足(mnz)约束约束(1),且与,且与Y1,Y2,Y p-1不相关的条件下,在各种线性组合中方差达到最大者。不相关的条件下,在各种线性组合中方差达到最大者。满足满足(mnz)上述约束得到的合成变量上述约束得到的合成变量Y1,Y2,Yp分别称为原始变量的第一主成分、分别称为原始变量的第一主成分、第二主成分、第二主成分、第、第 p 主成分,而且各成分方差在总方差中占的比重依次递减。在实际研主成分,而且各成分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到
18、简化系统结构的目的。究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。第二十四页,共37页。三、主成分分析(fnx)的计算步骤第二十五页,共37页。(一一)计算相关系数矩阵计算相关系数矩阵(二二)计算特征值与特征向量计算特征值与特征向量(三三)计算主成分贡献率及累计计算主成分贡献率及累计(li j)(li j)贡贡献率献率(四四)计算主成分载荷计算主成分载荷第二十六页,共37页。(一)计算相关系数矩阵(一)计算相关系数矩阵(j zhn)rij(i,j=1,2,p)为为原原变变量量xi与与xj标标准准化化后后的的相关系数,相关系数,rij=rji,其计算公式为,其计算公式为(3.
19、5.3)(3.5.4)第二十七页,共37页。(二)计算(二)计算(j sun)特征值与特征向量特征值与特征向量 1、解特征方程,求出特征值,并使、解特征方程,求出特征值,并使其按大小顺序排列其按大小顺序排列 2、分别求出对应于特征值 的特征向量 ,要求=1,即,其中(qzhng)表示向量 的第j个分量,也就是说 为单位向量。第二十八页,共37页。29(三)计算(三)计算(j sun)(j sun)主成分贡献率及累计贡献率主成分贡献率及累计贡献率 主成分分析是把主成分分析是把 p p 个随机变量的总方差分解为个随机变量的总方差分解为 p p 个不相关随个不相关随机变量的方差之和机变量的方差之和1
20、 1 2 2 P P,则总方差中属于第,则总方差中属于第 i i 个主成分(被第个主成分(被第 i i 个主成分所解释)的比例为个主成分所解释)的比例为 称为第称为第 i i 个主成分的贡献率。定义个主成分的贡献率。定义 称为前称为前 m m 个主成分的累积贡献率,衡量了前个主成分的累积贡献率,衡量了前 m m 个主成份对原始变个主成份对原始变量的解释程度。量的解释程度。第二十九页,共37页。(四)计算主成分载荷 在主成分之间不相关(xinggun)时,主成分载荷就是主成 分zi与变量xj之间的相关(xinggun)系数第三十页,共37页。因子因子(ynz)分析法分析法(Factor Anal
21、ysis,FA)因子因子(ynz)(ynz)分析法概述分析法概述因子因子(ynz)(ynz)分析法的模型分析法的模型附:主成分分析与因子附:主成分分析与因子(ynz)(ynz)分析的分析的区别区别第三十一页,共37页。(一)因子(ynz)分析法概述因子分析法与主成分分析法都基于统计分因子分析法与主成分分析法都基于统计分析法,但两者有较大的区别。主成分分析析法,但两者有较大的区别。主成分分析是通过坐标变换提取主成分,也就是将一是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变组具有相关性的变量变换为一组独立的变量,将主成分表示为原始量,将主成分表示为原始(yunsh(yun
22、sh)观察变观察变量的线性组合。而因子分析法是要构造因量的线性组合。而因子分析法是要构造因子模型,将原始子模型,将原始(yunsh(yunsh)观察变量分解为观察变量分解为因子的线性组合。因此因子分析法是主成因子的线性组合。因此因子分析法是主成分分析法的发展。分分析法的发展。第三十二页,共37页。(二)因子(ynz)分析法的模型狭义的因子分析法常与主成分分析法在处理方法上有相类似之处,都要对变量规格化,并找出原始变量规格化后的相关矩阵。其主要不同点在于建立线性方程组时所考虑的方法,因子分析是以回归方程的形式将变量表示成因子的线性组合,而且要使因子数m小于原始变量维数p,从而简化了模型结构。其步
23、骤为:将原始数据标准化求标准化数据的相关矩阵求相关矩阵的特征值和特征向量计算(j sun)方差贡献率与累计方差贡献率确定因子因子旋转用原始的线性组合求各因子得分求综合得分得分排序第三十三页,共37页。因子(ynz)模型的表达式为:第三十四页,共37页。其矩阵形式为:其中 为因子载荷。数学上可以证明,因子载荷 就是(jish)第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。第三十五页,共37页。附、主成分分析(fnx)与因子分析(fnx)的区别第三十六页,共37页。主成分主成分(chng fn)分析法与因子
24、分析分析法与因子分析法的区别法的区别主成分分析主成分分析因子分析因子分析将主成分表示为原观测变量的线性将主成分表示为原观测变量的线性组合组合将原观测变量表示为新因子的线性组合将原观测变量表示为新因子的线性组合新变量的坐标维数新变量的坐标维数p p与原变量维数相与原变量维数相同,它只是将一组有相关性的变量同,它只是将一组有相关性的变量通过正交变换转成一组维数相同的通过正交变换转成一组维数相同的独立变量,再按总方差误差的允许独立变量,再按总方差误差的允许值大小来选定值大小来选定q q个主成分个主成分新变量数新变量数m m小于原变量数小于原变量数p p,它是要构造,它是要构造一个模型,将多变量减少为几个新因子,一个模型,将多变量减少为几个新因子,从而构造一个结构简单的模型从而构造一个结构简单的模型经正交变换的变量系数是相关矩阵经正交变换的变量系数是相关矩阵R R的的特征向量的相应元素特征向量的相应元素变量系数取自因子负荷量变量系数取自因子负荷量第三十七页,共37页。