主成分分析的原理与实现精选PPT.ppt

上传人:石*** 文档编号:50956679 上传时间:2022-10-17 格式:PPT 页数:44 大小:1.32MB
返回 下载 相关 举报
主成分分析的原理与实现精选PPT.ppt_第1页
第1页 / 共44页
主成分分析的原理与实现精选PPT.ppt_第2页
第2页 / 共44页
点击查看更多>>
资源描述

《主成分分析的原理与实现精选PPT.ppt》由会员分享,可在线阅读,更多相关《主成分分析的原理与实现精选PPT.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、关于主成分分析的原理与实现1第1页,讲稿共44张,创作于星期一2假定你是一个公司的财务经理,掌握了公司的假定你是一个公司的财务经理,掌握了公司的所有数据,这包括所有数据,这包括众多的变量众多的变量,比如,比如固定资产、固定资产、流动资金、每一笔借贷的数额和期限、各种税流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等职工人数、职工的分工和教育程度等等。如果让你向上级或有关方面介绍公司状况,你如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都能够把这些指标和数字都原封不动地摆出

2、去吗原封不动地摆出去吗?引子引子第2页,讲稿共44张,创作于星期一3当然不能。当然不能。汇报什么?汇报什么?发现在如此多的变量之中,有很多是相关的。发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的人们希望能够找出它们的少数少数“代表代表”来对来对它们进行描述。它们进行描述。需要把这种有需要把这种有很多变量很多变量的数据进行高度概括,的数据进行高度概括,用少数几个指标简单明了地把情况说清楚。用少数几个指标简单明了地把情况说清楚。第3页,讲稿共44张,创作于星期一4主成分分析(主成分分析(Principal Components Analysis)和因子分析)和因子分析(Factor

3、 Analysis)就是把变量维数降低以便于描述、理解和分就是把变量维数降低以便于描述、理解和分析的方法。析的方法。主成分分析也称为主分量分析,是一种通过降维来简化数据主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合结构的方法:如何把多个变量化为少数几个综合变量(综合指标)指标),而这几个综合变量可以反映原来多个变量的大部分,而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。不相关。这些综合变量就叫因子或主成分,它是不可观测的,即这些

4、综合变量就叫因子或主成分,它是不可观测的,即它不是具它不是具体的变量体的变量(这与聚类分析不同),(这与聚类分析不同),只是几个指标的综合只是几个指标的综合。在引入主成分分析之前,先看下面的例子。在引入主成分分析之前,先看下面的例子。什么是主成分分析法?什么是主成分分析法?第4页,讲稿共44张,创作于星期一5成绩数据成绩数据53个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史史、英英语语的的成成绩绩如下表(部分)。如下表(部分)。第5页,讲稿共44张,创作于星期一6从本例可能提出的问题从本例可能提出的问题能能不不能能把把这这个个数数据据表表中中的的6 6个个变变量量用用一一两两个

5、个综合变量来表示呢?综合变量来表示呢?这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的的信信息息呢?呢?能能不不能能利利用用找找到到的的综综合合变变量量来来对对学学生生排排序序呢?呢?第6页,讲稿共44张,创作于星期一7事实上,以上的三个问题在地理学研究中,也会经常遇到。事实上,以上的三个问题在地理学研究中,也会经常遇到。它它所涉及的问题可以推广到对企业、对学校、对区域进所涉及的问题可以推广到对企业、对学校、对区域进行行分析、评价、排序和分类分析、评价、排序和分类等。等。比如对比如对n个区域进行综合评价,可选的描述区域特征个区域进行综合评价,可选的描述区域特征的指标很多,而这些指

6、标往往存在的指标很多,而这些指标往往存在一定的相关性一定的相关性(既(既不完全独立,又不完全相关),这就给研究带来很不完全独立,又不完全相关),这就给研究带来很大不便。大不便。若选指标太多,会增加分析问题的难度与若选指标太多,会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对区域影响较复杂性,选指标太少,有可能会漏掉对区域影响较大的指标,影响结果的可靠性。大的指标,影响结果的可靠性。第7页,讲稿共44张,创作于星期一8这就需要我们在相关分析的基础上,采用这就需要我们在相关分析的基础上,采用主成分分析法找到几个主成分分析法找到几个新的相互独立的综新的相互独立的综合指标合指标,达到既减少指标

7、数量、又能区,达到既减少指标数量、又能区分区域间差异的目的。分区域间差异的目的。第8页,讲稿共44张,创作于星期一9 二、主成分分析的基本原理二、主成分分析的基本原理第9页,讲稿共44张,创作于星期一10(一)主成分分析的几何解释(一)主成分分析的几何解释例例中中数数据据点点是是六六维维的的;即即每每个个观观测测值值是是6维维空空间间中中的的一一个个点点。希希望望把把6维维空空间间用用低低维维空空间间表表示。示。先先假假定定只只有有二二维维,即即只只有有两两个个变变量量,语语文文成成绩绩(x1)和和数数学学成成绩绩(x2),分分别别由由横横坐坐标标和和纵坐标所代表;纵坐标所代表;每个学生都是二

8、维坐标系中的一个点。每个学生都是二维坐标系中的一个点。第10页,讲稿共44张,创作于星期一11空间的点空间的点如如果果这这些些数数据据形形成成一一个个椭椭圆圆形形状状的的点点阵阵(这这在在二二维维正正态态的的假假定定下下是是可可能能的的)该该椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴。在在短短轴轴方方向向上上数数据据变变化化很少;很少;在在极极端端的的情情况况,短短轴轴如如退退化化成成一一点点,长长轴轴的的方方向向可可以以完完全全解解释释这这些些点点的的变变化化,由由二二维维到到一一维维的降维就自然完成了。的降维就自然完成了。第11页,讲稿共44张,创作于星期一12假定语文成绩假定语文成

9、绩(X1)和数学成和数学成绩绩(X2)的相关系的相关系数数=0.6 。设设 X1 和和 X2 分别分别为标准化后的分为标准化后的分数,右图为其散数,右图为其散点图。点图。第12页,讲稿共44张,创作于星期一13那么随机向量那么随机向量的方差的方差协方差矩阵为协方差矩阵为可以看出,在变量标准化的情况下的方差可以看出,在变量标准化的情况下的方差协方差矩阵与协方差矩阵与其相关矩阵相等。其相关矩阵相等。由求矩阵特征值和特征向量的方法:令由求矩阵特征值和特征向量的方法:令可以求出:可以求出:第13页,讲稿共44张,创作于星期一14对应的特征向量分别为:对应的特征向量分别为:显然,这两个特征向量是显然,这

10、两个特征向量是相互正交的相互正交的单位向量。而且它们与单位向量。而且它们与原来的坐标轴原来的坐标轴 X1 和和 X2 的夹角都分别等于的夹角都分别等于45。如果将坐标轴。如果将坐标轴 X1 和和 X2 旋转旋转45 ,那么点在新坐标系中的坐标(,那么点在新坐标系中的坐标(Y1,Y2)与)与原坐标(原坐标(X1,X2)有如下的关系:)有如下的关系:Y1和和Y2均是均是X1 和和 X2的线性组合的线性组合系数代表什么?系数代表什么?第14页,讲稿共44张,创作于星期一15在新坐标系中,在新坐标系中,可以发现:虽然可以发现:虽然散点图的形状没散点图的形状没有改变,但新的有改变,但新的随机变量随机变量

11、 Y1 和和 Y2 已经不再相关。已经不再相关。而且大部分点沿而且大部分点沿 Y1 轴散开,在轴散开,在 Y1 轴方向的变异较轴方向的变异较大(即大(即 Y1的方差的方差较大)较大),相对来,相对来说,在说,在 Y2轴方向轴方向的变异较小(即的变异较小(即 Y2 的方差较小)的方差较小)。第15页,讲稿共44张,创作于星期一16事实上,随机变量事实上,随机变量 Y1和和 Y2的方差分别为:的方差分别为:可以看出,可以看出,最大变动最大变动方向方向是由特征向量所决定的,而特是由特征向量所决定的,而特征值则刻画了对应的方差。征值则刻画了对应的方差。这只是我们举的一个例子,对这只是我们举的一个例子,

12、对于一般情况,数学上也能证明。于一般情况,数学上也能证明。第16页,讲稿共44张,创作于星期一17在上面的例子中在上面的例子中 Y1 和和 Y2 就是原变量就是原变量 X1和和 X2的第一的第一主成分和第二主成分。实际上第一主成分主成分和第二主成分。实际上第一主成分 Y1 就基本就基本上反映了上反映了 X1 和和X2 的主要信息,因为图中的各点在的主要信息,因为图中的各点在新坐标系中的新坐标系中的 Y1 坐标基本上就代表了这些点的分布坐标基本上就代表了这些点的分布情况,因此可以选情况,因此可以选 Y1 为一个新的综合变量。当然如为一个新的综合变量。当然如果再选果再选 Y2也作为综合变量,那么也

13、作为综合变量,那么 Y1 和和 Y2 则反映了则反映了 X1 和和 X2的全部信息。的全部信息。第17页,讲稿共44张,创作于星期一18 从几何上看,找主成分的问题就是找出从几何上看,找主成分的问题就是找出p维空间维空间中椭球体的主轴问题,就是要在中椭球体的主轴问题,就是要在x1xp的相关矩阵中的相关矩阵中m个较大特征值所对应的特征向量。个较大特征值所对应的特征向量。究竟提取几个主成分或因子,一般有两种方法:究竟提取几个主成分或因子,一般有两种方法:特征值特征值11累计贡献率累计贡献率0.80.8那么如何提取主成分呢?那么如何提取主成分呢?(二)主成分分析的基本思想(二)主成分分析的基本思想第

14、18页,讲稿共44张,创作于星期一19假定有假定有n个地理样本,每个样本共有个地理样本,每个样本共有p p个变量,构成一个个变量,构成一个np阶的地阶的地理数据矩阵理数据矩阵(3.5.1)综合指标如何选取呢?这些综合指标要想尽可能多地反映综合指标如何选取呢?这些综合指标要想尽可能多地反映原指标的信息,综合指标的表达式中要含有原指标,那么原指标的信息,综合指标的表达式中要含有原指标,那么我们通常是取原指标的线性组合,适当调整它们的系数,我们通常是取原指标的线性组合,适当调整它们的系数,使综合指标间相互独立且代表性好。使综合指标间相互独立且代表性好。第19页,讲稿共44张,创作于星期一20 定义:

15、记定义:记x1,x2,xP为原变量指标,为原变量指标,z1,z2,zm(mp)为新变量指标)为新变量指标(3.5.2)可以看出,新指标对原指标有多个线性组合,新指标可以看出,新指标对原指标有多个线性组合,新指标对哪个原指标反映的多,哪个少,取决于它的系数。系数对哪个原指标反映的多,哪个少,取决于它的系数。系数lij的的确定原则:确定原则:zi与与zk(ik;i,k=1,2,m;j=1,2,p)相互无关;)相互无关;第20页,讲稿共44张,创作于星期一21 z1是是x1,x2,xP的一切线性组合中方差最大者的一切线性组合中方差最大者(最能解释它们之间的变化),最能解释它们之间的变化),z2是与是

16、与z1不相关的不相关的x1,x2,xP的所有线性组合中方差最大者的所有线性组合中方差最大者;zm是与是与z1,z2,zm1都不相关的都不相关的x1,x2,xP,的所有线性组合的所有线性组合中方差最大者。中方差最大者。则新变量指标则新变量指标z1,z2,zm分别称为原变量指标分别称为原变量指标x1,x2,xP的第的第1,第,第2,第,第m主成分。主成分。第21页,讲稿共44张,创作于星期一22 从以上的分析可以看出,主成分分析的实质就从以上的分析可以看出,主成分分析的实质就是确定原来变量是确定原来变量xj(j=1,2,p)在诸主成分)在诸主成分zi(i=1,2,m)上的荷载)上的荷载 lij(i

17、=1,2,m;j=1,2,p)。)。从数学上可以证明,它们分别是相关矩阵(也从数学上可以证明,它们分别是相关矩阵(也就是就是x1,x2,xP 的相关系数矩阵)的相关系数矩阵)m个较大的个较大的特征值所对应的特征向量。特征值所对应的特征向量。第22页,讲稿共44张,创作于星期一23三、主成分分析的计算步骤三、主成分分析的计算步骤第23页,讲稿共44张,创作于星期一24(一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,j=1,2,p)为为原原变变量量xi与与xj标标准准化化后后的的相相关关系系数数,rij=rji,其计算公式为其计算公式为(3.5.3)(3.5.4)第24页,讲稿共44张,创

18、作于星期一25 (二)计算特征值与特征向量(二)计算特征值与特征向量 1、解特征方程,求出特征值,并、解特征方程,求出特征值,并使其按大小顺序排列使其按大小顺序排列 ;2、分别求出对应于特征值、分别求出对应于特征值 的特征向量的特征向量 ,要求,要求=1,即,其中,即,其中表示向量表示向量 的第的第j个分量个分量,也就是说也就是说 为单位向量。为单位向量。第25页,讲稿共44张,创作于星期一263 3、计算主成分贡献率及累计贡献率、计算主成分贡献率及累计贡献率 贡献率贡献率累计贡献率累计贡献率 一般取累计贡献率达一般取累计贡献率达85%95%的特征值的特征值所对应的第所对应的第1 1、第、第2

19、 2、第、第m(mp)个主成分。)个主成分。第26页,讲稿共44张,创作于星期一27 4、计算主成分载荷计算主成分载荷 在主成分之间不相关时,在主成分之间不相关时,主成分载荷就是主成分主成分载荷就是主成分z zi i与变量与变量x xj j之间的相关系数之间的相关系数(在数学上可以证明)(在数学上可以证明)5 5、各主成分的得分、各主成分的得分 得到各主成分的载荷以后,可以按照(得到各主成分的载荷以后,可以按照(3.5.23.5.2)计算各主成分的得分)计算各主成分的得分(3.5.5)第27页,讲稿共44张,创作于星期一28(3.5.6)每个地区的综合评价值为:对各个主成分进行每个地区的综合评

20、价值为:对各个主成分进行加权求和。权重为每个主成分方差的贡献率。加权求和。权重为每个主成分方差的贡献率。第28页,讲稿共44张,创作于星期一29四、四、SPSS在主成分分析中的应用在主成分分析中的应用第29页,讲稿共44张,创作于星期一30以全国31个省市的8项经济指标为例,进行主成分分析。第一步:录入或调入数据(图1)。图图1 原始数据(未经标准化)原始数据(未经标准化)第30页,讲稿共44张,创作于星期一31第31页,讲稿共44张,创作于星期一32 设置描述设置描述(Descriptives)选项。选项。单击描述按钮,弹出描述对话框选中单变量描述性选中单变量描述性(Univariate d

21、escriptives)复选项,复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目选中原始分析结果选中原始分析结果(Initial solution)复选项复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。在相关矩阵在相关矩阵(Correlation Matrix)栏中,选中系数栏中,选中系数(Coefficients)复选项复选项,则会给出原始变量的相关系数矩阵;选中行列式(Determinant)复选项,则会给出相关系数矩阵的行列式,如果希望在Excel中对某些计算过程进行了解,可选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到。设置完成以后,单击

22、Continue按钮完成设置(图5)。第32页,讲稿共44张,创作于星期一33 打开抽取对话框。因子提取方法主要有7种,在方法(Method)栏中可以看到,系统默认的提取方法是主成分.因此对此栏不作变动,就是认可了主成分分析方法。设置抽取设置抽取(Extraction)选项。选项。在分析(Analyze)栏中,选中相关性矩阵(Correlation matirx)复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中协方差矩阵(Covariance matrix)复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。第3

23、3页,讲稿共44张,创作于星期一34n在输出(Display)栏中,选中Unrotated factor solution(非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。n选中Scree Plot(碎石图),则在分析结果中给出特征根按大小分布的折线图以便我们直观地判定因子的提取数量是否准确。第34页,讲稿共44张,创作于星期一35在抽取栏中,有两种方法可以决定提取主成分(因子)的数目。一是根据特征根一是根据特征根(Eigenvalues)的数的数值值,系,系统统默默认认

24、的是的是=1。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认=1,则所有方差大于等于1的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将值降低,例如取=0.9;如果认为最后的提取的主成分数量偏多,则可以提高值,例如取=1.1。主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值的设定,要在反复试验以后才能决定。一般而言,在初次分析时,最好降低特征根的临界值(如取=0.8),这样提取的主成分将会偏多,根据初次分析的结果,在第二轮分析过程中可以调整特征根的大小。第35页,讲稿共44张,创作于星期一36第二种方法是直接指定主成分的数目即因子数

25、目第二种方法是直接指定主成分的数目即因子数目,这要选中Number of factors复选项。主成分的数目选多少合适?开始我们并不十分清楚。因此,首次不妨将数值设大一些,但不能超过变量数目不能超过变量数目。本例有8个变量,因此,最大的主成分提取数目为8,不得超过此数。在我们第一轮分析中,采用系统默认的方法提取主成分。需要注意的是:需要注意的是:主成分计算是利用迭代(Iterations)方法,系统默认的迭代次数是25次。但是,当数据量较大时,25次迭代是不够的,需要改为50次、100次乃至更多。对于本例而言,变量较少,25次迭代足够,故无需改动。设置完成以后,单击Continue按钮完成设置

26、。第36页,讲稿共44张,创作于星期一37 选中保存为变量(Save as variables)栏,则分析结果中给出标准化的主成分得分(在数据表的后面)。至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的“回归”(Regression)法即可。选中显示因子得分系数矩阵(Display factor score coefficient matrix),则在分析结果中给出因子得分系数矩阵及其相关矩阵。设置完成以后,单击Continue按钮完成设置。设置得分设置得分(Scores)设置。设置。第37页,讲稿共44张,创作于星期一38 其它其它对于主成分分析而言,旋转项(Rotatio

27、n)可以不必设置;对于数据没有缺失的情况下,选项(Option)项可以不必理会。全部设置完成以后,点击OK确定,SPSS很快给出计算结果 实例:全国实例:全国31个省市的个省市的8项经济指标项经济指标第38页,讲稿共44张,创作于星期一39按顺序排列的主成分得分的方差(Total),在数值上等于相关系数矩阵的各个特征根全部解释方差表(Total Variance Explained)每一个主成分的方差百分比(%of Variance):由于全部特征根的总和等于变量数目,即有m=i=8,故每一一个特征根的方差百分比为i/m从左边栏目中提取的三个主成分及有关参数 第39页,讲稿共44张,创作于星期

28、一40主成分的数目可以根据相关系数矩阵的特征根来判定主成分的数目可以根据相关系数矩阵的特征根来判定,根据值决定主成分数目的准则有三:i 只取只取1的特征根对应的主成分的特征根对应的主成分从Total Variance Explained表中可见,第一、第二和第三个主成分对应的值都大于1,这意味着这三个主成分得分的方差都大于1。本例正是根据这条准则提取主成分的。ii 累计百分比达到累计百分比达到80%85%以上的以上的值对应的主成分值对应的主成分在Total Variance Explained表可以看出,前三个主成分对应的值累计百分比达到89.324%,这暗示只要选取三个主成分,信息量就够了。

29、iii 根据特征根变化的突变点决定主成分的数量根据特征根变化的突变点决定主成分的数量从特征根分布的折线图(碎石图)上可以看到,第4个值是一个明显的折点,这暗示选取的主成分数目应有p4。那么,究竟是3个还是4个呢?根据前面两条准则,选3个大致合适。第40页,讲稿共44张,创作于星期一41都显示了各个变都显示了各个变量与有关主成分量与有关主成分的相关系数的相关系数 注:主成分得分或因子得分有注:主成分得分或因子得分有3种说法种说法(1)成分矩阵成分矩阵(2)成分得分系数矩阵成分得分系数矩阵(3)成分矩阵(按列)成分矩阵(按列)/特征根的开根特征根的开根(用TRANSFORMCOMPUTE 来计算特

30、征向量)第41页,讲稿共44张,创作于星期一42主成分计算主成分计算矩阵的按列线性组合矩阵的按列线性组合怎么解释这三个主成分。前面说过主成分是原始八个变怎么解释这三个主成分。前面说过主成分是原始八个变量的线性组合。是怎么样的组合呢?量的线性组合。是怎么样的组合呢?这这里里每每一一列列代代表表一一个个主主成成分分作作为为原原来来变变量量线线性性组合的系数(比例)。组合的系数(比例)。l这些系数称为主成分载荷(这些系数称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。),它表示主成分和相应的原先变量的相关系数。l相关系数相关系数(绝对值)越大,主成分对该变量的代表性也越大。

31、绝对值)越大,主成分对该变量的代表性也越大。第42页,讲稿共44张,创作于星期一43从Component Matrix即主成分载荷表中可以看出,国内生产总值、固定资产投资和工业产值在第一主成分上载荷较大,亦即与第一主成分的相关系数较高;职工工资和货物周转量在第二主成分上的载荷绝对值较大,即负相关程度较高;消费价格指数在第三主成分上的载荷较大,即相关程度较高。因此可将主成分命名如下:第一主成分:投入产出主成分投入产出主成分;第二主成分:工资物流主成分工资物流主成分;第三主成分:消费价格主成分消费价格主成分。问题在于:一方面,居民消费和商品零售价格指数的归类比较含混;另一方面,主成分的命名结构不清。因此,有必要作进一步的因子分析。计算结果分析计算结果分析第43页,讲稿共44张,创作于星期一17.10.2022感感谢谢大大家家观观看看第44页,讲稿共44张,创作于星期一

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 资格考试

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁