《主成分分析原理精.ppt》由会员分享,可在线阅读,更多相关《主成分分析原理精.ppt(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、主成分分析原理第1页,本讲稿共56页内 容u 一、前一、前 言言u 二、问题的提出二、问题的提出u 三、主成分分析三、主成分分析1.二维数据的例子二维数据的例子 2.PCA的几何意义的几何意义3.均值和协方差、均值和协方差、特征值和特征向量特征值和特征向量4.PCA的性质的性质 u 四、主成分分析的算法四、主成分分析的算法u 五、具体实例五、具体实例 实例实例2u 六、六、结论结论七、练习2第2页,本讲稿共56页1.前前 言言假定你是一个公司的财务经理,掌握了公司的假定你是一个公司的财务经理,掌握了公司的所有数据,比如所有数据,比如固定资产、流动资金、每一笔借贷固定资产、流动资金、每一笔借贷的
2、数额和期限、各种税费、工资支出、原料消耗、的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育产值、利润、折旧、职工人数、职工的分工和教育程度等等程度等等。如果让你介绍公司状况,你能够把这些指标和如果让你介绍公司状况,你能够把这些指标和数字都数字都原封不动地摆出去吗原封不动地摆出去吗?当然不能当然不能。实例实例1 实例实例2你必须要把各个方面作出你必须要把各个方面作出高度概括高度概括,用一两个指标用一两个指标简单明了地把情况说清楚。简单明了地把情况说清楚。l汇报什么?3第3页,本讲稿共56页PCA多变量问题是经常会遇到的。多变量问题是经常会遇到的。变量太多,
3、无疑会增加分析问题的变量太多,无疑会增加分析问题的难度与复杂性难度与复杂性.在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,能在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,能否在各个变量之间相关关系研究的基础上,用否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较少的新变量代替原来较多的变量较多的变量,而且使这些较少的新变量,而且使这些较少的新变量尽可能多地保留原来较多尽可能多地保留原来较多的变量所反映的信息的变量所反映的信息?事实上,这种想法是可以实现的?事实上,这种想法是可以实现的.主成分分析原理主成分分析原理:是把原来多个变量化为少数几个综合指标的一
4、种统是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。计分析方法,从数学角度来看,这是一种降维处理技术。主成分分析方法就是综合处理这种问题的一种强有力的方法。主成分分析方法就是综合处理这种问题的一种强有力的方法。4第4页,本讲稿共56页(1)(1)如何作主成分分析如何作主成分分析?当当分分析析中中所所选选择择的的变变量量具具有有不不同同的的量量纲纲,变变量量水水平平差差异异很很大大,应应该该选选择择基基于于相相关关系系数数矩矩阵的主成分分析。阵的主成分分析。在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这
5、几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是:2.问题的提出问题的提出5第5页,本讲稿共56页各个变量之间差异很大6第6页,本讲稿共56页 (2 2)如何选择几个主成分。如何选择几个主成分。主主成成分分分分析析的的目目的的是是简简化化变变量量,一一般般情情况况下下主主成成分分的的个个数数应应该该小小于于原原始始变变量量的的个个数数。关关于于保保留留几几个个主主成成分分,应应该该权权衡衡主主成成分分个个数数和保留的信息。和保留的信息。(3 3)如如何何解解释释主主成成分分所所包包含含的的几几何何意意义义或经济意义或其它。或经济意义或
6、其它。7第7页,本讲稿共56页 美美国国的的统统计计学学家家斯斯通通(Stone)(Stone)在在19471947年年关关于于国国民民经经济济的的研研究究是是一一项项十十分分著著名名的的工工作作。他他曾曾利利用用美美国国19291929一一19381938年年各各年年的的数数据据,得得到到了了1717个个反反映映国国民民收收入入与与支支出出的的变变量量要要素素,例例如如雇雇主主补补贴贴、消消费费资资料料和和生生产产资资料料、纯纯公公共共支支出出、净净增增库库存、股息、利息、外贸平衡等等。存、股息、利息、外贸平衡等等。l在进行主成分分析后,竟以97.4的精度,用三个新变量就取代了原17个变量。
7、实例实例1:经济分析经济分析8第8页,本讲稿共56页 根根据据经经济济学学知知识识,斯斯通通给给这这三三个个新新变变量量分分别别命命名名为为总总收收入入F1F1、总总收收入入变变化化率率F2F2和和经经济济发发展展或或衰衰退退的的趋趋势势F3F3。更更有有意意思思的的是是,这三个变量其实都是可以直接测量的。这三个变量其实都是可以直接测量的。9第9页,本讲稿共56页 主主成成分分分分析析就就是是试试图图在在力力保保数数据据信信息息丢丢失失最最少少的的原原则则下下,对对这这种种多多变变量量的的数数据据表表进进行行最最佳佳综综合合简简化化,也也就就是是说说,对对高高维维变变量量空空间间进行降维处理。
8、进行降维处理。很很显显然然,识识辨辨系系统统在在一一个个低低维维空空间间要要比比在一个高维空间容易得多。在一个高维空间容易得多。10第10页,本讲稿共56页实例实例2:成绩数据成绩数据100个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史史、英英语的成绩如下表(部分)。语的成绩如下表(部分)。11第11页,本讲稿共56页从本例可能提出的问题从本例可能提出的问题目目前前的的问问题题是是,能能不不能能把把这这个个数数据据的的6 6个变量用一两个综合变量来表示个变量用一两个综合变量来表示呢?呢?这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的的信信息息呢?呢?能能不不能能
9、利利用用找找到到的的综综合合变变量量来来对对学学生生排排序序呢呢?这这一一类类数数据据所所涉涉及及的的问问题题可可以以推推广广到到对对企企业业,对对学学校校进进行行分分析析、排排序序、判别和分类等问题。判别和分类等问题。12第12页,本讲稿共56页例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。3.1 PCA:二维数据分析13第13页,本讲稿共56页平均成绩73.769.861.372.577.272.36372.370单科平均成绩74.1747066.473.663.314第14页,本讲稿共56页15第15页,本讲稿共56页 先先假假定定数
10、数据据只只有有二二维维,即即只只有有两两个个变变量量,它它们们由由横横坐坐标标和和纵纵坐坐标标所所代代表表;因因此此每每个个观观测测值值都都有有相相应应于于这这两两个个坐坐标标轴轴的的两两个坐标值;个坐标值;如如果果这这些些数数据据形形成成一一个个椭椭圆圆形形状状的的点点阵阵(这这在在变变量量的的二二维维正正态态的的假假定定下下是是可能的)可能的).16第16页,本讲稿共56页3 3.2 2主主成成分分分分析析的的几几何何解解释释平移、旋转坐标轴17第17页,本讲稿共56页主成分分析的几何解释平移、旋转坐标轴18第18页,本讲稿共56页 主成分分析的几何解释平移、旋转坐标轴19第19页,本讲稿
11、共56页主成分分析的几何解释平移、旋转坐标轴20第20页,本讲稿共56页3.2.PCA:进一步解释 椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴。在在短短轴轴方方向向上上,数数据据变变化化很很少少;在在极极端端的的情情况况,短短轴轴如如果果退退化化成成一一点点,那那只只有有在在长长轴轴的的方方向向才才能能够够解解释释这这些些点点的的变变化化了了;这这样样,由由二二维维到到一一维维的的降降维就自然完成了。维就自然完成了。21第21页,本讲稿共56页二维数据22第22页,本讲稿共56页进一步解释进一步解释PCA当当坐坐标标轴轴和和椭椭圆圆的的长长短短轴轴平平行行,那那么么代代表表长长轴轴的的变
12、变量量就就描描述述了了数数据据的的主主要要变变化化,而而代代表表短短轴轴的的变变量量就就描描述述了数据的次要变化。了数据的次要变化。但但是是,坐坐标标轴轴通通常常并并不不和和椭椭圆圆的的长长短短轴轴平平行行。因因此此,需需要要寻寻找找椭椭圆圆的的长长短短轴轴,并并进进行行变变换换,使使得得新新变变量量和和椭圆的长短轴平行。椭圆的长短轴平行。如如果果长长轴轴变变量量代代表表了了数数据据包包含含的的大大部部分分信信息息,就就用用该该变变量量代代替替原原先先的的两两个个变变量量(舍舍去去次次要要的的一一维维),降维就完成了。降维就完成了。椭圆(球)的长短轴相差得越大,降维也越有道理。椭圆(球)的长短
13、轴相差得越大,降维也越有道理。23第23页,本讲稿共56页进一步解释进一步解释PCA(续续)对对于于多多维维变变量量的的情情况况和和二二维维类类似似,也也有有高高维维的的椭椭球球,只只不不过过无无法法直直观观地地看看见罢了。见罢了。首首先先把把高高维维椭椭球球的的主主轴轴找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量;这这样样,主主成成分分分分析析就就基基本完成了。本完成了。注注意意,和和二二维维情情况况类类似似,高高维维椭椭球球的的主主轴轴也也是是互互相相垂垂直直的的。这这些些互互相相正正交交的的新新变变量量是是原原先先变变量量的的
14、线线性性组组合合,叫叫做主成分做主成分(principal component)。24第24页,本讲稿共56页正正如如二二维维椭椭圆圆有有两两个个主主轴轴,三三维维椭椭球球有有三三个个主主轴轴一一样样,有有几几个个变变量量,就就有有几几个个主主成成分。分。选选择择越越少少的的主主成成分分,降降维维就就越越好好。什什么么是是标标准准呢呢?那那就就是是这这些些被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴长长度度总总和和的的大大部部分分。有有些些文文献献建建议议,所所选选的的主主轴轴总总长长度度占占所所有有主主轴轴长长度度之之和和的的大大约约85%85%即即可
15、可,其其实实,这这只只是是一一个个大大体体的的说说法法;具具体体选选几几个个,要要看实际情况而定。看实际情况而定。25第25页,本讲稿共56页3.3.均值和协方差 特征值和特征向量设有设有n个样本,每个样本观测个样本,每个样本观测p个指标(变量):个指标(变量):X1,X2,Xn,得到原始数据矩阵:得到原始数据矩阵:26第26页,本讲稿共56页1.样本均值显然,样本均值是数据散列图的中心.于是 p*n 矩阵的列B具有零样本均值,称为平均偏差形式M27第27页,本讲稿共56页2.样本协方差 中心中心 协方差的大小在一定程度上反映了多变量之间的关系,但它还受变量自身度量单位的影响.注意:协方差注意
16、:协方差是对称矩阵且半正定是对称矩阵且半正定28第28页,本讲稿共56页3.3 3.3 特征值与特征向量特征值与特征向量定义定义定义定义为阶方阵,为阶方阵,为数,为数,为维非零向量,若若则则称为称为的的特征值特征值,称为的特征向量注注注注并不一定唯一;并不一定唯一;阶方阵阶方阵的特征值,就是使齐次线性方程组的特征值,就是使齐次线性方程组特征向量特征向量 ,特征值问题只针对与方阵;,特征值问题只针对与方阵;有非零解的有非零解的值,即满足值,即满足的的都是都是方阵方阵的特征值的特征值定义定义定义定义称以称以为未知数的一元次方程为未知数的一元次方程为为的的特征方程特征方程29第29页,本讲稿共56页
17、例例1:1:从一个总体中随机抽取从一个总体中随机抽取4 4个样本作三次个样本作三次测量测量,每一个样本的观测向量为每一个样本的观测向量为:计算样本均值计算样本均值M M和协方差矩阵和协方差矩阵S S以及以及S S的特征值和特征向量的特征值和特征向量.30第30页,本讲稿共56页Syntax C=cov(X)AlgorithmThe algorithm for cov is n,p=size(X);X=X-ones(n,1)*mean(X);Y=X*X/(n-1);See Also corrcoef,mean,std,var31第31页,本讲稿共56页平移、旋转坐标轴M2023/2/1032第3
18、2页,本讲稿共56页 为了方便,我们在二维空间中讨论主成分的几何意义。设有n个样本,每个样本有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的信息将会有较大的损失。2023/2/1033第33页,本讲稿共56页 如果我们将如果我们将xl 轴和轴和x2轴先平移,再同时轴先平移,再同时按逆时针方向旋转按逆时针方向旋转 角度,得到新坐标轴角度,得
19、到新坐标轴Fl和和F2。Fl和和F2是两个新变量是两个新变量。2023/2/1034第34页,本讲稿共56页 Fl,F2除了可以对包含在除了可以对包含在Xl,X2中的信息起着浓缩中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。的问题时避免了信息重叠所带来的虚假性。二维平面上二维平面上的个点的方差大部分都归结在的个点的方差大部分都归结在Fl轴上,而轴上,而F2轴上的轴上的方差很小。方差很小。Fl和和F2称为原始变量称为原始变量x1和和x2的综合变量。的综合变量。F简化了系统结构,抓住了主要矛盾。
20、简化了系统结构,抓住了主要矛盾。2023/2/1035第35页,本讲稿共56页稍事休息36第36页,本讲稿共56页3.4 PCA3.4 PCA的性质的性质 一、两个线性代数的结论一、两个线性代数的结论 1、若A是p阶实对称阵,则一定可以找到正交阵U,使其中 是A的特征根。37第37页,本讲稿共56页 2、若上述矩阵的特征根所对应的单位特征向量为 则实对称阵 属于不同特征根所对应的特征向量是正交的,即有令38第38页,本讲稿共56页 3.4 PCA的性质的性质(续续)3 3、均值、均值4 4、方差为所有特征根之和、方差为所有特征根之和 说说明明主主成成分分分分析析把把P P个个随随机机变变量量的
21、的总总方方差差分分解解成成为为P P个不相关的随机变量的方差之和。个不相关的随机变量的方差之和。协协方方差差矩矩阵阵 的的对对角角线线上上的的元元素素之之和和等等于于特特征征根根之和。之和。39第39页,本讲稿共56页 3.4、精度分析 1)贡献率:第i个主成分的方差在全部方差中所占比重 ,称为贡献率,反映了原来P个指标多大的信息,有多大的综合能力。2)累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率。40第40页,本讲稿共56页PCA常用统计量:.特征根i .各成分贡献率.前各成分累计贡献率.特征向量 各成分表达式中标准化原始变量的
22、系数向量,就是各成分的特征向量。41第41页,本讲稿共56页 我我们们进进行行主主成成分分分分析析的的目目的的之之一一是是希希望望用用尽尽可可能能少少的的主主成成分分F F1 1,F F2 2,F Fk k(kpkp)代代替替原原来来的的P P个个指指标标。到到底底应应该该选选择择多多少少个个主主成成分分,在在实实际际工工作作中中,主主成成分分个个数数的的多多少少取取决决于于能能够够反反映映原原来来变变量量80%80%以以上上的的信信息息量量为为依依据据,即即当当累累积积贡贡献献率率80%80%时时的的主主成成分分的的个个数数就就足足够够了了。最最常常见见的的情况是主成分为情况是主成分为2 2
23、到到3 3个。个。42第42页,本讲稿共56页 例例 设 的协方差矩阵为 解得特征根为 ,第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽管第一个主成分的贡献率并不小,但应该取两个主成分。97.88%43第43页,本讲稿共56页4 4 主成分分析的步骤主成分分析的步骤 第一步:由X的协方差阵x,求出其特征根,即解方程 ,可得特征根 。一、基于协方差矩阵44第44页,本讲稿共56页 第二步:求出分别所对应的特征向量U1,U2,Up,第三步:计算累积贡献率,给出恰当的主成分个数。第四步:计算所选出的k个主成分的得分。将原始数据的中心化值:代入前k个主成分的表达式
24、,分别计算出各单位k个主成分的得分,并按得分值的大小排队。45第45页,本讲稿共56页 例例 应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款项,包括应收销货款、其它应收应向购货单位或接受劳务的单位收取的款项,包括应收销货款、其它应收款和应收票据等。出于扩大销售的竞争需要,企业不得不以赊销或其它优款和应收票据等。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。应惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。应收款赊
25、销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,用程度。由此,评价顾客的信用等级,了解顾客的综合信用程度,做评价顾客的信用等级,了解顾客的综合信用程度,做到到“知己知彼,百战不殆知己知彼,百战不殆”,对加强企业的应收账款管理大有帮助,对加强企业的应收账款管理大有帮助。某企。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的业为了了解其客户的信用程度,采用西方银行信用评估常用的5C5C方方法,法,5C5C的目的是说明顾客违约的可能性。的目的是说明顾客违约的可能性。5 PCA的应用的应用 46第46页,
26、本讲稿共56页1、品品格格(用用X1表表示示),指指顾顾客客的的信信誉誉,履履行行偿偿还还义义务务的的可能性。企业可以通过过去的付款记录得到此项。可能性。企业可以通过过去的付款记录得到此项。2、能能力力(用用X2表表示示),指指顾顾客客的的偿偿还还能能力力。即即其其流流动动资资产产的的数数量量和和质质量量以以及及流流动动负负载载的的比比率率。顾顾客客的的流流动动资资产产越越多多,其其转转化化为为现现金金支支付付款款项项的的能能力力越越强强。同同时时,还还应应注注意意顾顾客客流流动动资资产产的的质质量量,看看其其是是否否会会出出现现存存货货过过多多过过时时质量下降,影响其变现能力和支付能力。质量
27、下降,影响其变现能力和支付能力。3、资资本本(用用X3表表示示),指指顾顾客客的的财财务务势势力力和和财财务务状状况况,表表明明顾客可能偿还债务的背景。顾客可能偿还债务的背景。4、附附带带的的担担保保品品(用用X4表表示示),指指借借款款人人以以容容易易出出售售的资产做抵押。的资产做抵押。5 5、环境条件(用环境条件(用X5表示),表示),指企业的外部因素,即指非企指企业的外部因素,即指非企业本身能控制或操纵的因素。业本身能控制或操纵的因素。47第47页,本讲稿共56页 首先并抽取了10家具有可比性的同类企业作为样本,又请8位专家分别给10个企业的5个指标打分,然后分别计算企业5个指标的平均值
28、,如表。76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9;48第48页,本讲稿共56页 Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative PRIN1 410.506 367.242
29、 0.845854 0.84585 PRIN2 43.264 22.594 0.089146 0.93500 PRIN3 20.670 12.599 0.042591 0.97759 PRIN4 8.071 5.266 0.016630 0.99422 PRIN5 2.805 0.0 0.005779 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.468814 -.830612 0.021406 0.254654 -.158081 X2 0.484876 0.329916 0.014801 -.287720 -.757000 X
30、3 0.472744 -.021174 -.412719 -.588582 0.509213 X4 0.461747 0.430904 -.240845 0.706283 0.210403 X5 0.329259 0.122930 0.878054 -.084286 0.31367749第49页,本讲稿共56页 第第 一一 主主 成成 份份 的的 贡贡 献献 率率 为为 84.6%84.6%,第第 一一 主主 成成 份份 Z Z1 1=0.469X=0.469X1 1+0.485X+0.485X2 2+0.473X+0.473X3 3+0.462X+0.462X4 4+0.329X+0.329
31、X5 5 的的各各项项系系数数大大致致相相等等,且且均均为为正正数数,说说明明第第一一主主成成份份是是对对所所有有指指标标的的一一个个综综合合测测度度,可可以以作作为为综综合合的的信信用用等等级级指指标标。可可以以用用来来排排序序。将将原原始始数数据据的的值值中中心心化化后后,代代入入第第一一主主成成份份Z Z1 1的的表表示示式式,计计算算各各企企业业的得分,并按分值大小排序的得分,并按分值大小排序:在正确评估了顾客的信用等级后,就能正确制定出对其的信用期、收帐政策等,这对于加强应收帐款的管理大有帮助。序号12345678910得分3.1613.6-9.0135.925.1-10.3-4.3
32、6-33.8-6.41-13.8排序4371285106950第50页,本讲稿共56页例二 基于相关系数矩阵的主成分分析。对美国纽约上市的有关化学产业的三个证券和石油产业的2个证券做了100周的收益率调查。下表是其相关系数矩阵。1)利用相关系数矩阵做主成分分析。2)决定要保留的主成分个数,并解释意义。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.523151第51页,本讲稿共56页 Eigenvalues of the Correlati
33、on Matrix Eigenvalue Difference Proportion Cumulative PRIN1 2.85671 2.04755 0.571342 0.57134 PRIN2 0.80916 0.26949 0.161833 0.73317 PRIN3 0.53968 0.08818 0.107935 0.84111 PRIN4 0.45150 0.10855 0.090300 0.93141 PRIN5 0.34295 0.0 0.068590 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.463605
34、-.240339 -.611705 0.386635 -.451262 X2 0.457108 -.509305 0.178189 0.206474 0.676223 X3 0.470176 -.260448 0.335056 -.662445 -.400007 X4 0.421459 0.525665 0.540763 0.472006 -.175599 X5 0.421224 0.581970 -.435176 -.382439 0.38502452第52页,本讲稿共56页 根据主成分分析的定义及性质,我们已大体上能看出根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概
35、括起来说,主成分分析主要有主成分分析的一些应用。概括起来说,主成分分析主要有以下几方面的应用。以下几方面的应用。1 1主成分分析能降低所研究的数据空间的维数。即主成分分析能降低所研究的数据空间的维数。即用研究用研究m m维的维的Y Y空间代替空间代替p p维的维的X X空间空间(m(mp)p),而低维的,而低维的Y Y空空间代替间代替 高维的高维的x x空间所损失的信息很少。即:使只有一个空间所损失的信息很少。即:使只有一个主成分主成分Y Yl l(即即 m m1)1)时,这个时,这个Y Yl l仍是使用全部仍是使用全部X X变量变量(p(p个个)得到的。例如要计算得到的。例如要计算Y Yl
36、l的均值也得使用全部的均值也得使用全部x x的均值。在的均值。在所选的前所选的前m m个主成分中,如果某个个主成分中,如果某个X Xi i的系数全部近似于零的的系数全部近似于零的话,就可以把这个话,就可以把这个X Xi i删除,这也是一种删除多余变量的方法。删除,这也是一种删除多余变量的方法。66 主成分分析结论主成分分析结论53第53页,本讲稿共56页 2.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n
37、个样品在二维平面上的分布况,由图形可直观地看出各样本在主分量中的地位。54第54页,本讲稿共56页 3 3由主成分分析法构造回归模型。即把各由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量主成分作为新自变量代替原来自变量x x做回归分做回归分析。析。4 4用主成分分析筛选回归变量。回归变量用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的计算量来选择量,获得选择最佳变量子集合的效果。效果。55第55页,本讲稿共56页祝同学们取得祝同学们取得好成绩好成绩!56第56页,本讲稿共56页