《应用多元统计分析》第五版PPT(第七章)ppt.ppt

上传人:创****公 文档编号:1617527 上传时间:2019-10-20 格式:PPT 页数:86 大小:4.08MB
返回 下载 相关 举报
《应用多元统计分析》第五版PPT(第七章)ppt.ppt_第1页
第1页 / 共86页
《应用多元统计分析》第五版PPT(第七章)ppt.ppt_第2页
第2页 / 共86页
点击查看更多>>
资源描述

《《应用多元统计分析》第五版PPT(第七章)ppt.ppt》由会员分享,可在线阅读,更多相关《《应用多元统计分析》第五版PPT(第七章)ppt.ppt(86页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第七章 主成分分析,7.1 引言7.2 总体的主成分7.3 样本的主成分7.4 若干补充及应用中需注意的问题,1,7.1 引言,主成分分析由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。主成分分析是一种通过降维技术把多个变量化为少数几个主成分(综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合,且彼此不相关。,2,习题7.6 下表给出的是美国50个州每100 000个人中七种犯罪的比率数据。这七种犯罪是:x1:杀人罪x5 :夜盗罪x2:强奸罪x6 :盗窃罪x3:抢劫罪x7 :汽车犯罪x4:伤

2、害罪 试图用降维的方式对50个州的犯罪情况进行比较分析。,3,4,该相关矩阵表明,变量之间存在一定的相关性,即彼此之间信息有不少是重复的,从而有一定的降维空间。该案例可用主成分分析进行降维,降了维之后再进行比较分析。,5,主成分的应用,(1)在一些应用中,用前少数几个主成分替代众原始变量以作分析,这些主成分本身就成了分析的目标。需要给出这前几个主成分一个符合实际背景和意义的解释。(2)在更多的另一些应用中,主成分只是要达到目的的一个中间结果(或步骤),而非目的本身。例如,主成分聚类、主成分回归、评估正态性、寻找异常值,以及寻找原始变量间的多重共线性关系等。此时的主成分可不必给出解释。,6,通过

3、一个简单二维例子理解主成分,7,图7.1.1 寻找主成分的正交旋转,旋转公式:,7.2 总体的主成分,一、主成分的定义及导出二、主成分的性质三、从相关阵出发求主成分,8,一、主成分的定义及导出,设 ,E(x)=,V(x)=。考虑如下的线性变换希望在约束条件 下寻求向量a1,使得 达到最大,y1就称为第一主成分。设1 2p0为的特征值, , i=1,2,p为相应的一组正交单位特征向量。则可求得第一主成分为它的方差具有最大值1。,9,如果第一主成分所含信息不够多,则需考虑再使用 ,并要求Cov(y1,y2) =0在此条件和约束条件 下寻求向量a2,使得 达到最大,所求的y2称为第二主成分。可求得其

4、方差为2。 一般来说,x的第i主成分是指:在约束条件 和 Cov(yk,yi)=0, k=1,2,i1下寻求ai,使得达到最大。第i主成分为,10,主成分的几何意义,在几何上,ti表明了第i主成分的方向,yi是x在ti上的投影值(其绝对值即为投影长度),i是这些值的方差,它反映了ti上投影点的变异程度。,11,x投影到ti上的值,其中i是ti与x的夹角。,12,主成分向量与原始向量之间的关系式,13,14,主成分与原始变量之间的关系式矩阵,15,正交变换 的几何意义,正交变换 的几何意义是将Rp中由x1,x2,xp构成的原p维坐标轴作一正交旋转,一组正交单位向量t1,t2,tp表明了p个新坐标

5、轴的方向,这些新坐标轴彼此仍保持正交(或说垂直)。,16,多元正态总体的主成分方向,以二元正态密度的等高线族为例。,17,二、主成分的性质,1.主成分向量的协方差矩阵2.主成分的总方差 3.原始变量xi与主成分yk之间的相关系数4.m个主成分对原始变量的贡献率5.原始变量对主成分的影响,18,1.主成分向量的协方差矩阵,V(y)=其中=diag(1,2,p),即V(yi)= i, i=1,2,p,且y1,y2,yp互不相关。,19,2.主成分的总方差,或,20,总方差中属于第i主成分yi (或被yi所解释)的比例为称为主成分yi的贡献率。第一主成分y1的贡献率最大,表明它解释原始变量 x1,x

6、2,xp的能力最强,而y2,y3,yp的解释能力依次递减。主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。,21,前m个主成分的贡献率之和称为主成分y1,y2,ym的累计贡献率,它表明y1,y2, ,ym解释x1,x2,xp的能力。通常取(相对于p)较小的m ,使得累计贡献达到一个较高的百分比(如8090)。此时,y1,y2, ,ym可用来代替x1,x2,xp,从而达到降维的目的,而信息的损失却不多。,22,3.原始变量xi与主成分yk之间的相关系数,x=Ty即xi=ti1y1+ti2y2+tipyp所以Cov

7、(xi,yk)=Cov(tikyk, yk)=tikk在实际应用中,通常我们只对xi (i=1,2,p)与yk (k=1,2,m)的相关系数感兴趣。,23,4.m个主成分对原始变量的贡献率,m个主成分y1,y2,ym从原始变量x1,x2,xp中提取的信息量,可度量为xi与y1,y2,ym的复相关系数的平方,它是xi的方差可由y1,y2,ym联合解释的比例,称之为y1,y2,ym对原始变量xi的贡献率。,24,例7.2.1 设x=(x1,x2,x3)的协方差矩阵为其特征值为1=5.83,2=2.00,3=0.17相应的特征向量为若只取一个主成分,则贡献率为5.83/(5.83+2.00+0.17

8、)=0.72875=72.875%,25,应再取y2,此时累计贡献率为(5.83+2.00)/8=97.875%(y1, y2)对每个变量xi的贡献率分别为 , 都比较高。,表7.2.1 y1及(y1,y2)对每个原始变量的贡献率,26,5.原始变量对主成分的影响,yk=t1kx1+t2kx2+tpkxp称tik为yk在xi上的载荷,它反映了xi对yk的重要程度。 在解释主成分时,我们需要考察载荷,同时也应考察一下相关系数,前者更值得重视。,27,例7.2.2 设x=(x1,x2,x3)的协方差矩阵为经计算,的特征值及特征向量为1=109.793,2=6.469,3=0.738 相应的主成分分

9、别为,28,y1=0.305x1+0.041x2+0.951x3y2=0.944x1+0.120x20.308x3 y3=0.127x1+0.992x20.002x3可见,方差大的x3在很大程度上控制了y1,方差小的x2几乎完全控制了y3,方差介于中间的x1则基本控制了y2。y1的贡献率为这么高的贡献率首先归因于x3的方差比x1和x2的方差大得多,其次是x1,x2,x3相互之间存在着一定的相关性。y3的方差相对很小,表明x1,x2,x3之间有这样一个线性依赖关系:0.127x1+0.992x20.002x3c其中c=0.1271+0.99220.0023为一常数。,29,方差大的主成分与方差大

10、的原始变量有较密切的联系,而方差小的主成分与方差小的原始变量有较强的联系。通常我们取前几个主成分,因此所取主成分会过于照顾方差大的原始变量,而对方差小的原始变量却照顾得不够。,揭示多重共线性关系,yp的贡献率常常很小,可视作接近于一个常数(均值)。yp可能揭示出原始变量之间存在着一个意外的多重共线性关系。更进一步来说,如果后几个主成分的贡献率都非常小,则可能表示变量之间有几个彼此独立的多重共线性关系。如果V(yp)=0,则表明x1,x2,xp之间(以概率1)存在线性关系(或者说完全共线性关系)。此时应从这些原始变量中删除“多余”的变量(一般来说,有几个主成分方差为零,就有几个“多余”的变量),

11、然后再重新进行主成分分析。,31,三、从相关阵出发求主成分,通常有两种情形不适合直接从协方差矩阵出发进行主成分分析。一种是各变量的单位不全相同的情形。另一种是各变量的单位虽相同,但其变量方差的差异较大(在应用中常表现为各变量数据间的数值大小相差较大)的情形。,32,最常用的标准化变换是令 。显然,的协差阵正是x的相关阵R。从R出发求主成分,主成分分析将均等地对待每一个原始变量。设 为R的p个特征值, 为相应的单位特征向量,且相互正交,则p个主成分为记 于是,33,从R出发的主成分性质,(1)E(y*)=0,V(y*)=*,其中 (2) 。(3)变量 与主成分 之间的相关系数即有,34,因此,在

12、解释主成分 时,从相关阵R出发求得的载荷 和相关系数 所起的作用是完全相同的,只需选其一用来作主成分解释即可。(4)主成分 对变量 的贡献率(5) 。,35,例7.2.3 在例7.2.2中,x的相关阵R的特征值及特征向量为相应的主成分分别为,36,的贡献率为 和 累计贡献率为现比较本例中从R出发和例7.2.2中从 出发的主成分计算结果。从R出发的 的贡献率0.705明显小于从出发的y1的贡献率0.938,事实上,原始变量方差之间的差异越大,这一点也就倾向于越明显。 可用标准化前的原变量表达如下:,37,可见, 在原变量x1,x2,x3上的载荷相对大小与例7.2.2中yi在x1,x2,x3上的载

13、荷相对大小之间有着非常大的差异。这说明,标准化后的结论完全可能会发生很大的变化,因此标准化不是无关紧要的。,38,7.3 样本的主成分,设数据矩阵为则样本协差阵和样本相关阵分别为,39,7.3 样本的主成分,一、样本主成分的定义二、从S出发求主成分三、从 出发求主成分四、主成分分析的应用,40,主成分定义的回顾,第一主成分:在约束条件|a1|=1下寻求向量a1,使得 的方差 达到最大。第二主成分:在约束条件|a2|=1和Cov(y1,y2) =0下寻求向量a2,使得 的方差 达到最大。第i主成分:在约束条件|ai|=1和Cov(yk,yi)=0, k=1,2,i1下寻求ai,使得 的方差 达到

14、最大。,41,一、样本主成分的定义,若向量a1在约束条件|a1|=1下,使得 的样本方差 达到最大,则称 为第一样本主成分。若向量a2在约束条件|a2|=1和,42,的样本协方差 下,使得 的样本方差 达到最大,则称 为第二样本主成分。一般地,若向量ai 在约束条件|ai|=1和 的样本协方差,43,下,使得的样本方差达到最大,则称 为第i样本主成分i=1,2,p 。需要指出的是,样本主成分是使样本方差而非方差达到最大,是使样本协方差而非协方差为零。,44,二、从S出发求主成分,用类似于上一节的方法,以S代替即可求得样本主成分。设 为S的特征值, 为相应的单位特征向量,且彼此正交。则第i样本主

15、成分为 ,它具有样本方差 ,各主成分之间的样本协方差为零。在几何上,p个样本主成分的方向为 所在的方向,且彼此垂直。n个样品点在 上的投影点最为分散,在其余 上投影点的分散程度依次递减。,45,总样本方差xi与 的样本相关系数其中 ,k=1,2,p。,46,主成分得分,中心化的第i主成分若将各观测值xj代替上式中的x,则第i主成分的值称之为观测值xj的第i主成分得分。所有观测值的平均主成分得分,47,三、从 出发求主成分,设样本相关阵 的p个特征值为, 为相应的正交单位特征向量,则第i样本主成分 其中x*是各分量经(样本)标准化了的向量,即,48,标准化后的主成分得分,令将其代替上述公式中的x

16、*,即得观测值xj在第i主成分上的得分所有观测值的平均主成分得分,49,四、主成分分析的应用,在本身作为目标的主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平,其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释。主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。,50,如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平

17、,也就是说,此时的累计贡献率通常较易得到满足。主成分分析的困难之处主要在于要能够给出主成分的较好解释,所提取的主成分中如有一个主成分解释不了,本身作为目的的整个主成分分析也就失败了。简单的说,该方法要应用得成功,一是靠原始变量的合理选取,二是靠“运气”。,51,例7.3.1 在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有这样六项: x1:身高x4:手臂长 x2:坐高x5:肋围 x3:胸围x6:腰围 所得样本相关矩阵列于表7.3.1。,表7.3.1 男子身材六项指标的样本相关矩阵,52,表7.3.2 的前三个特征值、特征向量以及贡献率,53,前三个主成分分别为根

18、据累计贡献率可考虑取前面两个或三个主成分。称第一主成分为(身材)大小成分,称第二主成分为形状成分(或胖瘦成分),称第三主成分为臂长成分。 可考虑取前两个主成分。由于 非常小,所以存在共线性关系:,54,例7.3.2 在习题6.5中,如下八项男子径赛运动记录: x1:100米(秒) x5:1500米(分) x2:200米(秒) x6:5000米(分) x3:400米(秒) x7:10000米(分) x4:800米(秒) x8:马拉松(分),表7.3.3 八项男子径赛运动记录的样本相关矩阵,55,表7.3.4 的前三个特征值、特征向量以及贡献率,56,在径赛项目上的强弱成分。 反映了速度与耐力成绩

19、的对比。例7.3.3 对例6.3.3中的数据从相关矩阵出发进行主成分分析。,57,图7.3.1 相关矩阵,58,图7.3.2 特征值和特征向量,第一主成分可称为综合消费性支出成分。第二主成分可称为(受地区气候影响的)消费(结构)倾向成分,后面表7.3.6中的排序进一步支持了这一解释。第三主成分很难给出明显的解释,因此我们只取前面两个主成分。,59,表7.3.5 按第一主成分排序的31个地区,60,表7.3.6 按第二主成分排序的31个地区,61,62,63,7.4 若干补充及应用中需注意的问题,*一、第一主成分与线性回归线的区别二、主成分的保留个数三、关于样本容量n的大小四、关于异常值的影响五

20、、关于时间序列数据六、主成分用于聚类分析七、关于不同时期的主成分分析八、关于定性数据九、对主成分综合得分方法的质疑,64,*一、第一主成分与线性回归线的区别,几何上第一主成分所在方向与(线性)回归线很像,但这两者是不同的。图7.1.1中,过重心O的第一主成分y1线是使得各点到该直线的垂直距离平方和达到最小的那条线。,65,二、主成分的保留个数,应保留多少个主成分要视具体情况,很难一概而论,最终一般还得依赖于主观判断。单从保留信息量的角度通常有以下几种选择主成分个数的方法:(1)保留的前几个主成分能使其累计贡献率达到一个较高的比例(如80%),具体需主观判断确定,这是我们最为推荐的方法。,66,

21、(2)当从S(或 )出发求主成分时,有一个经验规则是只保留特征值大于其平均值 (或1)的主成分。这是一个粗略的经验规则,只宜作为选择主成分个数的初步参考。(3)一种能够帮助我们确定主成分个数的视觉工具,即所谓的陡坡图,见附录7-1中的输出7-1.1(续)及其说明。(4)采用对主成分所相应的特征值进行显著性检验的方法,可参阅书中参考文献26中的12.6节。,67,如果我们需要对主成分进行解释,则选用多少个主成分就还需考虑所选主成分是否都能作出成功的解释,有时可能会为此降低了点累计贡献率。如果不需要对主成分作出解释(此时的主成分得分通常只是作为进入下一阶段分析的输入数据,即主成分仅是整个分析的中间

22、结果),则主成分个数的选择一般更倾向于保持一个足够高的累计贡献率,除非需要画散点图。,68,取多少个主成分有时也要视作图或排序的需要而定。当取三个和四个主成分都可行时,选取三个有一大好处,就是可以利用三维旋转图对所有样品的三个主成分得分进行直观的比较分析。当取两个和三个主成分都可行时,选取两个的主要好处是,平面散点图可以比三维旋转图观测得更为清楚和方便,且可打印输出。当取一个和两个主成分都可行时,取一个的优点是可以对各样品进行排序(如果这种排序是有实际意义的) ,取两个的优点是可以画散点图及保留更多的信息。如果我们对样品的排序不感兴趣,则一般应考虑取两个主成分,哪怕第二主成分的贡献率明显偏低些

23、,因为取一个主成分不利于作图。此外,通过对前两个或三个主成分的作图,还有助于从直觉上发现异常值、评估正态性以及进行其他的探索性分析等。,69,三、关于样本容量n的大小,不同于判别分析,在主成分的计算过程中不涉及S(或 )的逆,故理论上允许np。一般(特别是在主成分本身作为目标的分析中)较理想的是能满足n很大(如n50)且n至少是p的五倍,这样通常可使S(或 )的值比较稳定,分析结果一般也就不会随样本的变化而发生较大的改变,从而结论更加可信。,70,四、关于异常值的影响,有时少数几个异常值就可对S(或 )的值产生较大、甚至是非常大的影响。遇到这种异常值通常可有两种处理方法,一种是从数据中找出并直

24、接删除之,如例8.4.4的“注”中所说明的;另一种是采用(或R)的稳健估计,而不是计算成S(或 ),从而得到一个受异常值影响程度相对较小的估计(已超出了本书的范围)。,71,五、关于时间序列数据,在绝大多数场合下,时间序列数据x1,x2,xn彼此间不是独立的,而是相关的,从而不是一个简单随机样本。此时,由x1,x2,xn算得的S一般将不再是的无偏估计,尤其当x1,x2,xn彼此间的相关程度较高时,用S估计一般会有较严重的偏差,S也就不适合作为的估计了,连带 也不宜用来估计R了。此时,从S(或 )出发进行的主成分分析(或其他分析,如第八章的因子分析等)是没有意义的。,72,可作主成分分析的时间序

25、列例子,73,六、主成分用于聚类分析,1.用目测法在主成分得分图上聚类2.对样品之间的距离计算主成分不如原始变量3.费希尔判别函数比主成分更适用于对聚类结果的图形评估,74,1.用目测法在主成分得分图上聚类,当 的累计贡献率达到了一个较高百分比时,可将各样品 的得分画成如图7.3.3一样的散点图,然后用目测的方法直接在图上进行直观的聚类。尽管仅使用两个主成分会使信息有所损失,但样品散点图中却常常包含着正规的聚类方法所反映不出的丰富信息,这也许能足以弥补因降维而造成的信息损失,并由此或许可以得到比正规聚类方法更为合理的聚类结果。,75,当取前三个主成分才能使累计贡献率达到了一个较高百分比时,可使

26、用统计软件产生各样品得分的三维旋转图,通过该图的不断旋转用目测法作主观的聚类。目测三维旋转图要比目测平面散点图困难许多,故在实践中一般很少使用三个主成分进行聚类。在实际应用中,我们也可将由(客观的)正规聚类方法得到结果显示于(降维后的)图形中,然后对聚类结果的合理性进行(主观的)评估,并在必要时对聚类结果作(主观的)适当调整,以使所作的聚类更为合理、更符合我们的实际需要。,76,2.对样品之间的距离计算主成分不如原始变量,主成分用于聚类的优势就在于能够从直观的散点图上进行(或许更有效、合理的)分类,而如将主成分得分用来计算各样品之间的距离,那优势就不再了,与从原始变量出发相比一般反而处于劣势。

27、使用主成分计算样品之间的距离一般还不如直接用原始变量来计算。在例7.3.3中,前两个主成分的累计贡献率为80.6%,故平均来说,图7.3.3中样品点之间的平方欧氏距离可以解释原始八维空间中样品点之间的平方欧氏距离的80.6%。,77,3.费希尔判别函数比主成分更适用于对聚类结果的图形评估,如果我们希望用图形的方法来评估最终的聚类结果,则使用费希尔判别函数比使用主成分更为合适。原因就在于,由两个(或三个)费希尔判别得分构成的散点图(或三维旋转图)能最大限度地显现出类之间的差异,而由同样个数的主成分得分构成的图形最大限度显现的却是样品之间的差异,相对来说不是最适合聚类效果评估的要求。,78,79,

28、七、关于不同时期的主成分分析,例7.3.3是1999年的数据,如果用1998年的数据(缺西藏)来算,得到的结果是相近的,前两个主成分的累计贡献率为83.8%,它们得到的解释与例7.3.3相同。一般来说,对于同样的一些原始变量,某个时期的主成分分析能成功未必意味着其他时期的主成分分析也能成功;不同时期同样成功的主成分分析其主成分解释可能相同,也可能有差异;即使给出相同的解释,其主成分的具体内涵一般也不会完全相同,故不同时期的主成分之间一般是不可比较的。,80,八、关于定性数据,当是有序变量数据时,一般可将其转化为间隔变量数据,然后再进行主成分分析。例如,假设变量依次有由低到高的五个等级是A,B,C,D,E,如认为相邻等级的差异基本相同,则可分别转化为1,2,3,4,5或5,4,3,2,1(也可2,4,6,8,10等);如认为等级D与E之间的差异是其余相邻等级的两倍,则可分别转化为1,2,3,4,6或6,5,4,3,1。该转化一般也可用于其他的专门用于间隔变量的统计方法,转化效果如何取决于我们对各相邻等级之间相对差异的认识程度。,81,九、对主成分综合得分方法的质疑,82,83,84,85,86,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > pptx模板 > 校园应用

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁