《多元统计分析讲义(第四章).doc》由会员分享,可在线阅读,更多相关《多元统计分析讲义(第四章).doc(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上注意电子文档使用范围Equation Chapter 1 Section 1多 元 统 计 分 析Multivariate Statistical Analysis主讲:统计学院 许启发(xuqifa1975)统计学院应用统计学教研室School of Statistics2004年9月第三章 主成分分析【教学目的】1 让学生了解主成分分析的背景、基本思想;2 掌握主成分分析的基本原理与方法;3 掌握主成分分析的操作步骤和基本过程;4 学会应用主成分分析解决实际问题。【教学重点】1 主成分分析的几何意义;2 主成分分析的基本原理。1 概述一、 什么是主成分分析1研究背
2、景在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同。实际上,在很多情况下,众多变量间有一定的相关关系,人们希望利用这种相关性对这些变量加以“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析及典型相关分析便是在这种降维的思维下产生的处理高维数据的统计方法。本章主要介绍主成分分析。主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使
3、它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。概括地说,主成分分析(principal component analysis)就是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。主成分概念最早是由Karl Parson于1901年引进的,1933年Hotelling把这个概念推广到随机向量。在实践中,主成分分析既可以单独使用,也可和其它方法结合使用,如主成分回归
4、可克服多重共线性。2基本思想及意义哲学理念:抓住问题的主要矛盾。主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。通常数学上的处理就是将这个指标进行线性组合作为新的综合指标。问题是:这样的线性组合会很多,如何选择?如果将选取的第一个线性组合即第一个综合指标记为,希望它能尽可能多地反映原来指标的信息,即越大,所包含的原指标信息 度量信息最经典的方差是方差。就越多,的方差应该最大,称为第一主成分。如果第一主成分不足以代表原来个指标的信息,再考虑选取即选择第二个线性组合。为了有效地反映原来的信息,中已包含的信息,无须出现在中,即,称为第二主成分。仿此可以得到个主成分。我们
5、可以发现这些主成分之间互不相关且方差递减,即数据的信息包含在前若干个主成分中,因而只需挑选前几个主成分就基本上反映了原始指标的信息。这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的解决。二、 主成分分析的数学模型及几何意义1数学模型(总体主成分)设有个样品,每个样品观测个指标:,得到原始数据资料阵:。其中,。其协方差矩阵为它是一个阶半正定矩阵。设为个常数向量,考虑如下的线性组合 简记为易知有如果我们希望用代替原来p个变量,这就要求尽可能地反映原p个变量的信息。这里,“信息”用的方差来度量,即越大,表示所含的中的信息越多。但由方差的表达式可知,必须对加以限制,否则无界。而最方便的限制是要
6、求所有具有单位长度,即因此,我们希望在约束条件之下,求使达到最大,由此所确定的随机变量称为的第一主成分。如果第一主成分还不足以反映原变量的信息,考虑采用。为了有效地反映原变量的信息,中已有的信息就不必要再包含在中,用统计的语言来讲,要求与不相关,即于是,在约束条件及之下,求使达到最大,由此所确定的随机变量称为的第二主成分。一般地,在约束条件及之下,求使达到最大,由此所确定的随机变量称为的第主成分。2主成分的几何意义从代数学观点看主成分就是的一些特殊的线性组合,而在几何上这些线性组合正是把构成的坐标系旋转产生的新的坐标系,新坐标系使之通过样品方差最大化方向。下面以二元正态变量为例说明主成分的几何
7、意义。当时,原变量是,设,它们有下图的相关关系:对于二元正态变量,个点的散布大致是一个椭圆,在其长轴方向取坐标轴,在其短轴方向取坐标轴。这相当于在平面上作一坐标变换,即按逆时针方向旋转角度,得或这里的为正交矩阵,即。因此,在坐标系中有如下性质:(1)和为的线性组合;(2)与不相关;(3)与的总方差大部分归结为轴上,而轴上很少。几何意义:一般情况,个变量组成维空间,个样品点就是维空间的个点,对元正态分布变量来说,找主成分的问题就是找维空间中椭球体的主轴问题。2 主成分的推导及性质这里首先从理论上给出总体主成分,探讨总体主成分的性质,而后再给出样本主成分。一、 总体主成分1总体主成分的推导设,其中
8、且,。求主成分的过程就是寻找的线性组合,使相应的方差尽可能地大的过程。设协差阵的特征根为,相应的正交单位特征向量为,则因此,所以,而事实上,当时有由此可知,在约束条件之下,当时,使达到最大值,且。同理可求,且结论:的主成分就是以的特征向量为系数的线性组合,它们互不相关,其方差为的特征根,主成分的名次是按照特征根大小的顺序排列的。2总体主成分的性质性质1:设为的主成分,则其协差阵为由的协差所对应特征根组成的对角阵。性质2:。证明:。NOTE:此性质说明各变量方差之和等于各个主成分的方差之和,即。因此,描述了第个主成分提取的信息占总信息量的份额。为此,可以给出方差贡献率和方差累积贡献率的定义。定义
9、:称为第个主成分的方差贡献率,称为前个主成分的方差累积贡献率。累积贡献率表明了前个主成分提取了中的总信息量的份额。在实际应用中,通常选取,使前个主成分的累积贡献率达到一定的比例(如85%)。这样用前个主成分代替原来的变量而不至于损失太多的信息,从而达到减少变量个数的目的。性质3:。证明:因为, 这里为第个分量为1其余分量为0的单位向量。并且使用了这个结论。所以,。3标准化变量的主成分 一个总体往往由个变量所组成,代表不同性质的个指标,具有不同的计量单位,使得主成分方差的大小取决于量纲的选择,从而导致各主成分方差大小排序的偏误。实施标准化后,使得不同变量或指标反映信息量的大小具有可比性。在实际问
10、题中,不同的变量往往有不同的量纲,由于不同的量纲会引起个变量取值的分散程度差异较大,这时,总体方差则主要受方差较大的变量的控制。若用求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令其中,。这时,的协方差矩阵便是的相关矩阵,其中利用的相关矩阵作主成分分析,平行于前面的结论,可以有如下的定理。定理:设为标准化的随机向量,其协方差矩阵(即的相关矩阵)为,则的第个主成分并且其中为相关矩阵的特征值,为相应的正交单位化特征向量。这时,第个主成分的贡献为,前个主成分的累积贡献为。4标准化和非标准化数据的主成分例:设协方差矩阵和对
11、应的相关矩阵分别为,如果从出发作主成分分析,易求得其特征值和相应的单位正交化特征向量为,则的两个主成分分别为,第一主成分的贡献率为我们看到由于的方差很大,它完全控制了提取信息量占99.2%的第一主成分(在中的系数为0.999),淹没了变量的作用。如果从相关矩阵出发求主成分,可求得其特征值和相应的单位正交化特征向量为,则的两个主成分分别为此时,第一个主成分的贡献率有所下降,为。由此看到,原变量在第一主成分中的相对重要性由于标准化而有很大的变化。在由所求得的第一主成分中的,和的权重系数分别为0.040和0.999,主要由大方差的变量控制。而在由所求得的第一主成分中,和的权重系数反而成了0.707和
12、0.0707,即的相对重要性得到提升。此例也表明,由和求得的主成分一般是不相同的,而且,其中一组主成分也不是第二组主成分的某简单函数。在实际应用中,当涉及的各变量的变化范围差异较大时,从出发求主成分比较合理。二、 样本主成分1样本主成分的导出面讨论的是总体主成分,但在实际问题中,一般(或)是未知的,需要通过样本来估计。设为取处的一个容量为的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为:其中,分别以和作为和的估计,按照前面所述方法,从样本协差阵和相关阵出发求出的主成分称为样本主成分。定理:设是样本协方差矩阵,其特征值为,相应的正交单位化特征向量为,则第个样本主成分为其中为的任一观测值。当依
13、次代入的个观测值时,便得到第个样本主成分的个观测值。这时这时,第个样本主成分的贡献率定义为:。同时为了消除量纲的影响,我们可以对样本进行标准化,即令则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵。由出发所得的样本主成分称为标准化样本主成分。只要求出的特征值及相应的单位正交化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本的样本总方差为。证明:对于标准化数据矩阵,样本相关矩阵为,其中为相关矩阵的单位正交特征向量所组成的矩阵其特征根分别为,满足。现在考察从而新变量的样本方差为,即对于有最大的方差;有次大的方差,。并且协方差为由于所以,新变量的样本协方差结论:由推导过程可以看到,由
14、变量,经过正交变换得到的新变量不仅彼此不相关,而且它们的方差是特征根。这表明新变量就是所寻求的主成分,为了书写的方便用来表示。2样本主成分的性质性质1:第个主成分的系数向量是第个特征根所对应的标准化特征向量,即若,则性质2:第个主成分的方差为第个特征根,且任意两个主成分都是不相关的,也就是主成分的样本协方差矩阵是对角矩阵。性质3:样本主成分的总方差等于原变量样本的总方差,即事实上,性质4:第个主成分与第个变量样本之间的相关系数为:, 证明过程详见孙慧钧P99。性质4表明特征向量的第个分量描述了第个变量对第个主成分的重要性。习惯上称主成分与变量的相关系数为中变量的载(负)荷量。性质5:第个主成分
15、对所有变量的载荷量平方之和为主成分的方差,即,它表示主成分对的总方差贡献,并等于对每个方差贡献之和。性质6:所有主成分对变量的总方差贡献为,三、 主成分个数的选取我们知道,主成分分析的根本目的是把复杂的高维空间的(样本)点降至低维空间进行处理分析,这种降维要在尽量不损失原维空间信息的基础上进行。而信息总量的多少已经过数据的正交变换集中反映在新变量的总方差上,即。而根据特征根的性质知道:前面的特征根取值较大。因此,在实际研究过程只取个主成分中的前个进行讨论,因为它集中了信息总量的绝大部分。到底选择多少进行分析合适?需要确定相应的准则。185%原则 该原则是在实践中总结出来的,与其它原则相比,通常
16、有选取较多主成分的倾向。记方差的累积贡献率为根据我国主成分分析的实践来看,通常可以保证分析结果的可靠性。2的原则 实践中,该准则通常容易选取较少的主成分。先计算,然后将与之进行比较,选取的前个变量的主成分。由于由样本数据的相关矩阵所求得,所以,故只要选取的前个变量作为主成分即可。3斯格理(Screet)原则 这是从相反的方向来确定主成分的一种做法。实践中,该准则也倾向于选择较多的主成分,而且一般不单独使用。具体做法:计算特征根的差,如果前个比较近,即出现了较为稳定的差值,则后个变量可以确定为非主成分。4巴特莱特检验(Bartlet)原则 该检验的精确性受到样本容量大小的影响,当较小时,有可能低
17、估突出变量的数目;当较大时,有可能高估突出变量的数目。检验的原假设是最后个分量均等于或不显著地大于零。检验统计量:其中:,具体做法:从开始,一直检验到最后个个变量不显著为止。3 主成分的解释主成分是原始变量进行线性组合所得到的新变量,对于这些新变量赋予恰当的含义是主成分分析中至关重要的一个环节。同时,应该注意主成分分析的使用场合。一、 主成分的解释对主成分经济意义的解释,通常只能结合被研究事物的具体指标及其变量系数的大小作出,归纳起来主要有以下几种解释思路或方法。1从特征向量的各个分量数值的大小入手进行分析与概括表明了变量与主成分之间的关系。主成分在变量上的系数越大,说明该主成分主要代表了该变
18、量的信息;反之,若越接近于0,则表明几乎没有该变量什么信息。2从特征向量的各个分量数值的符号入手进行分析与概括主成分系数的符号表明了变量与主成分之间的作用关系,一般地,正号表示变量与主成分的作用同方向;而负号则表示变量与主成分作用是逆向变动关系。3如果变量分组较有规则,则从特征向量各分量数值作出组内、组间对比分析4如果主成分中,各变量的系数都大致相同,则要考虑是否存在一个一般性的影响因素二、 主成分分析适应的场合由主成分分析的基本原理可知,其主要作用就是将若干相关指标进行综合,根据相关程度的高低可以得出主成分的作用效果不完全相同,现将其归纳如下:3不完全相关主成分分析效果较好可以实施主成分分析
19、高度相关中度相关低度相关1完全相关2完全不相关不必实施主成分分析三、 主成分分析的基本步骤(计算过程)STEP01:将原始数据进行标准化,得;STEP02:计算的相关系数矩阵;STEP03:求相关系数矩阵的特征根及相应的单位正交特征向量;STEP04:计算方差累积贡献率,确定主成分的个数;STEP05:写出主成分,解释其实际经济意义并指导实践。4 主成分分析法的应用一、 主成分分析在经营管理中的应用1企业经济效益分析某主管局管辖20个工厂,现要对每个工厂作经济效益分析,经研究确定从所取得的生产成果同所消耗的人力、物力、财力的比率,选取五个指标(或变量)作分析。:固定资产产值率;:净产值劳动生产
20、率;:百元产值流动资金占用率;:百元产值利润率;:百元资金利润率;对这20个工厂同时按照这五个指标收集数据(孙慧钧P107)。解答:STEP01:将原始数据进行标准化,得;1-1.02 0.97 0.13 2.03 0.81 2-1.04 -0.96 0.85 -0.43 -0.90 3-1.25 0.69 1.20 1.36 -0.46 40.20 1.02 0.49 0.58 0.00 5-0.26 -1.07 0.13 -0.52 -0.11 6-1.29 -0.98 1.86 -0.21 -1.08 7-0.63 0.22 -0.29 1.02 0.61 80.21 0.33 -0.5
21、7 -0.46 -0.13 9-0.71 0.39 -0.51 -0.32 -0.86 10-0.59 -0.28 0.48 -0.22 -0.57 111.60 2.32 -0.91 0.64 2.34 120.35 0.04 -1.58 0.01 0.24 131.34 -0.06 -0.96 -1.10 0.09 141.06 -0.08 -0.66 -1.17 -0.54 151.15 -0.62 -0.73 -1.46 -0.81 16-0.72 -1.35 0.12 -0.99 -1.05 171.34 1.46 -1.10 -0.31 1.04 180.17 -1.16 -0.0
22、4 -1.08 -0.52 191.28 0.45 -0.32 1.18 2.35 20-1.18 -1.36 2.38 1.43 -0.45 STEP02:计算的相关系数矩阵;STEP03:求相关系数矩阵的特征根及相应的单位正交特征向量;表1 相关系数矩阵的特征值及方差累积贡献率 表2 相关系数矩阵的特征值所对应的特征向量STEP04:计算方差累积贡献率,确定主成分的个数;根据85%原则,可以选择个主成分。STEP05:写出主成分,解释其实际经济意义并指导实践。表3 前2个主成分的组成变量主成分0.5030.499-0.4730.0690.518-0.3450.2870.3840.7470.
23、309根据分析,在综合其它变量所反映信息的基础上,突出地反映了经营能力的大小。在综合其它变量所反映信息的基础上,突出地反映了企业盈利水平的高低。2食品业的经营决策某食品企业在对“未来开发方针的目标”作出决策之前,要进行广泛的社会调查,以研究广大消费者对各种食品的嗜好程度。通常是将消费者按男、女及年龄共分10个组作调查,如表所示表 调查对象分组性别男性女性组号12345678910年龄(岁)15以下15-2020-3030-4040以上15以下15-2020-3030-4040以上为了能从每个小组得到充分的信息,每个小组都至少调查50名消费者,共发出785张调查表。在每张调查表中,列出100种食
24、品,要求每个消费者按自己的嗜好程度对每种食品给予评分。最受欢迎的食品给9分,最不受欢迎的给1分。收回所有调查表后,作出初步汇总,即以小组为单元,在每个小组中,各成员都对这100种食品给予评分,求出每小组对每种食品的评分的均值,这样每个小组就有100个数据。根据STEP01STEP04的分析,只需选择前3个主成分即可,这3个主成分为:变量主成分0.2860.3310.3230.2990.2610.3090.3440.3480.3460.3030.4430.235-0.172-0.364-0.5090.4090.2560.036-0.160-0.2600.1940.3360.4420.3750.1
25、23-0.034-0.174-0.290-0.322-0.522下面进行STEP05,即分析主成分的经济意义及作用。在第一主成分中,每个变量的系数都在0.3左右,这表明反映了同年龄、性别无关的公共平均嗜好程度,即人们普遍的嗜好程度。由于的方差贡献达到68.26%,所以如果充分考虑人们普遍的嗜好,作出经营决策就有七成把握。在第二主成分中,不论男性或女性都有着共同的规律,即年龄小的系数为正值,年龄大的系数为负值,而且随年龄增大而下降。于是在综合了各小组的信息基础上,突出反映了年龄的嗜好程度。在第三主成分中,男性的系数为正值,女性的系数为负值,因而明显地反映了性别的嗜好程度。综上所述,食品加工业的经
26、营决策,只需从三个方面充分地考虑:人们喜欢吃与不喜欢吃的;青少年喜欢吃的,成人喜欢吃的;男性喜欢吃的,女性喜欢吃的。二、 主成分分析在经济指标综合评价中的应用在实际工作中,多指标的综合评价不仅要求对被评事物(样本点)给出一个诸多方面的综合描述,更需要用一个总指标来说明被评事物的一般水平,通过排序确定其在总体中的相对位置,以便对被评事物之间作对比分析。主成分分析就满足这样的要求,在多指标综合评价中显示出较强的优越性,主要表现在:第一,主成分分析在对数据作标准化处理中,抽象掉各变量的异度量性,抽象掉各指标(变量)的实际经济内涵,使各指标不受计量单位、数量级的影响,能够通过数值的大小进行对比分析和综
27、合。第二,主成分分析通过正交变换寻找主成分,克服了原指标(变量)相关性带来的重叠信息的不足,避免了原指标直接综合会歪曲被评事物(样本点)之间相对位置的弊端,使判断结果更具有综合性。第三,主成分分析由于消除了指标间的相关关系的影响,使得主成分合成宜采用加权线性和法。第四,主成分分析能够自动生成信息量权数,避免了人为因素的影响,增强权数的可信度,使评价结果真实、可靠,具有科学性。但在运用主成分分析作综合评价时,还应注意指标的性质:正指标、适度指标和逆指标,一般地要将适度和逆指标进行适当的转化,才能使用主成分分析作综合评价。1一个主成分排序续前例,利用一个主成分进行排序。表5 标准化后的数据(前10
28、个工厂)1-1.02 0.97 0.13 2.03 0.81 0.47 2.44 1.11 2-1.04 -0.96 0.85 -0.43 -0.90 -1.90 -0.19 -1.10 3-1.25 0.69 1.20 1.36 -0.46 -1.00 1.97 0.14 40.20 1.02 0.49 0.58 0.00 0.42 0.84 0.52 5-0.26 -1.07 0.13 -0.52 -0.11 -0.82 -0.59 -0.65 6-1.29 -0.98 1.86 -0.21 -1.08 -2.59 0.39 -1.28 7-0.63 0.22 -0.29 1.02 0.61 0.32 1.12 0.56 80.21 0.33 -0.57 -0.46 -0.13 0.44 -0.58 0.04 9-0.71 0.39 -0.51 -0.32 -0.86 -0.38 -0.35 -0.33 10-0.59 -0.28 0.48 -0.22 -0.57 -0.97 -0.04 -0.54 2选用多个主成分排序选用前2个主成分对各单位进行排序,于是5 案例分析例:详见课题区域经济非均衡增长测度模型研究,山东省自然科学基金。【本章思考题】1主成分分析的几何意义是什么?2主成分的实质是什么?3阐述主成分分析的基本步骤。【作业】专心-专注-专业