第一讲-主成分分析分析课件.ppt

上传人:飞****2 文档编号:74242040 上传时间:2023-02-25 格式:PPT 页数:49 大小:851KB
返回 下载 相关 举报
第一讲-主成分分析分析课件.ppt_第1页
第1页 / 共49页
第一讲-主成分分析分析课件.ppt_第2页
第2页 / 共49页
点击查看更多>>
资源描述

《第一讲-主成分分析分析课件.ppt》由会员分享,可在线阅读,更多相关《第一讲-主成分分析分析课件.ppt(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、罗树生主成分分析主成分分析x2c1x1x2C1x1x2x3主成分分析(Principal Component Analysis,PCA)是一种数据降维技术,将多个具有较强相关性的实测变量综合成少量综合变量。一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方

2、面的信息。这些综合指标就称为主成分。主成分分析的几何解释平移、旋转坐标轴 如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Cl和C2。Cl和C2是两个新变量。根据旋转变换的公式:旋转变换的目的是为了使得n个样品点在Cl轴方向上的离 散程度最大,即Cl的方差最大。变量Cl代表了原始数据的绝大 部分信息,在研究某问题时,即使不考虑变量C2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Cl轴上,对数据中包含的信息起到了浓缩作用。Cl,C2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二

3、维平面上的个点的方差大部分都归结在Cl轴上,而C2轴上的方差很小。Cl和C2称为原始变量x1和x2的综合变量。C简化了系统结构。主成分分析的数学模型通常情况下,所分析的多个变量具有不同量纲或均数/方差相差很大,不适于用协方差矩阵做主成分分析,而采用基于相关系数矩阵的主成分分析。首先将原变量标准化。设有n个样本,x1,x2xp为p个原指标变量,经过标准化后得到标准化变量X1,X2Xp:i=1,2,p我们作如下定义:(1)若C1=w11X1+w12X2+w1pXp,且使 Var(C1)最大,则称C1为第一主成分;但系数w若无限制可使Var(C1)无限大,故加约束条件:w112+w122+w1p2=

4、1 组合系数(w11,w12,w1p)可看作一个向量,代表p维空间中的一个方向,相当于全部n个个体在该方向上的一个投影。要求Var(C1)最大就是要找一个最“好”的方向,使得所有个体在该方向上的投影最为分散。如果第一主成分不足以代表原所有p个变量,则考虑第二个主成分:C2=w21X1+w22X2+w2pXp,要求使 Var(C2)最大;约束条件:w212+w222+w2p2=1 Cov(C1,C2)=0 Cov(C1,C2)=0即第一、第二主成分的协方差(相关系数)为零,目的是为了使C1中已有的信息不在C2中出现。结果是在与第一个向量垂直的所有方向中,找到一个使得所有个体在其上的投影与在其它方

5、向上的投影相比最为分散。同样的方法,可以继续寻找第三、第四主成分,至多有p个。(全)主成分模型主成分的性质主成分的性质:主成分主成分C1,C2,Cp具有如下几个性质:具有如下几个性质:(1)主成分间互不相关,即对任意主成分间互不相关,即对任意i和和j,Ci 和和Cj的相关的相关系数系数Corr(Ci,Cj)=0 i j (2)组合系数组合系数(wi1,wi2,wip)构成的向量为单位向量,构成的向量为单位向量,wi12+wi22+wip2=1(3)各主成分的方差是依次递减的,各主成分的方差是依次递减的,即即Var(C1)Var(C2)Var(Cp)(4)(4)总总方差不增不减,方差不增不减,即

6、即VarVar(C C1 1)+)+VarVar(C C2 2)+)+VarVar(C Cp p)=VarVar(x x1 1)+)+VarVar(x x2 2)+)+VarVar(x xp p)=p p这这一性一性质说质说明,主成分是原明,主成分是原变变量的量的线线性性组组合,是合,是对对原原变变量信息的一种重量信息的一种重组组,主成分不增加,主成分不增加总总信息量,也不减少信息量,也不减少总总信息量。信息量。(5)(5)主成分和原主成分和原变变量的相关系数量的相关系数 CorrCorr(C Ci i,x xj j)=)=w wijij=wij(6)令令X1,X2,Xp的相关矩的相关矩阵为阵

7、为R,(wi1,wi2,wip)则则是相关矩是相关矩阵阵R的第的第i个特征向量个特征向量(eigenvector)。而且,特征。而且,特征值值 i就是第就是第i主成分的方差,主成分的方差,即即Var(Ci)=i 其中其中 i为为相关矩相关矩阵阵R的第的第i个特征个特征值值(eigenvalue)1 2 p0(7)第)第i个主成分个主成分对对所有原所有原变变量的量的贡贡献献为为:(8)所有主成分对原变量)所有主成分对原变量xj的贡献为:的贡献为:求主成分的步骤1.计算相关系数矩阵R2.解特征方程|R-I|=0,求出相关阵R的特征根(eigenvalue)i,且按从大到小顺序排列:1 2 p,3.

8、求矩阵R关于i的满足正规条件的特征向量(eigenvector):Li=(li1,li2,lip)特征向量即为主成分系数。当变量较多时,特征根的计算较复杂,需借助计算机软件实现。一个简单例子例1.测得10名幼儿的身高,体重如下表,求主成分。对象号x1 体重(kg)x2 身高(cm)116.3108213.0 88318.3111415.0 95511.9 88614.4 95713.5 94812.1 88913.3 931013.5 95均数 14.13 95.5标准差 1.965847 7.9895771.求相关系数矩阵Rr11=r22=1,r12=r21=0.95472.求R的特征根,解

9、方程:即(1-)*(1-)-0.9547*0.9547=0得两个根 1.9547和0.0453,记为:1=1.9547,2=0.04533.求特征向量Li1=1.9547所对应的特征向量用下式解:l11+0.9547l12=1.9547l11 0.9547l11+l12=1.9547l12 l112+l122=1 得l11=0.7071,l12=0.7071,第一主成分为:C1=0.7071X 1+0.7071X2 同样的方法,用2=0.0453可计算出第二主成分,此处略。主成分的数目的选取主成分的数目的选取如前所述,如前所述,p个随机变量,便有个随机变量,便有p个主成分。由于总方差不个主成分

10、。由于总方差不增不减,增不减,C1,C2等前几个综合变量的方差较大等前几个综合变量的方差较大,而而Cp,Cp-1等等后几个综合变量的方差较小。后几个综合变量的方差较小。一般来说,只有前几个综合变量一般来说,只有前几个综合变量才称得上主才称得上主(要要)成份,后几个综合变量实为成份,后几个综合变量实为“次次”(要要)成份。成份。实践中总是保留前几个,忽略后几个。实践中总是保留前几个,忽略后几个。保留多少个主成分主要考虑保留部分的累积方差在方差总保留多少个主成分主要考虑保留部分的累积方差在方差总和中所占百分比和中所占百分比(即累积贡献率即累积贡献率),它标志着前几个主成分,它标志着前几个主成分概括

11、信息之多寡。实践中,一般推荐达到概括信息之多寡。实践中,一般推荐达到80%的累积方差的累积方差即可。常用的判断方法有:即可。常用的判断方法有:1.特征值准则:取特征值特征值准则:取特征值1的主成分。是的主成分。是SPSS软件默认软件默认的方法。的方法。2.累积方差比例原则:一般推荐累积方差比例达到累积方差比例原则:一般推荐累积方差比例达到80以以上时,即可停止选择主成分。上时,即可停止选择主成分。3.利用碎石图:将主成分按特征根从大到小排列,画出特利用碎石图:将主成分按特征根从大到小排列,画出特征根随主成分个数变化的散点图,根据图的形状来判断保征根随主成分个数变化的散点图,根据图的形状来判断保

12、留主成分的个数。曲线开始变平的前一个点(拐点)认为留主成分的个数。曲线开始变平的前一个点(拐点)认为是提取的最大主成分数。也就是根据特征根的变化速率来是提取的最大主成分数。也就是根据特征根的变化速率来确定。确定。例2:测得某地19-22岁年龄的部分城市男生身体形态指标:身高(x1,cm)、坐高(x2,cm)、体重(x3,kg)、胸围(x4、cm)、肩宽(x5,cm)、骨盆宽(x6,cm)。试进行主成分分析。特征值、方差比例和特征值、方差比例和累积贡献率累积贡献率本例考虑保留本例考虑保留3个主成分,累积贡献个主成分,累积贡献率可达率可达90%。主成分Ci表达式:SPSS软件不能直接给出主成分系数

13、wij,经过FACTOR 过程产生的是因子负荷系数,但主成分分析模型需要的不是因子载荷量而是特征向量,所以还需将因子负荷系数输入数据编辑窗口,利用“主成分相应特征根的平方根与特征向量乘积为因子负荷系数”的性质用TRANSFORMCOMPUTE 来计算特征向量,得到主成分的线性表达式。因子负荷系数转换为主成分系数(特征向量)因子负荷系数转换为主成分系数(特征向量)特征向量:特征向量:Prin1Prin2Prin3Prin4Prin5Prin6x10.522386-.195138-.190578-.2547110.2159430.735666x20.525457-.081135-.166475-.

14、3889580.312044-.664032x30.511104-.181008-.1046390.336278-.756343-.099605x40.346489-.0463000.7410220.4563170.346929-.010197x50.1883790.656718-.4713550.4963100.2539520.015620 x60.1850380.6993940.392082-.464976-.3147870.087106主成分的应用一、主成分综合评价 医学研究中常常需要对患者的健康状况等进行评价,而这类评价要求内容全面,多个测量指标,最后产出综合评价结果。将多个指标进行综

15、合总会面临以下问题:1.各指标量纲不同,不能直接相加;2.各指标间存在相关,直接相加产生信息重叠;3.相加时需要考虑各指标的权重。主成分分析可方便解决以上问题。例3.为评价31个地区的生殖健康状况,某研究者考察了此31个地区的4个有关生殖健康指标的得分,这4个指标的得分均是越高越好,它们各自反映了生殖健康的一个方面。对这31个地区进行综合评价。特征向量:特征向量:Prin1Prin2Prin3Prin4x10.499296-.3807370.7759410.060475x20.518859-.132563-.338619-.773660 x30.510915-.290727-.5197290.

16、619940 x40.4695260.8677240.1146010.116050第一主成分贡献率达到82.66%,考虑只以第一主成分作为综合评价指标。C1=0.4993X1+0.5189X2+0.5109X3+0.4695X 4这里Xj为标准化值。根据上述主成分得分计算公式,可得出31个地区各自的主成分得分。根据得分的大小顺序可将这些地区分组。如需分为4个组,则可取第25分位数、中位数、第75分位数为分界点。分值最高的25%为生殖健康较优组。二、主成分回归当自变量间存在明显共线性时,回归方程的结果可能出现重大问题,以致无法解释。主成分之间相关性为零,可解决原变量的共线性问题。主成分回归指用原

17、变量的主成分代替原自变量作回归分析。主成分回归的步骤1.求自变量的主成分;2.舍去贡献率近于0的主成分;3.将留下的主成分代替原变量,建立与应变量的回归方程;4.将主成分的表达式代入回归方程,得到原自变量与应变量的回归方程。例例4.有有22例胎儿受精龄(例胎儿受精龄(Y,周)与胎儿外周)与胎儿外形测量指标:身高(形测量指标:身高(X1,cm),头围),头围(X2,cm),体重),体重(X3,g)的数据。试求)的数据。试求由由X1,X2,X3推算推算Y的回归方程。的回归方程。用原始资料建立回归方程,得:y=11.0117+1.6927x1-2.1589x2+0.0075x3 这里x2的系数为负,

18、意为头围与胎儿周龄成负相关,与实际情况不符。原因是3个自变量之间相关性较强:最大条件指数最大条件指数=1/3=1184.7,说明说明x1-x3存存在严重共线性。在严重共线性。进行主成分分析,得到特征值和特征向量:进行主成分分析,得到特征值和特征向量:1=2.9261,l1=(0.580570.581070.57034)2=0.0714,l2=(-0.41852-0.387890.82121)3=0.00247,l3=(0.69841-0.715470.01799)根据特征向量计算出主成分根据特征向量计算出主成分C1和和C2,取这两个主成分与,取这两个主成分与y作回归作回归C1=0.58057X

19、1+0.58107X2+0.57034X3C2=-0.41852X1+-0.38789X2+0.82121X3其中,其中,X Xi i是原始变量是原始变量x xi i标准化变换后的变量:标准化变换后的变量:X X1 1=(x x1 1-33.0455-33.0455)/9.7102/9.7102,X X2 2=(x x2 2-23.2636-23.2636)/6.8575/6.8575X X3 3=(x x3 3-936.9091-936.9091)/690.3048/690.3048得到方程:y=23.7273+3.8822C1+3.0991C2再将C1和C2与原变量x1-x3的关系代入上式即得出主成分回归方程:y=10.4369+0.09854x1+0.1537x2+0.0069x3此结果用到C1和C2,累积贡献率为99.92%,即最终方程利用了原始资料99.92%的信息如果原有p个自变量X1,X2,Xp,那么,采用全部p个主成分所作回归完全等价于直接对原变量的回归;采用一部分主成分所作回归虽不完全等价于对原变量的回归,但往往能摆脱某些虚假信息,而出现较合理的结果。以上思路也适用于判别分析,当自变量高度相关时,直接作判别分析同样有多重共线性问题,可先计算自变量的主成分,然后通过主成分估计判别函数。谢 谢!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁