第12章主成分分析.ppt

上传人:石*** 文档编号:49416839 上传时间:2022-10-08 格式:PPT 页数:29 大小:2.20MB
返回 下载 相关 举报
第12章主成分分析.ppt_第1页
第1页 / 共29页
第12章主成分分析.ppt_第2页
第2页 / 共29页
点击查看更多>>
资源描述

《第12章主成分分析.ppt》由会员分享,可在线阅读,更多相关《第12章主成分分析.ppt(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第12章主成分分析现在学习的是第1页,共29页本章主要内容本章主要内容1 概述概述2 PrinComp过程过程3 主成分分析主成分分析现在学习的是第2页,共29页概述概述科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。主成分分析(Principal Component Analysis)方法,1901年Pearson最早提出,1933年,Hotelling做了进一步研究。现在学习的是第3页,共29页概述概述何为主成分?简而言之,主成分实

2、际上就是由原变量x1xm线性组合出来的个互不相关、且未丢失任何信息的新变量,也称为综合变量。多指标的主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。现在学习的是第4页,共29页概述概述适合作主成分分析的资料,也适合作因子分析、对应分析、聚类分析,何时应选择什么方主要取决于研究目的和对结果的要求。现在学习的是第5页,共29页PrinCompPrinComp过程过程现在学习的是第6页,共29页PrinCompPrinComp过程过程SAS的princomp过程计算相关阵或协方差阵的特征值和特征向量,当特征值按从大到小的顺序排列

3、时,则相应的特征向量可得到第1主成分、第2主成分等。用少数几个主成分代替原始变量,并计算主成分得分。该过程可产生的计算结果有:简单统计量(均数和标准差);相关阵和协方差阵;从大到小排列的特征根和相应的特征向量等。现在学习的是第7页,共29页PrinCompPrinComp过程过程Princomp过程的选项(部分)选项功能和用法Cov从协方差矩阵计算主成分。如果省略此选项,则使用相关矩阵。使用cov可以使方差较大的变量与具有较大特征值的主成分相关更为密切。N指定需要计算主成分的个数。程序的默认值是变量的个数。Prefix=为主成分命名。Std(standard)要求输出数据集中包含标准化的主成分

4、值。如省略此项,则输出数据集中含未经标准化的主成分值。Noint主成分分析不包括截距。现在学习的是第8页,共29页主成分分析主成分分析示例12a01:某医学院测得20例肝病患者的项肝功能指标SGPT(转氨酶)、肝大指数、ZnT(硫酸锌浊度)和AFP(胎甲球),依次用X1至X4表示,观测数据列入数据文件。试进行主成分分析。数据文件SasData12a01.txt现在学习的是第9页,共29页主成分分析主成分分析/*SasProg12a01.Sas*/data d12a01;INFILE e:sassasdatasasdata12a01.txt;INPUT x1-x4;Proc princomp O

5、UT=d12a02 PREFIX=z;VAR x1-x4;run;data d12a02;SET d12a01;maxz=MAX(OF z1-z4);Proc print;run;OUT=d12a02表示要产生个数据集d12a02,它包括原始数据以及与各观测值对应的个主成分值;PREFIX=Z要求用Z1Z4分别表示4个主成分变量;若此项缺省,则SAS系统自动用PRIN1PRIN4表示4个主成分变量。现在学习的是第10页,共29页主成分分析主成分分析结果解释:第一部分(Number of Observations,Variables and Partial Variables):观测数和变量。第

6、二部分(Simple Statistics):变量的均数和标准差。第三部分(Correlation Matrix):相关系数矩阵。第四部分(Eigenvalues of the Correlation Matrix):相关系数阵的特征值。特征值越大,对应的主成分变量包含的信息就越多。第1个至第4个主成分的贡献率分别为42.9563%、27.3384%、24.5337%和5.1716%,最后1列为累计贡献率,由此列数值可知:前3个主成分就包含了原来4个指标94.828%的信息。现在学习的是第11页,共29页主成分分析主成分分析结果解释:第五部分(Eigenvectors):特征向量。据此可以写出

7、由标准化变量所表达的各主成分的关系式。Z1=0.699964x1+0.689798x2+0.087939x3+0.162777x4Z2=0.095010 x1-0.283647x2+0.904159x3+0.304983x4Z3=-0.240049x1+0.058463x2-0.270314x3+0.930532x4Z4=-0.665883x1+0.663555x2+0.318895x3-0.120830 x4现在学习的是第12页,共29页主成分分析主成分分析结果解释:在各主成分的表达式中,各标准化指标xi前的系数与该主成分所对应的特征值之平方根的乘积是该主成分与该指标之间的相关系数,如r(Z

8、1,x1)=0.917527;r(Z2,x3)=0.945501;系数的绝对值越大,说明该主成分受该指标的影响也就越大。因此,决定第1主成分Z1大小的主要为X1和X2,即SGPT和肝大指数;决定第2主成分Z2大小的主要为X3,即ZnT;决定第3主成分Z3大小的主要为X4,即AFP;决定第4主成分大小的主要为X1和X2,但作用相反。现在学习的是第13页,共29页主成分分析主成分分析示例12b01(裴鑫德编著.多元统计分析及其应用.北京:北京农业大学出版社.1991,10 第1版):对30个小麦品种观测了10项指标,得到数据文件SasData12b01.txt。试由样本协差阵和样本相关阵进行主成分

9、分析。X1抽穗期X6穗下节长(cm)X2株高(cm)X7主穗小穗数X3单株穗数X8每小穗粒数X4主穗长(cm)X9单株粒重(g)x5主穗粒数x10百粒重(g)现在学习的是第14页,共29页主成分分析主成分分析/*SasProg12b01.Sas*/data d12b01;infile e:sassasdatasasdata12b01.txt;input x1-x10;proc princomp prefix=y;var x1-x10;run;proc princomp cov prefix=y;var x1-x10;run;由相关阵R出发的主成分分析称为R型分析;由协差阵S出发的主成分分析称为

10、S型分析。求出使累积率达85%以上的前k个主成分。现在学习的是第15页,共29页主成分分析主成分分析结果解释由协方差阵的特征值(Eigenvalues of the Covariance Matrix)可知,前三个主成分的累积贡献率已达0.9234,表达式为:y1=0.042738x1+0.890552x2+0.022530 x3+0.065974x4-0.136044x5+0.416061x6-0.003390 x7-0.007046x8+0.092470 x9-0.001658x10y2=0.082628x1+0.135978x2-0.044066x3+0.043068x4+0.97725

11、3x5+0.001629x6+0.095308x7+0.042177x8+0.069606x9+0.012302x10y3=0.184179x1-0.168466x2+0.808030 x3+0.022172x4+0.013003x5+0.188426x6-0.051282x7+0.008776x8+0.493961x9-.043766x10现在学习的是第16页,共29页主成分分析主成分分析结果解释由第1主成分y1看,它是变量x1-x10的线性函数,且x2(株高)、x6(穗下节长)的系数最大;其次x1、x4、x1、x3系数也较大,这表示第1主成分大时,反映植株较高、穗下节较长、单株粒重较大、主

12、穗长较长、单株穗数较多、抽穗期较晚。第1主成分主要反映了植株高度,因此可以称为植株高度因子。第2主成分主要反映了穗部性状因子;第3主成分主要反映了植株群体大小因子。现在学习的是第17页,共29页主成分分析主成分分析结果解释由相关阵的特征值(Eigenvalues of the Correlation Matrix)可知,前五个主成分的累积贡献率已达0.8921,表达式为:y1=0.261839 x1+0.478942 x2+0.219693 x3+0.403641 x4-.175722 x5+0.512654 x6-.036207 x7-.185702 x8+0.398313 x9-.0521

13、76 x10y2=0.251823 x1+0.029450 x2-.079521 x3+0.230171 x4+0.597503 x5+0.009700 x6+0.463309 x7+0.495711 x8+0.158125 x9+0.184185 x10y3=0.153333 x1-.207673 x2+0.638507 x3-.276764 x4+0.119603 x5-.158753 x6-.135651 x7+0.210237 x8+0.358787 x9-.467156 x10 y4=-.519780 x1+0.052873 x2+0.192137 x3+0.116774 x4+0.

14、129460 x5+0.158279 x6-.546393 x7+0.408960 x8+0.100397 x9+0.398491 x10 y5=0.393837 x1-.373731 x2+0.045647 x3+0.028699 x4-.189090 x5-.269972 x6-.124743 x7-.189863 x8+0.382802 x9+0.628907 x10 现在学习的是第18页,共29页主成分分析主成分分析结果解释第1主成分为植株高度因子;第2主成分主要反映了穗部性状因子;第3主成分主要反映了植株群体大小因子;第4主成分为熟期早晚因子;第5主成分是粒重因子。一般来说,R型分析

15、累积方差贡献率达85%以上时,一般主成分的的个数k要比S型分析所取得的主成分的个数k要大,因而主成分实际意义的解释范围就更广一些。此外,R型分析还有消除指标量纲影响的作用,因而在实际问题中R型分析用的比较多。现在学习的是第19页,共29页主成分分析主成分分析示例12c01(黑龙江农垦总局课题.大学生体形和身体素质综合评价的研究.2002,8):对50名女大学生测定6项体型指标:x1:身高(cm);x2:体重(kg);x3:胸围(cm);x4:坐高(cm);x5:肩宽(cm);x6:骨盆宽(cm)。SasData12c01.txt对50名女大学生测定5项身体素质指标:x1:50m跑(秒);x2:

16、800m跑(秒);x3:立定跳远(m);x4:铅球(m);x5:仰卧起坐(个/分)。SasData12c02.txt对50名男大学生测定5项身体素质指标:x1:50m跑(秒);x2:1000m跑(秒);x3:立定跳远(m);x4:铅球(m);x5:引体向上(个)。SasData12c03.txt现在学习的是第20页,共29页主成分分析主成分分析/*Sasprog12c01.Sas*/data d12c01;infile e:sassasdatasasdata12c01.txt;input name$x1-x6;proc princomp prefix=z;var x1-x6;run;现在学习的

17、是第21页,共29页主成分分析主成分分析结果分析:前2个主成分的累积贡献率已达85.16%。前2个主成分的表达式分别为:Z1=0.4727x1+0.3730 x2+0.2431x3+0.4567x4+0.4425x5+0.4170 x6 Z2=-0.1324x1+0.5284x2+0.7210 x3-0.1427x4-0.3155x5-0.2520 x6从第一主成分看,身高x1、坐高x4、肩宽x5、骨盆宽x6的系数比较大,因此,当大学生的6个指标值代入第一主成分表达式所得第一主成分值较大时,必有身高较高、坐高较高、肩宽较宽、骨盆较宽等趋势,因此我们可以认为第一主成分为健壮因子。第二主成分中,胸

18、围x3的系数0.7210最大,体重x2的系数也较大,说明第二主成分主要反映肥胖程度,因此可称第二主成分为丰满因子。于是,根据以上2个主成分就可判断女同学的体形情况。将测定的指标代入上面2个主成分表达式中,若Z1较大,则为健壮型的;若Z2较大,则为丰满型的。现在学习的是第22页,共29页主成分分析主成分分析/*Sasprog12c02.Sas*/data d12c02;infile e:sassasdatasasdata12c02.txt;input name$x1-x5;proc princomp prefix=z;var x1-x5;run;现在学习的是第23页,共29页主成分分析主成分分析

19、结果分析:前4个主成分累积贡献率达到93.69%。表达式分别为:Z1=0.5272x1+0.4986x2+0.4453x3+0.4985x4-0.1634x5 Z2=0.1042x1-0.0543x2+0.2512x3+0.0345x4+0.9602x5 Z3=-0.4372x1-0.5184x2+0.6019x3+0.3929x4-0.1534x5 Z4=0.3401x1-0.4683x2-0.5395x3+0.6089x4+0.0559x5现在学习的是第24页,共29页主成分分析主成分分析结果分析:从第一主成分看,50m跑x1系数最大,因此,当大学生的5项身体素质指标值代入第一主成分表达式

20、所得第一主成分值较大时,首先是短跑较快的学生,因此我们可以认为第一主成分为爆发力因子。从表达式系数可以看出,800m跑x2、铅球x4、立定跳远x3的系均也比较大,说明第一主成分与耐力、力量等也有较大相关性。第二主成分中,仰卧起坐x5的系数0.9602最大,说明第二主成分主要反映了腰腹的强健程度。第三主成分中,立定跳远x3的系数最大,说明第四主成分是反映学生弹跳力的因子。第四主成分中,铅球x4的系数最大,说明第四主成分是反映学生力量的因子。现在学习的是第25页,共29页主成分分析主成分分析/*Sasprog12c02.Sas*/data d12c02;infile e:sassasdatasas

21、data12c02.txt;input name$x1-x5;proc princomp prefix=z;var x1-x5;run;现在学习的是第26页,共29页主成分分析主成分分析结果分析:需要前4个主成分累积贡献率达94.14%。表达式分别为:Z1=0.5389x1+0.4808x2+0.4903x3+0.4762x4+0.1063x5 Z2=-0.0821x1+0.3388x2-0.0892x3-0.3504x4+0.8648x5 Z3=-0.4014x1-0.5325x2+0.4361x3+0.4536x4+0.3992x5 Z4=-0.4066x1+0.2746x2+0.6874

22、x3-0.4659x4-0.2641x5现在学习的是第27页,共29页主成分分析主成分分析结果分析:从第一主成分看,50m跑x1系数最大,因此,当大学生的5项身体素质指标值代入第一主成分表达式所得第一主成分值较大时,首先是短跑较快的同学,因此我们可以认为第一主成分为爆发力因子。从表达式系数可以看出,1000m跑x2、铅球x4、立定跳远x3的系均也比较大,说明第一主成分与耐力、力量等也有较大相关性。第二主成分中,引体向上x5的系数0.8648最大,说明第二主成分主要反映了臂膀的强健程度。第三主成分中,铅球x4系数较大,说明男同学身体素质好要有一定的力量基础。该主成分中1000米跑x2的系数数值很

23、大,但呈负相关关系,与女同学的情况刚好相反。第四主成分中,立定跳远x3的系数最大,说明第四主成分是反映同学弹跳力的因子。现在学习的是第28页,共29页主成分分析主成分分析示例12d01(李方敏,艾天成,周治安等.用主成分分析法评价渍害土壤肥力.地域研究与开发.2001,20(4):65-67,80):选取具有湖北省四湖地区典型盆碟状地貌特征的潜江市国营高场农场不同渍害程度的17个样点的水稻土作为研究对象。测定和调查10项指标:土壤有机质(t1)、易氧化有机质(t2)、土壤有机质氧化稳定性(Kos值)(t3)、碱解氮(t4)、速效磷(t5)、速效钾(t6)、阳离子代换量(CEC)(t7)、20m粒径含量(t8)、20m含量比(t9)、地下水埋深(t10)。数据文件SasData12d01.txt现在学习的是第29页,共29页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁