第4章 主成分分析.ppt

上传人:豆**** 文档编号:50519414 上传时间:2022-10-15 格式:PPT 页数:66 大小:1.77MB
返回 下载 相关 举报
第4章 主成分分析.ppt_第1页
第1页 / 共66页
第4章 主成分分析.ppt_第2页
第2页 / 共66页
点击查看更多>>
资源描述

《第4章 主成分分析.ppt》由会员分享,可在线阅读,更多相关《第4章 主成分分析.ppt(66页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第第4章章 主成分分析主成分分析引引 言言 实际问题中,为了尽可能完整的获得相关信实际问题中,为了尽可能完整的获得相关信息,往往要考虑众多的变量,这虽然避免了主要息,往往要考虑众多的变量,这虽然避免了主要信息的遗漏,但也存在一定的不足:信息的遗漏,但也存在一定的不足:变量太多会增加计算的复杂性变量太多会增加计算的复杂性变量太多给分析问题和解释问题带来困难变量太多给分析问题和解释问题带来困难变量提供的信息在一定程度上会有所重叠变量提供的信息在一定程度上会有所重叠 主成分分析主成分分析:在不致损失原变量太多信息的:在不致损失原变量太多信息的条件下,尽可能条件下,尽可能降低原变量的维数降低原变量的维

2、数。即用为数较。即用为数较少的少的互不相关的互不相关的新变量反映原变量所提供的绝大新变量反映原变量所提供的绝大部分信息。部分信息。主成分分析即构造原变量的一系列线性组合,使其方差主成分分析即构造原变量的一系列线性组合,使其方差达到最大。达到最大。总体主成分的定义设设 为某实际问题所涉及的为某实际问题所涉及的 个随机变量。个随机变量。记随机向量记随机向量 ,其,其协方差矩阵协方差矩阵为为 它是一个它是一个 阶阶非负定非负定矩阵。设矩阵。设 为为 维常数向量,考虑如下线性组合:维常数向量,考虑如下线性组合:总体主成分易知:易知:我们希望用我们希望用 代替原来代替原来 个变量个变量 ,这就要求,这就

3、要求 尽可能地反映原来尽可能地反映原来 个变量的信息。个变量的信息。这里用这里用 方差方差来度量。即要求来度量。即要求 达达到到最大最大。对任意常数对任意常数 ,若取,若取 则则 。总体主成分 因此,必须对因此,必须对 加以限制,否则加以限制,否则 无界。最方便的限制是要求无界。最方便的限制是要求 具有具有单位长度单位长度,即即我们在约束条件我们在约束条件 之下,求之下,求 使使 达到最大达到最大,因此,因此 所确定的随机变量所确定的随机变量 称为称为 的的第一主成分第一主成分。总体主成分如果如果第一主成分第一主成分 还不足以反映原变量的信息,进还不足以反映原变量的信息,进一步求一步求 。在约

4、束条件在约束条件 之之下下 求求 使使 方差达到最大。方差达到最大。第二主成分第二主成分:依次类推得依次类推得第第k主成分主成分注:按上述方法,我们最多可以构造注:按上述方法,我们最多可以构造p p个方差大于零的个方差大于零的主成分!主成分!总体主成分的求法设 是 的协方差矩阵,的特征值及相应的正交单位化特征向量分别为 及 ,则 的第 个主成分为 其中 。易见:事实上,令 ,则 为一正交矩阵,且总体主成分的求法设 为X的第一主成分,其中 .令 则 当 时,等号成立。这时 总体主成分的求法在约束条件 下,当 时,达到最大,且 设 为X的第二主成分,则有 即有 且 总体主成分的求法令 则有 从而

5、并且当 ,即 时,。所以当 时,满足 ,且使 达到最大。总体主成分的性质主成分的协方差矩阵及总方差 记 为主成分向量,则 ,其中 ,且 由此得主成分的方差为总体主成分的性质第第 个主成分个主成分 的的贡献率贡献率:前前 个主成分的个主成分的累计贡献率累计贡献率:例4.1 设随机变量设随机变量 的协方差矩的协方差矩阵为阵为 求求 的各主成分。的各主成分。解:易求得解:易求得 的特征值及相应的的特征值及相应的正交单位化正交单位化特征向量特征向量 分别为分别为例4.1因此 的主成分为 如果我们只取第一主成分,则贡献率为 若取前两个主成分,则累计贡献率为例4.1进一步可求得前两个主成分与各原始变量的相

6、关系数 同理,可求得 即 与 ,高度相关而与 不相关;与 以概率1呈完全线性关系。data examp4_1(type=cov);_type_=cov;input _name_$x1-x3;cards;x1 1-2 0 x2-2 5 0 x3 0 0 2;run;proc princomp data=examp4_1 cov outstat=bb;var x1-x3;run;proc print data=bb;run;例题例题4.14.1标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,

7、不同的量纲会引起各变量取值的分散程度差异较大,这时变量的总方差则主要受方差较大的变量的控制。这时变量的总方差则主要受方差较大的变量的控制。若用原变量的协方差阵求主成分,则优先照顾了方差若用原变量的协方差阵求主成分,则优先照顾了方差较大的变量,会造成很不合理的结果。为了消除由于较大的变量,会造成很不合理的结果。为了消除由于量纲的不同带来的影响,常采用变量量纲的不同带来的影响,常采用变量标准化标准化的方法,的方法,即令即令 其中其中 。标准化变量的主成分这时,的协方差矩阵便是 的相关矩阵 ,其中 利用 的相关矩阵 作主成分分析,可以得到如下结论:标准化变量的主成分设 为标准化的随机向量,其协方差矩

8、阵(即 的相关矩阵)为 ,则 的第 个主成分为 并且 其中 为 的特征值,为相应于特征值 的正交单位化特征向量 。这时,第 个主成分的贡献率为 ,前 个主成分的累计贡献率为 ,与 的相关系数为例4.2设设 的协方差矩阵为的协方差矩阵为 相应的相关矩阵为相应的相关矩阵为 分别从分别从 和和 出发,作主成分分析。出发,作主成分分析。例4.2解:解:如果从如果从 出发作主成分分析,易求得其特征值出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为和相应的正交单位化特征向量为 的两个主成分分别为的两个主成分分别为 第一主成分的贡献率为第一主成分的贡献率为例4.2 与与 ,的相关系数分别是的相关

9、系数分别是 我们可以看到,由于我们可以看到,由于 的方差很大,它完全控的方差很大,它完全控制了提取信息量占制了提取信息量占99.299.2的第一主成分(的第一主成分(在在 中的中的系数为系数为0.9990.999),淹没了变量),淹没了变量 的作用。的作用。如果从如果从 出发求主成分,出发求主成分,可求得其特征值和相应的可求得其特征值和相应的正交单位化特征向量为正交单位化特征向量为例4.2 的两个主成分分别为的两个主成分分别为 此时,第一个主成分的贡献率有所下降,为此时,第一个主成分的贡献率有所下降,为 注:当涉及的各变量的变化范围差异较大时,从注:当涉及的各变量的变化范围差异较大时,从相关相

10、关矩阵矩阵 出发求主成分比较合理。出发求主成分比较合理。data examp4_2(type=cov);_type_=COV;input _name_$x1 x2;cards;x1 1 4x2 4 100;run;proc princomp data=examp4_2 cov;var x1 x2;run;proc princomp data=examp4_2;var x1 x2;run;例例4.24.2样本主成分设 为取自 的一个容量为 的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为其中样本主成分设设 是样本协方差矩阵是样本协方差矩阵,其特征值为其特征值为 相应的正交单位化特征向量为相应

11、的正交单位化特征向量为 ,这,这里里 。则第。则第 个样本主成分为个样本主成分为 其中其中 为为X的任一观测值。当的任一观测值。当依次代入依次代入X的的n个观测值个观测值 时,便得到第时,便得到第k个样本主成分个样本主成分 的的n个观测值个观测值 ,我们称为我们称为第第k k个主成分的得分个主成分的得分。有。有样本主成分第 个样本主成分的贡献率定义为 ,前 个样本主成分的累计贡献率定义为 。样本主成分同样,为了消除量纲的影响,我们可以对样本进行标准化,即令 则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵 。由 出发所求得的样本主成分称为标准化样本主成分。只要求出 的特征值及相应的正交单位

12、化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本总方差为 。样本主成分实际应用中,将样本 代入各主成分 中,可得到各样本主成分的观测值 原变量主成分12序号 PROC PRINCOMP可对输入资料文件做主成分分析可对输入资料文件做主成分分析输入资料文件可以是输入资料文件可以是原始数据、相关系数矩阵或样本原始数据、相关系数矩阵或样本协方差矩阵协方差矩阵等等输出包括输出包括相关矩阵或协方差矩阵、特征值、特征向量相关矩阵或协方差矩阵、特征值、特征向量及标准化的主成分值及标准化的主成分值等等PROC PRINCOMPProc princomp 选项串;var 变量名称串;partial

13、变量名称串;freq 变量名称串;weight 变量名称串;by 变量名称串;PROC PRINCOMPProc princomp options;data=sas data set:指出要分析的sas数据集名称。这个数据集可以是原始观测值的sas数据集,也可以是相关矩阵(typecorr)或协方差矩阵(typecov)。若省略数据集选项,则自动使用最新建立的sas数据集。PROC PRINCOMPProc princomp options;outsas data set:命名一个输出的sas数据集,其中包含原始数据以及各主成分的得分(即各主成分的观测值)。outstatsas data se

14、t:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的输出sas数据集。PROC PRINCOMPProc princomp options;covariance(或COV):要求从协方差矩阵出发作主成分分析。若省略此选项,则从相关矩阵出发进行分析。除非各变量的度量单位是可比较的或已经过某种方式的标准化,否则不宜使用此选项,应从相关矩阵出发作主成分分析。Nn:指定要计算的主成分个数“n”。其默认值为参与分析的变量个数。PROC PRINCOMPProc princomp options;prefixname:规定各主成分的名称的前缀。省略此句则sas系统自动赋予各主成分

15、名称分别为prin1,prin2,。若“nameA”,则各主成分名称分别为A1,A2,。前缀的字符个数加上后面数字位数应不超过8个字符。例4.3对10名男中学生的身高()、胸围()和体重()进行测量,得数据如表。对其作主成分分析。序号身高(cm)胸围(cm)体重(kg)1149.569.538.52162.577.055.53162.778.550.84162.287.565.55156.574.549.06156.174.545.57172.076.551.08173.281.559.59159.574.543.510157.779.053.5例4.3data students;input

16、x1 x2 x3;cards;149.5 69.5 38.5 157.7 79.0 53.5 ;proc princomp cov;var x1-x3;run;例4.3由上面的sas proc princomp过程,可以算得样本协方差矩阵为S的特征值与单位正交化特征向量分别为例4.3各主成分的贡献率分别为:前两个主成分的累计贡献率已达98.855,实际应用中可只取前两个主成分,即例 4.4 为全面了解我国西北某省的十家上市公司的获利能力和经营发展能力,选取六个指标进行分析:X1 x2 x3 X4 X5 X6,下面给出10家公司关于六个指标在过去三年取值的加权平均,对其做主成分分析,并按第一主成

17、分得分对这10家公司的综合能力进行排序。例4.4data examp4_4;input id x1-x6;cards;1 0.021 26.806 57.311-39.819-39.819 8.819 2-0.142 -7.179 16.335-11.359 -4.766 -4.626 3-0.737-62.417 7.359-18.378-19.165 12.289 4 0.320 7.276 17.372 39.506 19.858 41.939 5 0.160 4.820 38.323 37.113 23.744 34.063 6 0.351 11.842 23.118 14.725 1

18、1.616 9.516 7 0.243 5.173 17.515 14.435 123.101 79.489 8-0.190-10.912 8.236 -2.746 -7.439-10.502 9 0.173 7.543 23.978 17.122 21.318 25.701 10 0.367 9.352 16.048 55.621 27.861 18.918;run;proc corr cov nosimple data=examp4_4;var x1-x6;run;proc princomp data=examp4_4 out=bb;var x1-x6;run;proc print dat

19、a=bb;/*以下程序是对各公司按第一主成分得分进行排名并打印结果以下程序是对各公司按第一主成分得分进行排名并打印结果*/data score1;set bb;keep id prin1;proc sort data=score1;by descending prin1;run;proc print data=score1;run;求各主成分的得分求各主成分的得分例4.4data lirun;input x1-x8;cards;40.4 24.7 7.2 6.1 8.3 8.7 2.442 20.0 38.5 9.1 11.3 9.5 12.2 16.4 1.327 11.6 ;proc pr

20、incomp cov;var x1-x8;run;例4.5某医学院测得20例肝癌患者的4项肝功能指标:SGPT(转氨酶),肝大指数,ZnT(锌浊度)和AFP(胎甲球),依次用X1X4表示,观察数据如表。试进行主成分分析。例4.5data p1;input x1-x4;cards;40 2 5 2010 1.5 5 30120 3 13 50250 4.5 18 0120 3.5 9 5010 1.5 12 5040 1 19 40270 4 13 60280 3.5 11 60170 3 9 60180 3.5 14 40130 2 30 50220 1.5 17 20160 1.5 35 6

21、0220 2.5 14 30140 2 20 20220 2 14 1040 1 10 020 1 12 60120 2 20 0;proc princomp out=pc prefix=y;var x1-x4;proc print data=pc;run;规定各主成分规定各主成分名称的前缀名称的前缀求各主成分的得分求各主成分的得分例4.6一月和七月平均气温的主成分分析 在数据集TEMPERAT中存放有美国一些城市一月和七月的平均气温。我们希望对这两个气温进行主成分分析,希望用一个统一的温度来作为总的可比的温度,所以进行主分量分析。例4.6DATA TEMPERAT;INPUT CITY$1-

22、15 JANUARY JULY;CARDS;MOBILE 51.2 81.6PHOENIX 51.2 91.2LITTLE ROCK 39.5 81.4SACRAMENTO 45.1 75.2DENVER 29.9 73.0HARTFORD 24.8 72.7WILMINGTON 32.0 75.8WASHINGTON DC 35.6 78.7JACKSONVILLE 54.6 81.0MIAMI 67.2 82.3ATLANTA 42.4 78.0BOISE 29.0 74.5CHICAGO 22.9 71.9PEORIA 23.8 75.1INDIANAPOLIS 27.9 75.0DES

23、 MOINES 19.4 75.1WICHITA 31.3 80.7LOUISVILLE 33.3 76.9NEW ORLEANS 52.9 81.9PORTLAND,MAINE 21.5 68.0BALTIMORE 33.4 76.6BOSTON 29.2 73.3DETROIT 25.5 73.3SAULT STE MARIE 14.2 63.8DULUTH 8.5 65.6MINNEAPOLIS 12.2 71.9JACKSON 47.1 81.7KANSAS CITY 27.8 78.8ST LOUIS 31.3 78.6GREAT FALLS 20.5 69.3OMAHA 22.6

24、77.2RENO 31.9 69.3CONCORD 20.6 69.7ATLANTIC CITY 32.7 75.1ALBUQUERQUE 35.2 78.7例4.6ALBANY 21.5 72.0BUFFALO 23.7 70.1NEW YORK 32.2 76.6CHARLOTTE 42.1 78.5RALEIGH 40.5 77.5BISMARCK 8.2 70.8CINCINNATI 31.1 75.6CLEVELAND 26.9 71.4COLUMBUS 28.4 73.6OKLAHOMA CITY 36.8 81.5PORTLAND,OREG 38.1 67.1PHILADELPH

25、IA 32.3 76.8PITTSBURGH 28.1 71.9PROVIDENCE 28.4 72.1COLUMBIA 45.4 81.2SIOUX FALLS 14.2 73.3MEMPHIS 40.5 79.6NASHVILLE 38.3 79.6DALLAS 44.8 84.8EL PASO 43.6 82.3HOUSTON 52.1 83.3SALT LAKE CITY 28.0 76.7BURLINGTON 16.8 69.8NORFOLK 40.5 78.3RICHMOND 37.5 77.9SPOKANE 25.4 69.7CHARLESTON,WV 34.5 75.0MILW

26、AUKEE 19.4 69.9CHEYENNE 26.6 69.1;PROC PRINCOMP COV OUT=PRIN;VAR JULY JANUARY;RUN;例4.5例例4.64.6输出中,第一部分为简单统计量(均值和标准差),第二部分为协方差的特征值(注意我们在过程中用了COV选项,无此选项用相关阵),从这里可以看到贡献率(Proportion)和累计贡献率(Cumulative),第三部分为特征向量。按本结果的特征向量值及用COV选项规定使用协方差阵,我们可以知道两个主分量如此计算:PRIN1=0.326866*JULY+0.945071*JANUARY PRIN2=0.945071*JULY+(-0.326866)*JANUARY 如果没有用COV选项,原始变量还需要除以标准差。由系数可见,第一主分量是两个月份的加权平均,代表了一个地方的气温水平,第二主分量系数一正一负,反应了冬季和夏季的气温差别。请 注意:此时的特征向量是与上不同的,而主成份公式也应用标准化后的值的。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > pptx模板 > 企业培训

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁