《主成分分析及matlab实现ppt课件.ppt》由会员分享,可在线阅读,更多相关《主成分分析及matlab实现ppt课件.ppt(31页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 主成分分析 主成分分析的基本原理 主成分分析的计算步骤 主成分分析方法应用实例 采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物 在实际问题研究中,多变量问题是经常在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。多个变量之间是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相因此,人们会很自然地想到,能否在相关分析的基础上,用较
2、少的新变量代替原来关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?可能多地保留原来变量所反映的信息? 问题的提出问题的提出:采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物 事实上,这种想法是可以实现的,主成分事实上,这种想法是可以实现的,主成分分析方法就是综合处理这种问题的一种强有力分析方法就是综合处理这种问题的一种强有力的工具。的工具。 主成分分析是把原来多个变量划为少数几主成分分析是把原来多个变量划为少数
3、几个综合指标的一种统计分析方法。个综合指标的一种统计分析方法。 从数学角度来看,这是一种降维处理技术。从数学角度来看,这是一种降维处理技术。 采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物 n例如,某人要做一件上衣要测量很多尺寸,如例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新型服装绝不项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多可能把尺寸的型号分得过多 ?而是从多种指?而是从多种指标
4、中综合成几个少数的综合指标,做为分类的标中综合成几个少数的综合指标,做为分类的型号,利用主成分分析将十几项指标综合成型号,利用主成分分析将十几项指标综合成3项指标,一项是反映长度的指标,一项是反映项指标,一项是反映长度的指标,一项是反映胖瘦的指标,一项是反映特体的指标。胖瘦的指标,一项是反映特体的指标。采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物一、主成分分析的基本原理 假定有假定有n个样本,每个样本共有个样本,每个样本共有p p个变量,个变量,构成一个构成一个np阶的数据矩阵阶的数据矩阵npnnppxx
5、xxxxxxxX212222111211(1.1) 采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物 当当p较大时,在较大时,在p维空间中考察问题比较麻维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时地反映原来较多变量指标所反映的信息,同时它们之间又是彼此
6、独立的。它们之间又是彼此独立的。采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物 定义:记定义:记x1,x2,xP为原变量指标,为原变量指标,z1,z2,zm(mp)为新变量指标)为新变量指标111 11221221 122221 122221.1ppppmmmmppiipzl xl xl xzl xl xlxzl xlxlxll(1.2) 系数系数lij的确定原则:的确定原则: zi与与zj(ij;i,j=1,2,m)相)相互无关;互无关;采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直
7、角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物 z1是是x1,x2,xP的一切线性组合的一切线性组合中方差最大者,中方差最大者,z2是与是与z1不相关的不相关的x1,x2,xP的所有线性组合中方差最大者的所有线性组合中方差最大者; zm是与是与z1,z2,zm1都不相关的都不相关的x1,x2,xP, 的所有线性组合中方差最大者。的所有线性组合中方差最大者。 则新变量指标则新变量指标z1,z2,zm分别称为原分别称为原变量指标变量指标x1,x2,xP的第的第1,第,第2,第,第m主成分。主成分。 采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,
8、边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物 从以上的分析可以看出,主成分分析的从以上的分析可以看出,主成分分析的实质就是确定原来变量实质就是确定原来变量xj(j=1,2 , p)在诸主成分在诸主成分zi(i=1,2,m)上的荷载)上的荷载 lij( i=1,2,m; j=1,2 ,p)。)。 从数学上可以证明,它们分别是相关矩从数学上可以证明,它们分别是相关矩阵阵m个较大的特征值所对应的特征向量。个较大的特征值所对应的特征向量。 采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物二、主成分分析的计算
9、步骤二、主成分分析的计算步骤 设有设有 n 个样品,每个样品观测个样品,每个样品观测 p 个指标,将个指标,将原始数据写成矩阵原始数据写成矩阵1将原始数据标准化。这里不妨设上边矩阵已将原始数据标准化。这里不妨设上边矩阵已标准化了。标准化了。 2建立变量的相关系数阵:建立变量的相关系数阵:12211()()()()nkiikjjkijnnkiikjjkkxxxxrxxxx采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物3求求R的特征根的特征根及相应的单位特征向量:及相应的单位特征向量:4写出主成分写出主成分采用
10、PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物 计算主成分贡献率及累计贡献率计算主成分贡献率及累计贡献率 贡献率贡献率累计贡献率累计贡献率 ),2, 1(1pipkki),2, 1(11pipkkikk 一般取累计贡献率达一般取累计贡献率达85%95%的特征值的特征值所对应的第所对应的第1 1、第、第2 2、第、第m(mp)个主成分。)个主成分。 m,21采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物三、 实例演示 例例 对
11、全国对全国30个省市自治区经济发展基个省市自治区经济发展基本情况的八项指标作主成分分析,原始本情况的八项指标作主成分分析,原始数据如下:数据如下:采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物采用PP管及配件:根据给水设计图配置好PP管及配件,
12、用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物第一步第一步 将原始数据标准化。将原始数据标准化。第二步第二步 建立指标之间的相关系数阵建立指标之间的相关系数阵R如下如下采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物第三步第三步 求求R的特征值和特征向量。的特征值和特征向量。采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物 从上表看,前从上表看,前3个特征值累计贡献率已达个特征值累计贡献率
13、已达89564,说明前说明前3个主成分基本包含了全部指标具有的信息,我们个主成分基本包含了全部指标具有的信息,我们取前取前3个特征值,并计算出相应的特征向量:个特征值,并计算出相应的特征向量:采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物因而前三个主成分为:因而前三个主成分为:第一主成分:第一主成分:第二主成分:第二主成分:212346780.1079950.2585120.2875360.4009310.40431 50.4988010.488680.167392FXXXXXXXX采用PP管及配件:根据给
14、水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物第三主成分:第三主成分: 在第一主成分的表达式中第一、二、三项指标的系数在第一主成分的表达式中第一、二、三项指标的系数较大,这三个指标起主要作用,我们可以把第一王成分看较大,这三个指标起主要作用,我们可以把第一王成分看成是由国内生产总值、固定资产投资和居民消费水平所该成是由国内生产总值、固定资产投资和居民消费水平所该划的反映经济发展状况的综合指标;划的反映经济发展状况的综合指标; 在第二主成分中,第四、五、六、七项指标的影响在第二主成分中,第四、五、六、七项指标的影响大,且第六、七项指
15、标的影响尤其大,可将之看成是反映大,且第六、七项指标的影响尤其大,可将之看成是反映物价指数、职工工资和货物周转量的综合指标;物价指数、职工工资和货物周转量的综合指标; 在第三主成分中,第八项指数影响最大,远超过其它在第三主成分中,第八项指数影响最大,远超过其它指标的影响,可单独看成是工业总产值的影响。指标的影响,可单独看成是工业总产值的影响。采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物四四.主成分分析的应用主成分分析的应用n1.主成分分析用于系统评估主成分分析用于系统评估 利用主成分利用主成分F1,Fp做
16、线性组合,并以做线性组合,并以每个主成分每个主成分 Fi 的方差贡献率的方差贡献率 作为权数作为权数构造一个综合评价函数:构造一个综合评价函数: 也称也称 y 为评估指数,依据对每个系统计算为评估指数,依据对每个系统计算出的出的 y 值大小进行排序比较或分类划级。值大小进行排序比较或分类划级。采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物例1. 城市环境生态化是城市发展的必然趁势,表现为城市环境生态化是城市发展的必然趁势,表现为社会、经济、环境与生态全方位的现代化水平,一个社会、经济、环境与生态全方位的现代
17、化水平,一个符合生态规律的生态城市应该是结构合理、功能高效符合生态规律的生态城市应该是结构合理、功能高效和关系协调的城市生态系统。所谓结构合理是指适度和关系协调的城市生态系统。所谓结构合理是指适度的人口密度,合理的土地利用,良好的环境质量,充的人口密度,合理的土地利用,良好的环境质量,充足的绿地系统,完善的基础设施,有效的自然保护;足的绿地系统,完善的基础设施,有效的自然保护;功能高效是指资源的优化配置、物力的经济投入、人功能高效是指资源的优化配置、物力的经济投入、人力的充分发挥、物流的畅通有序、信息流的快捷;关力的充分发挥、物流的畅通有序、信息流的快捷;关系协调是指人和自然协调、社会关系协调
18、、城乡协调、系协调是指人和自然协调、社会关系协调、城乡协调、资源利用和更新协调。一个城市要实现生态城市的发资源利用和更新协调。一个城市要实现生态城市的发展目标,关键是在市场经济的体制下逐步改善城市的展目标,关键是在市场经济的体制下逐步改善城市的生态环境质量,防止生态环境质量恶化,因此,对城生态环境质量,防止生态环境质量恶化,因此,对城市的生态环境水平调查评价很有必要。市的生态环境水平调查评价很有必要。采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物 我们对江苏省十个城市的生态环境状况进行了调查,得到生我们对江
19、苏省十个城市的生态环境状况进行了调查,得到生态环境指标的指数值,见表态环境指标的指数值,见表1。现对生态环境水平分析和评。现对生态环境水平分析和评价价。采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物利用Matlab中的princomp命令实现。具体程序如下X= 0.7883 0 .7391 0.8111 0.6587 0.6543 0.8259 0.8486 0.6834 0
20、.8495 0.7846 0.7633 0.7287 0.7629 0.8552 0.7564 0.7455 0.7800 0.9490 0.8918 0.8954 0.4745 0.5126 0.8810 0.8903 0.8288 0.7850 0.8032 0.8862 0.3987 0.3970 0.8246 0.7603 0.6888 0.8977 0.7926 0.7856 0.6509 0.8902 0.6799 0.9877 0.8791 0.8736 0.8183 0.9446 0.9202 0.9263 0.9185 0.9505 0.8620 0.8873 0.9538
21、0.9257 0.9285 0.9434 0.9154 0.8871 0.9357 0.8760 0.9579 0.9741 0.8785 0.8542 0.8537 0.9027 0.8729 0.8485 0.8473 0.9044 0.8866 0.9035 0.6305 0.6187 0.6313 0.7415 0.6398 0.6142 0.5734 0.8980 0.6186 0.7382 0.8928 0.7831 0.5608 0.8419 0.8464 0.7616 0.8234 0.6384 0.9604 0.8514;采用PP管及配件:根据给水设计图配置好PP管及配件,用
22、管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物这样,前三个主成分为 第一主成分贡献率为43.12,第二主成分贡献率为29.34,第三主成分贡献率为11.97,前三个主成分累计贡献率达84.24。 如果按80 以上的信息量选取新因子,则可以选取前三个新因子。第一新因子z1 包含的信息量最大为43.12,它的主要代表变量为X8(城市文明)、X7(生产效率)、X4 (城市绿化),其权重系数分别为0.4815、0.4236、0.4048
23、,反映了这三个变量与生态环境水平密切相关,第二新因子Z2采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物 包含的信息量次之为29.34,它的主要代表变量为X3(地理结构)、X6(资源配置)、X9 (可持续性),其权重系数分别为0.5299、0.5273、0.4589,第三新因子 Z3包含的信息量为11.97,代表总量为 X9(可持续性)、 X5(物质还原),权重系数分别为0.5933、0.5664。这些代表变量反映了各自对该新因子作用的大小,它们是生态环境系统中最重要的影响因素。 根据前三个主成分得分,用其贡
24、献率加权,即得十个城市各自的总得分 根据总得分排序,结果见表1。采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物n2.主成分回归 考察进口总额Y与三个自变量:国内总产值x1,存储量x2,总消费量x3之间的关系,现收集数据如下,试用主成分回归分析方法求进口总额与总产值、存储量和总消费量的定量关系式.序号 x1 x2 x3 Y1234567891011149.3161.2171.5175.5180.8190.7202.1212.4226.1231.9239.04.24.13.13.11.12.22.15.65.0
25、5.10.7108.1114.8123.2126.9132.1137.7146.0154.1162.3164.3167.615.916.419.019.118.820.422.726.528.127.626.3采用PP管及配件:根据给水设计图配置好PP管及配件,用管件在管材垂直角切断管材,边剪边旋转,以保证切口面的圆度,保持熔接部位干净无污物 n分析:本题目可先尝试一般的线性回归模型,但拟合的效果一般,故可尝试主成分回归分析方法n解:首先对各个变量数据进行标准化处理,其次,其次, 建立指标之间的相关系数阵并求出建立指标之间的相关系数阵并求出相关阵的特征值分别为:相关阵的特征值分别为: 前前2个主成分的累计贡献率在个主成分的累计贡献率在99%以上,故取以上,故取2个主成分(个主成分( 表示表示xi的标准化变量):的标准化变量): 由主成分回归得到的标准化回归方程为由主成分回归得到的标准化回归方程为用原变量表示的回归方程用原变量表示的回归方程 1231.999,0.998,0.003*ix*1123*21230.70630.04350.7065,0.03570.99900.0258ZxxxZxxx *12*1230.689980.19130.48040.22110.4825YZZxxx1239.1300.07270.60910.1062Yxxx