数学模型讲座主成分分析.ppt

上传人:wuy****n92 文档编号:73405578 上传时间:2023-02-18 格式:PPT 页数:32 大小:256.50KB
返回 下载 相关 举报
数学模型讲座主成分分析.ppt_第1页
第1页 / 共32页
数学模型讲座主成分分析.ppt_第2页
第2页 / 共32页
点击查看更多>>
资源描述

《数学模型讲座主成分分析.ppt》由会员分享,可在线阅读,更多相关《数学模型讲座主成分分析.ppt(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、主成分分析Principal Components Analysis武汉理工大学统计学系 唐湘晋1 1.概概 述述 多元问题的复杂性指标(变量)多,指标间存在相关性。问题能否构造出一些综合指标使满足如下条件 指标个数尽可能少,指标间相互独立,尽可能多地包含原指标所含的关于总体的信息。1 主成分分析的原理2 例如做一件上衣要测量的指标有身长、袖长、胸围、腰围、肩宽、肩厚等等十几项指标。某服装厂生产一批新型服装,需将十几项指标综合为3项指标(分别反应长度、胖瘦、特体),用作分类的型号。又如商业经济 多项指标-物价、生活费用、商业活动指数。1.概概 述述3 主成分分析主成分分析是将原来众多具有相关性

2、的指众多具有相关性的指标标化为少数几个相互独立的综合指标少数几个相互独立的综合指标的一种统计方法。1.概概 述述4原始数据矩阵p 维空间n 个点研究n 个点的关系,难!降维,近似在低维空间表达。2.直直 观观 想想 法法5 如果椭圆很扁,则在 y 的坐标系中,样本点的第一个坐标y1 就代表了这些点的分布情况。例如,二元总体,正态分布。2.直直 观观 想想 法法6设p 维随机变量 的数学期望为0,x的主成分主成分指的是综合变量 ,它满足如下条件 ,其中 是正交矩阵。即(1)3.主成分问题的数学提法主成分问题的数学提法7 在形如(1)的线性变换中,y1 具有最大的方差;y1 与y2 相互独立,且在

3、与y1 相互独立的线性变换中y2 具有最大的方差;y3 与y1 和y2 相互独立,且在与y1 和 y2 相互独立的线性变换中,y3具有最大的方差;如此类推。分别叫做x的y1,y2,yp第一、第二、第p 主成分。3.主成分问题的数学提法主成分问题的数学提法8 设 是x 的主成分,它们的方差分别为 ,由于问题 x 的主成分是否存在?即能够使成立的正交矩阵 是否存在?问题解决思路假设主成分存在,看一下U应满足什么的条件,能否按照这个条件把U求出来。相互独立,所以又因为3.主成分问题的数学提法主成分问题的数学提法9所以即 或 。若记则有即是对应的单位特征向量。是 的特征值,说明求法,最大方差性质。3.

4、主成分问题的数学提法主成分问题的数学提法10定理定理:设p 维随机变量 的数学期望为0,且协方差阵为 ,它的特征值为 为相应的单位特征向量,则x 第 i 主成分为3.主成分问题的数学提法主成分问题的数学提法11说明说明1求主成分关键是要从协方差矩阵 求出正交变换矩阵 。说明说明2若已经求出主成分 ,则原来的p 个指标 就可以转化为用p 个新的指标 (即主成分)来表达。这p 个新的指标是相互独立的,这给问题的分析带来了很大的方便。3.主成分问题的数学提法主成分问题的数学提法12说明说明3新的指标 的方差分别为 ,如果某一个 很小,总体分布在 这个方向上分散程度很小,这个分量所起作用不大,因而可以

5、忽略不考虑。将这些分量去掉,就可以降低维数,给分析问题带来更大的方便。3.主成分问题的数学提法主成分问题的数学提法13 实际问题中总体协方差矩阵 是未知的,只能用样本协方差矩阵 去估计。因此实用中,从样本协方差矩阵 出发,求 一个正交矩阵 ,将 变成对角矩阵 ,即 4.样本主成分样本主成分14样本主成分-由 出发求出的主成分。样本点 的主成分坐标为注注 样本数据要求是中心化的数据样本数据要求是中心化的数据。4.样本主成分样本主成分15 是样本点在第j 个主成分方向上的方差,它代表样本点在这个主成分方向上的分散程度。若 很小,这个主成分可忽略不记。问题 小到什么程度才算小呢?第j个主成分的贡献率

6、5.贡献率贡献率16主成分舍弃原则主成分舍弃原则前 m 个主成分的累计贡献率 接近于1(80%或85%),则可将余下的p-m个主成分舍去。贡献率的计算小结小结 可设计m个互不相关的综合指标:总方差5.贡献率贡献率177.因子负荷量因子负荷量 因子负荷量因子负荷量称主成分yk与原始变量xi的相关系数 为第j 因子 在第 个主分量 上的因子负荷量。因子负荷量的样本估计值18因子负荷量的性质注在解释主成分的实际意义时有一定参考价值。7.因子负荷量因子负荷量198.R 分析分析 从原始数据阵X出发求主成分的缺点结果与测量单位有关。R分析从标准化数据阵 出发求主成分。用 代替 求正交矩阵 。第j个主成分

7、的贡献率因子负荷量的样本估计值202 主成分分析的计算步骤与应用主成分分析的计算步骤与应用1.计算步骤(R分析)列出观测资料矩阵X,计算样本相关矩阵R,计算R的特征值和特征向量-求正交变换,计算贡献率及累计贡献率,确定主成分个数,建立主成分方程,解释各主成分的意义,计算各样本的主成分坐标y,计算负荷量表。212.MatLab计算工具计算工具 原始数据矩阵中,每列对应一个变量。样本特征数的计算工具平均值:mean()方差:var()标准差:std()协方差矩阵:cov()相关系数矩阵:corrcoef()主成分计算工具pcacov()调用方法pc=pcacov(X)pc,latent,expla

8、ined=pcacov(X)为原始数据的协方差或相关系数矩阵,pc为由特征向量组成的矩阵,即 ,latent为特征值,explained为因子贡献率。22样本号 叶长 2/3处宽 1/3处宽 1/2处宽(No.)x1 x2x3x41108 95118110290 951171103130 951401254114 851131085113 871211106120 90122114787 679788894 6688869115 841181061090 751039611117 60847612134 731049213150 731109614140 64958715126 7596901

9、6118 43595217136 55897518145 63978419161 641129420155 60100833.计算实例计算实例 作为研究杨树形状的一部分,测定20片杨树叶,每个叶片测定4个变量,变量名称及测量值如右表。试求表示叶片长和宽的主分量。原始数据文件 leaf.txt23 由数据文件建立数据矩阵 load(leaf.txt)基本统计量的计算平均值 mean=mean(X)方差 Xvar=var(X)标准差 Xstd=std(X)协方差矩阵 Sx=cov(X)相关系数矩阵 R=corrcoef(X)R-分析求主成分pc,latent,explained=pcacov(R)

10、(验证U=pc;U*R*U 为对角矩阵,对角线为特征值)24特征向量及特征根表特征向量及特征根表 叶长 0.1485 -0.9544 0.2515 -0.0614 2/3处宽-0.5735 0.0984 0.7734 0.2514 1/3处宽-0.5577 -0.2695 -0.5585 0.5517 1/2处宽-0.5814 -0.0824 -0.1629 -0.7929 特征根 2.9200 1.0237 0.0489 0.0074 贡献率 72.9996 25.5919 1.2230 0.1856 累积贡献率 72.9996 98.5915 99.8145 100.00第一主成分 “叶宽

11、”综合因子第二主成分 “叶长”综合因子第三主成分 “逐渐变尖”综合因子(符号相反、对比度)第四主成分 “尖翘程度”综合因子(两端与中间对比)25说明说明1:单位特征向量可以相差一个正负号,如atlab的计算结果中第二主成分对应的特征向量与书中结果相差一个负号。说明说明2:前两个主成分的累积贡献率为98.6%,因此决定选取两个主成分。建立主成分方程建立主成分方程 主成分方程的推导记则26用MatLab求解A、BC=diag(ones(size(Xstd)./Xstd)A=U*CB=-U*C*XmeanA=0.0068 -0.0390 -0.0319 -0.0348 -0.0435 0.0067

12、-0.0154 -0.0049 0.0115 0.0526 -0.0319 -0.0097 -0.0028 0.0171 0.0315 -0.0474B=8.6265 6.8864 -1.0184 0.2634主成分方程为主成分方程27 解释各主成分意义解释各主成分意义第一主成分 “叶宽”综合因子第二主成分 “叶长”综合因子(第三、四主成分可忽略,不解释。)第三主成分 “逐渐变尖”综合因子(符号相反、对比度)第四主成分 “尖翘程度”综合因子(两端与中间对比)第三、四主成分是表示叶形的综合因子,贡献很小,说明形状差异很小。28 计算各样本的主成分坐标用MatLab计算Y=A*X+diag(B)*

13、ones(size(X)Y做样本排序图 plot(Y(:,1),Y(:,2),c*)29 计算因子负荷量计算因子负荷量用MatLab计算 lamd=diag(latent)Ryx=lamd(1/2)*URyx=0.2538 -0.9800 -0.9530 -0.9935 -0.9656 0.0996 -0.2727 -0.0833 0.0556 0.1711 -0.1235 -0.0360 -0.0053 0.0217 0.0475 -0.0683 因子负荷表 0.2538 -0.9656 -0.9800 0.0996 -0.9530 -0.2727 -0.9935 -0.0833304.注释 R-分析和从原始数据阵X出发求主成分结果一般不同。R或Sx的特征根相差越大,主成分分析的效率越高。若所有特征值都很接近,则主成分分析无价值。关于总体分布的假设。主成分分析的广泛应用。(简化数据结构、寻找综合因子、样本排序和分类、利用综合因子对系统进行评价等等。也是进一步研究的基础。)31应用应用解释:自然、心理、社会现象、经济 (考试)综合评价:企业分类:(企业30指标)规模效益32

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁