《最新引言课件PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新引言课件PPT课件.ppt(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、引言课件引言课件10.3 数据的标准化处理数据的标准化处理(一)一)“中心化中心化”处理处理平移变换平移变换 性质性质:不改变样本点集合中点与点的相互位置;PACPAC算法推导:算法推导:不妨设变量不妨设变量 都是中心化的,都是中心化的,求第主成分求第主成分经过旋转变换得到的,是的线性组合经过旋转变换得到的,是的线性组合因此因此 是矩阵是矩阵 的特征向量,的特征向量,对应的特征值是对应的特征值是 三三.PCA的计算方法的计算方法(一般情况下)(一般情况下)(1)数据的标准化 为方便起见,仍记 。(2)计算标准化数据表 的协方差矩阵V。(3)求V的前m个特征值12m0,以及对应的特征向量:u1,
2、u2,,um(主轴)它们是标准正交的:(4)在 uh主轴上,ei 的投影坐标是yh(i)第第h主成分为:主成分为:yh是原变量是原变量x1,xP的线性组合,组合系数为的线性组合,组合系数为uh(1),uh(p)四、主成分的统计特征四、主成分的统计特征 第h主成分 yh 的均值为的均值为0。yh的方差等于的方差等于 h。yj与与yk 的协方差等于的协方差等于0:总结:总结:PCA算法的输入与输出算法的输入与输出 12m Var(y1),Var(y2),,Var(ym)u1,u2,umRP(主轴)y1,y2,ymRn(主成分)n个样本点,p个变量n个样本点,m个变量 总结:总结:经过主成分分析,1
3、0.5 PCA的辅助分析技术的辅助分析技术 一一.怎样选取精度合适的主超平面怎样选取精度合适的主超平面 1.m维主超平面的精度测量维主超平面的精度测量 主成分分析前,Xnp数据中的全部变异信息:主成分分析后保留的数据变差:Var(y1)=1,Var(y2)=2,Var(ym)=m标准化 形象地看:方差:注意:所以,定义“累计贡献率累计贡献率”:标准化 2.、如何选取合适精度的如何选取合适精度的u1,um 。根据累计贡献率可以确定所要选取的成分的个数。(2)若希望Qm在80%左右,应选取 3 个主成分。一些科技问题的累计贡献率要求在90%以上。但对复杂的社会科学、行为科学或经济学中的数据,能达到
4、60%也可以考虑。例例.管理期刊评价管理期刊评价二二.主成分的命名主成分的命名 主成分y1,ym 是原变量x1,,xp 的线性组合。原变量x1,,xp 都有明确的物理含意。问题:问题:y1,ym的物理含意是什么?的物理含意是什么?1.1.作用:作用:指出影响系统结构的主要因素和主要特征。例 :分析各阶层人员生活状态 发展中国家:y1食品,y2穿着 发达国家:y1住宅,y2旅游 以此可以划分不同社会阶层的生活档次。(在这个方向,人们的生活水平差距最大)例:中国城市经济分析:1984:y1综合水平,y2工农业投入国家。1988:y1综合水平,y2外贸,科技。中国改革开放以来,由于开放程度不同,使中
5、国各地区经济水平差距逐渐拉大。所以,加大开放力度,发展高科技产业是城市发展的重要工作方面。2.2.方法:方法:专业知识专业知识 +数学手段数学手段 数学手段:数学手段:研究 yh与 x1,,xp 的相关关系。对于标准化数据可以证明:所以:第一个主轴:由此可见,仅差一个常量倍 :是 y1与 x1,,xp 的相关系数。因此,可以通过观察因此,可以通过观察 来确定来确定y1的含意。的含意。例例.管理期刊分类评估管理期刊分类评估(2 2)相关圆图()相关圆图(Component Plot)Component Plot)若 m=2y1y2xjComponent Plot三三.判断判断“特异点特异点”(e
6、 ek)“特异点特异点”:在PCA中,若有ek远离数据分布的平均水平,可以用“点对主成分方差的贡献”来测量。如:则定义“ei 对Var(y1)的贡献”为:一般地,定义“ei 对对Var(yh)的贡献的贡献”CTRh(i):CTR(i)过大解原因:(1)数据本身的特异性(BJ,SH,GZ,SZ,TJ)(2)数据统计上的错误 处处理理方方法法:除去这些特异点,可以提高分析精度,图示也更加清楚。四四.主平面图主平面图 PCA将一个高维变量系统有效的降至将一个高维变量系统有效的降至 1 维维 例例1:Kendall 英 评估英国各地区农业生产水平。48个郡,10种农作物:小麦(x1)、大麦(x2)、燕
7、麦(x3)、土豆(x4)、菜豆(x5)、马铃薯(x6)、萝卜(x7)、饲料甜菜(x8)、临时牧场干草(x9)、永久牧场干草(x10)。(精度:47.6%)Y1=0.39 x1+0.37 x2+0.39 x3+0.27 x4+0.22 x5 +0.30 x6+0.32 x7+0.26 x8+0.24 x9+0.34 x10第一主成分y1与 x1,,x10 均正相关。所以y1称为“水平水平因子因子”,可用于评估排序。即:某个样本点在y1上取值很大时,它在x1,,x10取值都会很大。10.6 利用主成分分析构造评估函数利用主成分分析构造评估函数1 1、“主成分主成分”是否等同于是否等同于“主要因素主
8、要因素”?例如:利用主成分分析构造评估函数例如:利用主成分分析构造评估函数(1)样本点:n个有关专家(2)变量:p个评估指标 问题:问题:用第一主成分构造的评估指标完全不符合人们对实际情 况的认识。原因:原因:第一主成分对应数据方差最大的方向,第一主成分对应数据方差最大的方向,这是专家意见分歧最大的方向!这是专家意见分歧最大的方向!2 2、y y2 2 一般不可以用于评估!一般不可以用于评估!应用中要注意的问题:应用中要注意的问题:例如:并不说明:沈阳(SY)的外贸比拉萨(LS)差。10.7 10.7 时序立体数据表分析时序立体数据表分析平面数据表主成分分析:平面数据表主成分分析:时序立体数据
9、表主成分分析:时序立体数据表主成分分析:PCA时序立体数据表主成分分析方法时序立体数据表主成分分析方法 :X1X2XTY1Y2YTPCA0y2y1时序立体数据表分析内容时序立体数据表分析内容 1.主轴随时间的变化主轴随时间的变化 2.总体水平的运动轨迹总体水平的运动轨迹 3.类的生成与变化规律类的生成与变化规律 4.类轨迹的比较分析类轨迹的比较分析 5.评估排序的比较研究评估排序的比较研究 6.群点运动预测模型群点运动预测模型19851988,中国城市的国民生产总值平均年增长率为10.7%。1989年国民生产总值比上年增长4%。10.8 10.8 因素分析因素分析 Varimax旋转旋转0y1
10、y2x1x2x8x5x6x7x4x3学生代码数学物理化学语文历史英语1656172848179277777664705536763496567574806975747463574708084817467884756271647667167526557877715772867198310079416750例例10.1这里有100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(只展示了部分,数据在student.sav)。对学生成绩的数据进行主成分分析,得到下面的SPSS输出:主成分分析的结果主成分分析的结果从SPSS的输出,得到用成分 f1和 f2与原来变量的相关系数 因子分析的结果(因
11、子分析的结果(Varimax旋转后)旋转后)从SPSS的输出,得到因子f1和 f2与原来变量的相关系数10.9 主成分回归主成分回归(讲座一讲座一)由于:主成分主成分 f1,fm 是线性无关的变量是线性无关的变量做因变量 y 关于f1,fm 的回归模型:问题:有时主成分问题:有时主成分 f1,fm 对对 y 的解释性很差的解释性很差原因:关于名称的思维定势原因:关于名称的思维定势建议的建议的PCA回归方法回归方法采用OLS中的变量筛选方法,做因变量 y 关于f1,fp 的回归模型.特点:可在变量严重多重相关的条件下回归建模;在模型中可以包含原有的所有变量。10.10 偏最小二乘回归(偏最小二乘
12、回归(PLS)(讲座二讲座二)u1t1求回归模型:分别用 Y1、X1 取代 Y、X,然后求第二个PLS成分。PLS回归模型的主要特点回归模型的主要特点1、多因变量对多自变量的回归模型2、可以在变量严重多重相关的条件下进行回归建模;3、可以在样本点个数少于变量的条件下进行回归建模;4、PLS回归模型中将包含原有的所有变量。5、提取的成分一般比PCA少(问题:(问题:PCA回归与回归与PLS回归都依然受多重共线性影响)回归都依然受多重共线性影响)6、PLS回归实现了预测分析与数据认识性分析回归实现了预测分析与数据认识性分析的有机结合的有机结合PLSPLS回归回归主成分分析主成分分析(高维空间的降维
13、处理)(高维空间的降维处理)典型相关分析典型相关分析(两组变量之间的相关关系)(两组变量之间的相关关系)回归建模(预测)回归建模(预测)YXu1 u2ust1,t2ts应用软件:应用软件:SIMCA-P免耕法在我国沙尘暴的防治中的作用免耕法在我国沙尘暴的防治中的作用最新研究表明,我国沙尘暴的沙尘来源并非沙漠。据调查,影最新研究表明,我国沙尘暴的沙尘来源并非沙漠。据调查,影响京津地区的沙尘暴,响京津地区的沙尘暴,70左右的沙源就来自于内蒙古、山西、左右的沙源就来自于内蒙古、山西、河北以及京津周边干旱裸露的农田。因此,为了有效地防治沙河北以及京津周边干旱裸露的农田。因此,为了有效地防治沙尘暴,对农
14、田的风蚀进行研究就显得十分重要。研究人员在我尘暴,对农田的风蚀进行研究就显得十分重要。研究人员在我国内蒙古的一些地区,对施行传统耕作、草地条件、沙地和施国内蒙古的一些地区,对施行传统耕作、草地条件、沙地和施行免耕法的农田进行实地考察。通过建立偏最小二乘模型,发行免耕法的农田进行实地考察。通过建立偏最小二乘模型,发现关键因素,为防止农田沙化、降低风蚀提供理论依据。现关键因素,为防止农田沙化、降低风蚀提供理论依据。北京北京春天季风春天季风北京的海拔低于丰宁北京的海拔低于丰宁丰宁丰宁数据:各数据:各样农样农田土壤田土壤风蚀风蚀量与影响因素量与影响因素序号风蚀量 Y土壤含水量土壤颗粒直径地表覆盖率沙地
15、传统耕作农田退化草地免耕法农田111.67383.62270.650612.41000213.81163.62270.650612.41000315.26003.62270.650612.41000412.15963.62270.650612.4100056.02106.29090.266013.8010068.59806.29090.266013.80100710.39526.29090.266013.8010087.33086.29090.266013.8010093.689010.21000.336645.40010105.338610.21000.336645.40010115.970
16、610.21000.336645.40010124.893410.21000.336645.40010132.76808.88270.338658.50001144.16748.88270.338658.50001154.35728.88270.338658.50001164.11108.88270.338658.50001土壤含水量 土壤颗粒直径地表覆盖率 沙地传统耕作农田 退化草地 免耕法农田土壤含水量 1土壤颗粒直径-0.71101地表覆盖率 0.84990-0.41601沙地-0.82970.98049-0.58161传统耕作农田-0.2196-0.5120-0.5412-0.3333
17、1退化草地 0.6764-0.23800.37212-0.3333-0.33331免耕法农田0.37294-0.23030.75074-0.3333-0.3333-0.33331自变量的相关系数矩阵自变量的相关系数矩阵PLS回归模型回归模型 平面图平面图 u 风蚀量与土壤颗粒直径高度正相关;与土壤含水量、地表覆盖率高度风蚀量与土壤颗粒直径高度正相关;与土壤含水量、地表覆盖率高度负相关。负相关。u从不同类型的农田来看,风蚀量与与免耕法农田的负相关程度最大,从不同类型的农田来看,风蚀量与与免耕法农田的负相关程度最大,说明了施行免耕法农田相对与其他农田类型对于保护土壤风蚀有着更说明了施行免耕法农田相
18、对与其他农田类型对于保护土壤风蚀有着更好的效果。好的效果。拟合效果:观测值与拟合值曲线图拟合效果:观测值与拟合值曲线图 施行免耕法的农田是风蚀程度最低的农田类型。采用该方法耕施行免耕法的农田是风蚀程度最低的农田类型。采用该方法耕作的农田具有很高的农作物残茬覆盖率,能有效地避免农田沙作的农田具有很高的农作物残茬覆盖率,能有效地避免农田沙化和防止水土流失。因此,免耕法在北京和我国沙尘暴防治中化和防止水土流失。因此,免耕法在北京和我国沙尘暴防治中是十分值得推广的,而在农业生产中,也同样具有很强的现实是十分值得推广的,而在农业生产中,也同样具有很强的现实意义。意义。PCA作业1、管理期刊遴选2、中国股市特征PCA