模式识别主成分分析和变换.ppt

上传人:石*** 文档编号:50436354 上传时间:2022-10-15 格式:PPT 页数:67 大小:6.01MB
返回 下载 相关 举报
模式识别主成分分析和变换.ppt_第1页
第1页 / 共67页
模式识别主成分分析和变换.ppt_第2页
第2页 / 共67页
点击查看更多>>
资源描述

《模式识别主成分分析和变换.ppt》由会员分享,可在线阅读,更多相关《模式识别主成分分析和变换.ppt(67页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、模式识别主成分分析和变换现在学习的是第1页,共67页KL 坐标系的产生矩阵现在学习的是第2页,共67页K-L变换特征提取思想用映射(或变换)的方法把原始特征变换为较少的新特征降维主成分分析(PCA)基本思想进行特征降维变换,不能完全地表示原有的对象,能量总会有损失。希望找到一种能量最为集中的的变换方法使损失最小现在学习的是第3页,共67页K-L变换原始输入:x变换后特征:y变换矩阵(线性变换):A则:y=ATx现在学习的是第4页,共67页K-L变换思考:希望特征之间关联性尽可能小变换后的相关矩阵:RyEyyT =EATxxTA =ATRxA我们是不是希望Ry是个对角矩阵?如何选择A?现在学习的

2、是第5页,共67页K-L变换考虑以Rx的特征向量作为A的列,则Ry=ATRxA =a1,a2an TRx a1,a2an =a1,a2an T 1a1,2a2nan =为对角矩阵,对角线元素为 1,2n达到变换后特征不相关的目的以上为K-L变换现在学习的是第6页,共67页K-L变换思考K-L变换性质:如果降维,有什么结果原有N维,只保留m维,即去掉ym+1yN希望:和原来的表示方法差别最小即:E|x-x|2 最小x表示y1ym在原空间中对应的表示方法现在学习的是第7页,共67页K-L变换现在学习的是第8页,共67页K-L变换结论如果对特征向量排序,舍弃最小的特征,则损失的能量最小现在学习的是第

3、9页,共67页K-L变换典型应用典型应用1降维与压缩 对一幅人脸图象,如果它由M行与N到象素组成,则原始的特征空间维数就应为MN。而如果在K-L变换以及只用到30个基,那么维数就降至30,由此可见降维的效果是极其明显的。譬如原训练样本集的数量为V,而现采用30个基,数据量是大大降低 现在学习的是第10页,共67页K-L变换典型应用典型应用3人脸识别首先搜集要识别的人的人脸图象,建立人脸图象库,然后利用K-L变换确定相应的人脸基图象,再反过来用这些基图象对人脸图象库中的有人脸图象进行K-L变换 在识别时,先对一张所输入的脸图象进行必要的规范化,再进行K-L变换分析,得到其参数向量。现在学习的是第

4、11页,共67页K-L变换典型应用典型应用4人脸图象合成现在学习的是第12页,共67页使用K-L变换进行特征提取现在学习的是第13页,共67页现在学习的是第14页,共67页题目:主成分分析 PCA路志宏Lu_Principal Component Analysis现在学习的是第15页,共67页内 容u 一、前一、前 言言u 二、问题的提出二、问题的提出u 三、主成分分析三、主成分分析1.二维数据的例子二维数据的例子 2.PCA的几何意义的几何意义3.均值和协方差、均值和协方差、特征值和特征向量特征值和特征向量4.PCA的性质的性质 u 四、主成分分析的算法四、主成分分析的算法u 五、具体实例五

5、、具体实例 实例实例2u 六、六、结论结论七、七、练习练习现在学习的是第16页,共67页1.前前 言言假定你是一个公司的财务经理,掌握了公司的所有数假定你是一个公司的财务经理,掌握了公司的所有数据,比如据,比如固定资产、流动资金、每一笔借贷的数额和固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等折旧、职工人数、职工的分工和教育程度等等。如果让你介绍公司状况,你能够把这些指标和数字如果让你介绍公司状况,你能够把这些指标和数字都都原封不动地摆出去吗原封不动地摆出去吗?当然不

6、能当然不能。实例实例1 实例实例2你必须要把各个方面作出你必须要把各个方面作出高度概括高度概括,用一两个指标用一两个指标简单明了地把情况说清楚。简单明了地把情况说清楚。l汇报什么?汇报什么?现在学习的是第17页,共67页PCA多变量问题是经常会遇到的。多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度变量太多,无疑会增加分析问题的难度与复杂性与复杂性.在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,能否在各个变量之间相关关系研究的基础上,用能否在各个变量之间相关关系研究的基础上,用较少的新变量代替较少的新变量代替

7、原来较多的变量原来较多的变量,而且使这些较少的新变量,而且使这些较少的新变量尽可能多地保留原来较尽可能多地保留原来较多的变量所反映的信息多的变量所反映的信息?事实上,这种想法是可以实现的?事实上,这种想法是可以实现的.主成分分析原理主成分分析原理:是把原来多个变量化为少数几个综合指标的一种是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。统计分析方法,从数学角度来看,这是一种降维处理技术。主成分分析方法就是综合处理这种问题的一种强有力的方法。主成分分析方法就是综合处理这种问题的一种强有力的方法。现在学习的是第18页,共67页(1)如何作主成分分析如何

8、作主成分分析?当当分分析析中中所所选选择择的的变变量量具具有有不不同同的的量量纲纲,变变量量水水平平差差异异很很大大,应应该该选选择择基基于于相相关关系系数数矩矩阵阵的主成分分析。的主成分分析。在在力力求求数数据据信信息息丢丢失失最最少少的的原原则则下下,对对高高维维的的变变量量空空间间降降维维,即即研研究究指指标标体体系系的的少少数数几几个个线线性性组组合合,并并且且这这几几个个线线性性组组合合所所构构成成的的综综合合指指标标将将尽尽可可能能多多地地保保留留原原来来指指标标变变异异方方面面的的信信息息。这这些些综综合合指指标标就就称称为为主成分。主成分。要讨论的问题是:要讨论的问题是:2.问

9、题的提出问题的提出现在学习的是第19页,共67页各个变量之间差异很大各个变量之间差异很大现在学习的是第20页,共67页 (2)如何选择几个主成分。如何选择几个主成分。主主成成分分分分析析的的目目的的是是简简化化变变量量,一一般般情情况况下下主主成成分分的的个个数数应应该该小小于于原原始始变变量量的的个个数数。关关于于保保留留几几个个主主成成分分,应应该该权权衡衡主主成成分分个个数数和保留的信息。和保留的信息。(3)如如何何解解释释主主成成分分所所包包含含的的几几何何意意义义或经济意义或其它。或经济意义或其它。现在学习的是第21页,共67页 美美国国的的统统计计学学家家斯斯通通(Stone)(S

10、tone)在在19471947年年关关于于国国民民经经济济的的研研究究是是一一项项十十分分著著名名的的工工作作。他他曾曾利利用用美美国国19291929一一19381938年年各各年年的的数数据据,得得到到了了1717个个反反映映国国民民收收入入与与支支出出的的变变量量要要素素,例例如如雇雇主主补补贴贴、消消费费资资料料和和生生产产资资料料、纯纯公公共共支支出出、净净增库存、股息、利息、外贸平衡等等。增库存、股息、利息、外贸平衡等等。l在进行主成分分析后,竟以在进行主成分分析后,竟以97.4的精度,用三的精度,用三个新变量就取代了原个新变量就取代了原17个变量。个变量。实例实例1:经济分析经济

11、分析现在学习的是第22页,共67页 根根据据经经济济学学知知识识,斯斯通通给给这这三三个个新新变变量量分分别别命命名名为为总总收收入入F1、总总收收入入变变化化率率F2和和经经济济发发展展或或衰衰退退的的趋趋势势F3。更更有有意意思思的的是是,这三个变量其实都是可以直接测量的。这三个变量其实都是可以直接测量的。现在学习的是第23页,共67页 主主成成分分分分析析就就是是试试图图在在力力保保数数据据信信息息丢丢失失最最少少的的原原则则下下,对对这这种种多多变变量量的的数数据据表表进进行行最最佳佳综综合合简简化化,也也就就是是说说,对对高高维维变变量量空空间间进行降维处理。进行降维处理。很很显显然

12、然,识识辨辨系系统统在在一一个个低低维维空空间间要要比比在一个高维空间容易得多。在一个高维空间容易得多。现在学习的是第24页,共67页实例实例2:成绩数据成绩数据100个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史史、英英语的成绩如下表(部分)。语的成绩如下表(部分)。现在学习的是第25页,共67页从本例可能提出的问题从本例可能提出的问题目目前前的的问问题题是是,能能不不能能把把这这个个数数据据的的6个变量用一两个综合变量来表示个变量用一两个综合变量来表示呢?呢?这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的的信信息息呢?呢?能能不不能能利利用用找找到到的的综综

13、合合变变量量来来对对学学生生排排序序呢呢?这这一一类类数数据据所所涉涉及及的的问问题题可可以以推推广广到到对对企企业业,对对学学校校进进行行分分析析、排排序序、判别和分类等问题。判别和分类等问题。现在学习的是第26页,共67页例中的的数据点是六维的;也就是说,每个观测值是例中的的数据点是六维的;也就是说,每个观测值是6维空维空间中的一个点。间中的一个点。我们希望把我们希望把6维空间用低维空间表示。维空间用低维空间表示。3.1 PCA:二维数据分析二维数据分析现在学习的是第27页,共67页平均成绩73.769.861.372.577.272.36372.370单科平均成绩74.1747066.4

14、73.663.3现在学习的是第28页,共67页现在学习的是第29页,共67页 先先假假定定数数据据只只有有二二维维,即即只只有有两两个个变变量量,它它们们由由横横坐坐标标和和纵纵坐坐标标所所代代表表;因因此此每每个个观观测测值值都都有有相相应应于于这这两两个个坐坐标标轴轴的两个坐标值;的两个坐标值;如如果果这这些些数数据据形形成成一一个个椭椭圆圆形形状状的的点点阵阵(这这在在变变量量的的二二维维正正态态的的假假定定下下是是可可能能的)的).现在学习的是第30页,共67页3.2主主成成分分分分析析的的几几何何解解释释平移、旋转坐标轴现在学习的是第31页,共67页主成分分析的几何解释平移、旋转坐标

15、轴现在学习的是第32页,共67页主成分分析的几何解释平移、旋转坐标轴现在学习的是第33页,共67页主成分分析的几何解释平移、旋转坐标轴现在学习的是第34页,共67页3.2.PCA:进一步解释进一步解释 椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴。在在短短轴轴方方向向上上,数数据据变变化化很很少少;在在极极端端的的情情况况,短短轴轴如如果果退退化化成成一一点点,那那只只有有在在长长轴轴的的方方向向才才能能够够解解释释这这些些点点的的变变化化了了;这这样样,由由二二维维到到一一维维的的降降维维就就自自然然完完成成了。了。现在学习的是第35页,共67页二维数据二维数据现在学习的是第36页,共6

16、7页进一步解释进一步解释PCA当当坐坐标标轴轴和和椭椭圆圆的的长长短短轴轴平平行行,那那么么代代表表长长轴轴的的变变量量就就描描述述了了数数据据的的主主要要变变化化,而而代代表表短短轴轴的的变变量量就就描描述述了数据的次要变化。了数据的次要变化。但但是是,坐坐标标轴轴通通常常并并不不和和椭椭圆圆的的长长短短轴轴平平行行。因因此此,需需要要寻寻找找椭椭圆圆的的长长短短轴轴,并并进进行行变变换换,使使得得新新变变量量和椭圆的长短轴平行。和椭圆的长短轴平行。如如果果长长轴轴变变量量代代表表了了数数据据包包含含的的大大部部分分信信息息,就就用用该该变变量量代代替替原原先先的的两两个个变变量量(舍舍去去

17、次次要要的的一一维维),降维就完成了。降维就完成了。椭圆(球)的长短轴相差得越大,降维也越有道理。椭圆(球)的长短轴相差得越大,降维也越有道理。现在学习的是第37页,共67页进一步解释进一步解释PCA(续续)对对于于多多维维变变量量的的情情况况和和二二维维类类似似,也也有有高高维维的的椭椭球球,只只不不过过无无法法直直观观地地看看见罢了。见罢了。首首先先把把高高维维椭椭球球的的主主轴轴找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量;这这样样,主主成成分分分分析析就就基基本完成了。本完成了。注注意意,和和二二维维情情况况类类似似,高高维

18、维椭椭球球的的主主轴轴也也是是互互相相垂垂直直的的。这这些些互互相相正正交交的的新新变变量量是是原原先先变变量量的的线线性性组组合合,叫叫做主成分做主成分(principal component)。现在学习的是第38页,共67页正正如如二二维维椭椭圆圆有有两两个个主主轴轴,三三维维椭椭球球有有三三个个主主轴轴一一样样,有有几几个个变变量量,就就有有几几个个主成分。主成分。选选择择越越少少的的主主成成分分,降降维维就就越越好好。什什么么是是标标准准呢呢?那那就就是是这这些些被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴长长度度总总和和的的大大部部分分。有有些

19、些文文献献建建议议,所所选选的的主主轴轴总总长长度度占占所所有有主主轴轴长长度度之之和和的的大大约约85%即即可可,其其实实,这这只只是是一一个个大大体体的的说说法法;具具体体选选几几个,要看实际情况而定。个,要看实际情况而定。现在学习的是第39页,共67页3.3.均值和协方差均值和协方差 特征值和特征向量特征值和特征向量设有设有n个样本,每个样本观测个样本,每个样本观测p个指标(变量):个指标(变量):X1,X2,Xn,得到原始数据矩阵:得到原始数据矩阵:现在学习的是第40页,共67页1.样本均值样本均值显然显然,样本均值是数据散列图的样本均值是数据散列图的中心中心.于是于是 p*n 矩阵的

20、列矩阵的列B具有零样本均值具有零样本均值,称为平均偏差形式称为平均偏差形式M现在学习的是第41页,共67页2.样本协方差样本协方差 中心中心中心中心 协方差的大小在一定程度上反映了多变量之协方差的大小在一定程度上反映了多变量之间的关系,但它还受变量自身度量单位的影间的关系,但它还受变量自身度量单位的影响响.注意:协方差注意:协方差是对称矩阵且半正定是对称矩阵且半正定现在学习的是第42页,共67页3.3 特征值与特征向量特征值与特征向量定义定义定义定义为阶方阵,为阶方阵,为数,为数,为维非零向量,为维非零向量,若若则则称为称为的的特征值特征值,称为称为的的特征向量特征向量注注注注并不一定唯一;并

21、不一定唯一;阶方阵阶方阵的特征值,就是使齐次线性方程组的特征值,就是使齐次线性方程组特征向量特征向量,特征值问题只针对与方阵;,特征值问题只针对与方阵;有非零解的有非零解的值,即满足值,即满足的的都是都是方阵方阵的特征值的特征值定义定义定义定义称以称以为未知数的一元次方程为未知数的一元次方程为为的的特征方程特征方程现在学习的是第43页,共67页例例1:从一个总体中随机抽取从一个总体中随机抽取4个样本作三次测个样本作三次测量量,每一个样本的观测向量为每一个样本的观测向量为:计算样本均值计算样本均值M和协方差矩阵和协方差矩阵S以及以及S的的特征值和特征向量特征值和特征向量.现在学习的是第44页,共

22、67页Syntax C=cov(X)AlgorithmThe algorithm for cov is n,p=size(X);X=X-ones(n,1)*mean(X);Y=X*X/(n-1);See Also corrcoef,mean,std,var现在学习的是第45页,共67页平移、旋转坐标轴M现在学习的是第46页,共67页 为了方便,我们在二维空间中讨论主成分的几何意义。为了方便,我们在二维空间中讨论主成分的几何意义。设有设有n个样本,每个样本有两个观测变量个样本,每个样本有两个观测变量xl和和x2,在由变量,在由变量xl和和x2 所确定的二维平面中,所确定的二维平面中,n个样本点所

23、散布的情况如椭圆状个样本点所散布的情况如椭圆状。由。由图可以看出这图可以看出这n个样本点无论是沿着个样本点无论是沿着xl 轴方向或轴方向或x2轴方向都具轴方向都具有较大的离散性,其离散的程度可以分别用观测变量有较大的离散性,其离散的程度可以分别用观测变量xl 的方的方差和差和x2 的方差定量地表示。显然,如果只考虑的方差定量地表示。显然,如果只考虑xl和和x2 中的任何一中的任何一个,那么包含在原始数据中的信息将会有较大的损失。个,那么包含在原始数据中的信息将会有较大的损失。现在学习的是第47页,共67页 如果我们将如果我们将xl 轴和轴和x2轴先平移,再同时按轴先平移,再同时按逆时针方向旋转

24、逆时针方向旋转 角度,得到新坐标轴角度,得到新坐标轴Fl和和F2。Fl和和F2是两个新变量是两个新变量。现在学习的是第48页,共67页 Fl,F2除了可以对包含在除了可以对包含在Xl,X2中的信息起着浓缩作用中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。时避免了信息重叠所带来的虚假性。二维平面上的个点的二维平面上的个点的方差大部分都归结在方差大部分都归结在Fl轴上,而轴上,而F2轴上的方差很小。轴上的方差很小。Fl和和F2称为原始变量称为原始变量x1和和x2的综合变量。的综合变量。F简化了

25、系统结构,抓住了主要矛盾。简化了系统结构,抓住了主要矛盾。现在学习的是第49页,共67页稍事休息稍事休息现在学习的是第50页,共67页3.4 PCA3.4 PCA的性质的性质 一、两个线性代数的结论一、两个线性代数的结论 1、若A是p阶实对称阵,则一定可以找到正交阵U,使其中 是A A的特征根。现在学习的是第51页,共67页 2、若上述矩阵的特征根所对应的单位特征向量为 则实对称阵 属于不同特征根所对应的特征向量是正交的,即有令现在学习的是第52页,共67页 3.4 PCA的性质的性质(续续)3 3、均值、均值4 4、方差为所有特征根之和、方差为所有特征根之和 说说明明主主成成分分分分析析把把

26、P P个个随随机机变变量量的的总总方方差差分分解解成成为为P P个个不相关的随机变量的方差之和。不相关的随机变量的方差之和。协方差矩阵协方差矩阵 的的对角线上的元素之和等于特征根之和。对角线上的元素之和等于特征根之和。现在学习的是第53页,共67页 3.4 3.4、精度分析、精度分析 1)贡献率:第i个主成分的方差在全部方差中所占比重 ,称为贡献率,反映了原来P个指标多大的信息,有多大的综合能力。2)累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率。现在学习的是第54页,共67页PCA常用统计量:.特征根i .各成分贡献率.前各成分累

27、计贡献率.特征向量 各成分表达式中标准化原始变量的系数向量,就是各成分的特征向量。现在学习的是第55页,共67页 我我们们进进行行主主成成分分分分析析的的目目的的之之一一是是希希望望用用尽尽可可能能少少的的主主成成分分F F1 1,F F2 2,F Fk k(kpkp)代代替替原原来来的的P P个个指指标标。到到底底应应该该选选择择多多少少个个主主成成分分,在在实实际际工工作作中中,主主成成分分个个数数的的多多少少取取决决于于能能够够反反映映原原来来变变量量80%80%以以上上的的信信息息量量为为依依据据,即即当当累累积积贡贡献献率率80%80%时时的的主主成成分分的的个个数数就就足足够够了了

28、。最最常常见见的的情情况况是是主主成成分分为为2 2到到3 3个。个。现在学习的是第56页,共67页 例例 设 的协方差矩阵为 解得特征根为 ,第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽管第一个主成分的贡献率并不小,但应该取两个主成分。97.88%现在学习的是第57页,共67页4 4 主成分分析的步骤主成分分析的步骤 第 一 步:由X的 协 方 差 阵 x,求 出 其 特 征 根,即 解 方 程 ,可得特征根 。一、基于协方差矩阵现在学习的是第58页,共67页 第二步:求出分别所对应的特征向量U1,U2,Up,第三步:计算累积贡献率,给出恰当的主成分个

29、数。第四步:计算所选出的k个主成分的得分。将原始数据的中心化值:代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。现在学习的是第59页,共67页 例例 应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款项,包括应收销货款、其它应收款和向购货单位或接受劳务的单位收取的款项,包括应收销货款、其它应收款和应收票据等。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方应收票据等。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间

30、差,于是产生了应收款项。应收款赊销式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。应收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,此,评价顾客的信用等级,了解顾客的综合信用程度,做到评价顾客的信用等级,了解顾客的综合信用程度,做到“知己知己知彼,百战不殆知彼,百战不殆”,对加强企业的应收账款管理大有帮助,对加强企业的应收账款管理大有帮助。某企业为了了。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的解其客户的信用程度,采用西方银行信用评估常用的5C方法,方法,5C的目的目的是说明

31、顾客违约的可能性。的是说明顾客违约的可能性。5 PCA的应用的应用 现在学习的是第60页,共67页1、品品格格(用用X1表表示示),指指顾顾客客的的信信誉誉,履履行行偿偿还还义义务务的的可可能性。企业可以通过过去的付款记录得到此项。能性。企业可以通过过去的付款记录得到此项。2、能能力力(用用X2表表示示),指指顾顾客客的的偿偿还还能能力力。即即其其流流动动资资产产的的数数量量和和质质量量以以及及流流动动负负载载的的比比率率。顾顾客客的的流流动动资资产产越越多多,其其转转化化为为现现金金支支付付款款项项的的能能力力越越强强。同同时时,还还应应注注意意顾顾客客流流动动资资产产的的质质量量,看看其其

32、是是否否会会出出现现存存货货过过多多过过时质量下降,影响其变现能力和支付能力。时质量下降,影响其变现能力和支付能力。3、资资本本(用用X3表表示示),指指顾顾客客的的财财务务势势力力和和财财务务状状况况,表明顾客可能偿还债务的背景。表明顾客可能偿还债务的背景。4、附附带带的的担担保保品品(用用X4表表示示),指指借借款款人人以以容容易易出出售售的的资资产产做抵押。做抵押。5 5、环境条件(用环境条件(用X5表示),表示),指企业的外部因素,即指非指企业的外部因素,即指非企业本身能控制或操纵的因素。企业本身能控制或操纵的因素。现在学习的是第61页,共67页 首先并抽取了10家具有可比性的同类企业

33、作为样本,又请8位专家分别给10个企业的5个指标打分,然后分别计算企业5个指标的平均值,如表。76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9;现在学习的是第62页,共67页 Eigenvalues of the Covariance Matrix Eigenvalue Difference

34、 Proportion Cumulative PRIN1 410.506 367.242 0.845854 0.84585 PRIN2 43.264 22.594 0.089146 0.93500 PRIN3 20.670 12.599 0.042591 0.97759 PRIN4 8.071 5.266 0.016630 0.99422 PRIN5 2.805 0.0 0.005779 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.468814 -.830612 0.021406 0.254654 -.158081 X2 0.

35、484876 0.329916 0.014801 -.287720 -.757000 X3 0.472744 -.021174 -.412719 -.588582 0.509213 X4 0.461747 0.430904 -.240845 0.706283 0.210403 X5 0.329259 0.122930 0.878054 -.084286 0.313677现在学习的是第63页,共67页 第第 一一 主主 成成 份份 的的 贡贡 献献 率率 为为84.6%,第第 一一 主主 成成 份份 Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5 的的各各项

36、项系系数数大大致致相相等等,且且均均为为正正数数,说说明明第第一一主主成成份份是是对对所所有有指指标标的的一一个个综综合合测测度度,可可以以作作为为综综合合的的信信用用等等级级指指标标。可可以以用用来来排排序序。将将原原始始数数据据的的值值中中心心化化后后,代代入入第第一一主主成成份份Z1的的表表示示式式,计计算算各各企企业业的的得得分分,并并按按分值大小排序分值大小排序:在在正正确确评评估估了了顾顾客客的的信信用用等等级级后后,就就能能正正确确制制定定出出对对其其的的信信用期、收帐政策等,这对于加强应收帐款的管理大有帮助。用期、收帐政策等,这对于加强应收帐款的管理大有帮助。序号序号1 12

37、23 34 45 56 67 78 89 91010得分得分3.163.1613.613.6-9.01-9.0135.935.925.125.1-10.3-10.3-4.364.36-33.8-33.8-6.416.41-13.8-13.8排序排序4 43 37 71 12 28 85 510106 69 9现在学习的是第64页,共67页例例二二 基于相关系数矩阵的主成分分析。对美国纽约上市的有关化学产业的三个证券和石油产业的2个证券做了100周的收益率调查。下表是其相关系数矩阵。1)利用相关系数矩阵做主成分分析。2)决定要保留的主成分个数,并解释意义。10.5770.5090.00630.0

38、0370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231现在学习的是第65页,共67页 Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 2.85671 2.04755 0.571342 0.57134 PRIN2 0.80916 0.26949 0.161833 0.73317 PRIN3 0.53968 0.08818 0.107935 0.84111

39、 PRIN4 0.45150 0.10855 0.090300 0.93141 PRIN5 0.34295 0.0 0.068590 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.463605 -.240339 -.611705 0.386635 -.451262 X2 0.457108 -.509305 0.178189 0.206474 0.676223 X3 0.470176 -.260448 0.335056 -.662445 -.400007 X4 0.421459 0.525665 0.540763 0.472006

40、 -.175599 X5 0.421224 0.581970 -.435176 -.382439 0.385024现在学习的是第66页,共67页 根据主成分分析的定义及性质,我们已大体上能看出主成根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括起来说,主成分分析主要有以下几分分析的一些应用。概括起来说,主成分分析主要有以下几方面的应用。方面的应用。1主成分分析能降低所研究的数据空间的维数。主成分分析能降低所研究的数据空间的维数。即用研究即用研究m维的维的Y空间代替空间代替p维的维的X空间空间(mp),而低维的,而低维的Y空间代替空间代替 高维的高维的x空间所损失的信息很少。即:使只有空间所损失的信息很少。即:使只有一个主成分一个主成分Yl(即即 m1)时,这个时,这个Yl仍是使用全部仍是使用全部X变量变量(p个个)得到的。例如要计算得到的。例如要计算Yl的均值也得使用全部的均值也得使用全部x的均的均值。在所选的前值。在所选的前m个主成分中,如果某个个主成分中,如果某个Xi的系数全部的系数全部近似于零的话,就可以把这个近似于零的话,就可以把这个Xi删除,这也是一种删除删除,这也是一种删除多余变量的方法。多余变量的方法。66 主成分分析结论主成分分析结论现在学习的是第67页,共67页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁