《主分量分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《主分量分析ppt课件.ppt(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、主分量分析与核主分量分析主分量分析与核主分量分析第一节第一节 主分量分析主分量分析第二节第二节 核主分量分析核主分量分析为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益 第一节 主分量分析l概概 述述l主分量分析的基本原理主分量分析的基本原理 l主分量分析的计算步骤主分量分析的计算步骤 l主分量分析主要的作用主分量分析主要的作用l主分量分析方法应用实例主分量分析方法应用实例 许多系统是多要素的复杂系统,多变量问题许多系统是多要素的复杂系统,多变量问题是经常会遇到的。变量太多,无疑会增加分析问是经常会遇到的。变量太多,无疑会增加
2、分析问题的难度与复杂性,而且在许多实际问题中,多题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?原来变量所反映的信息?一、概述一、概述 事实上,这种想法是可以实现的,主分量事实上,这种想法是可以实现的,主分量分析方法就是综合处理这种问题的一种强有力分析方法就是综合处理这种
3、问题的一种强有力的工具。的工具。主分量分析是把原来多个变量划为少数几主分量分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术从数学角度来看,这是一种降维处理技术。在实际问题研究中,为了全面、系统地分析问在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一研
4、究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决主成分分析正是适应这一要求产生的,是解决这类题的理想工具。这类题的理想工具。主成分概念首先由主成分概念首先由 Karl P
5、arson Karl Parson在在19011901年首先年首先提出,当时只是对非随机变量来讨论的。提出,当时只是对非随机变量来讨论的。19331933年年HotellingHotelling将这个概念推广到随机变量,作了将这个概念推广到随机变量,作了进一步发展。进一步发展。把从混合信号中求出主分量(能把从混合信号中求出主分量(能量最大的成份)的方法量最大的成份)的方法称为主分量分析(称为主分量分析(PCAPCA),),而次分量(而次分量(Minor Components,MCsMinor Components,MCs)与主分量)与主分量(Principal Components,PCsPr
6、incipal Components,PCs)相对,它是混)相对,它是混合信号中能量最小的成分,被认为是不重要的合信号中能量最小的成分,被认为是不重要的或是噪声有关的信号,把确定次分量的方法称或是噪声有关的信号,把确定次分量的方法称为次分量分析(为次分量分析(MCAMCA)。)。v主分量分析又称主成分分析,也有称主分量分析又称主成分分析,也有称 经验正交函数分解或特征向量分析。经验正交函数分解或特征向量分析。v分析对象:以网格点为空间点(多个变量)分析对象:以网格点为空间点(多个变量)随时间变化的样本随时间变化的样本 。v主分量分析与回归分析、差别分析不同,主分量分析与回归分析、差别分析不同,
7、它是一种分析方法而不是一种预报方法它是一种分析方法而不是一种预报方法 。v我们希望可以通过某种线性组合的方法使我们希望可以通过某种线性组合的方法使某个变量或者某些变量的解释方差变得比某个变量或者某些变量的解释方差变得比较大,这些具有较大解释方差的变量就称较大,这些具有较大解释方差的变量就称为主分量。为主分量。主成分分析是一种经典的统计方法,它主成分分析是一种经典的统计方法,它对多元统计观测数据的协方差结构进行分对多元统计观测数据的协方差结构进行分析,以期求出能简约地表达这些数据依赖析,以期求出能简约地表达这些数据依赖关系的主成分,也是一种特征提取的方法。关系的主成分,也是一种特征提取的方法。一
8、般来说,主成分分析的实施效果与评价一般来说,主成分分析的实施效果与评价指标间的相关程度高低成正比。评价指标指标间的相关程度高低成正比。评价指标间相关程度越高,主成分分析的效果就越间相关程度越高,主成分分析的效果就越好。好。PCAPCA可以用于减少特征空间维数、确可以用于减少特征空间维数、确定变量的线性组合、选择最有用的变量、定变量的线性组合、选择最有用的变量、变量辨识、识别目标或是异常值分组等。变量辨识、识别目标或是异常值分组等。主分量子空间提供了从高维数据到低维数主分量子空间提供了从高维数据到低维数据在均方误差意义下的数据压缩,它能最据在均方误差意义下的数据压缩,它能最大程度地减少方差。大程
9、度地减少方差。在统计学中,主成分分析(在统计学中,主成分分析(principal principal components analysis,PCAcomponents analysis,PCA)是一种简化数)是一种简化数据集的技术。它是一个线性变换。这个变换据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标何数据投影的第一大方差在第一个坐标(称称为第一主成分为第一主成分)上,第二大方差在第二个坐上,第二大方差在第二个坐标标(第二主成分第二主成分)上,依次类推。主成分分析上,依次类推。主成分分析经
10、常用减少数据集的维数,同时保持数据集经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定但是,这也不是一定的,要视具体应用而定。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益vPCAPCA主要用于数据降维,对于一组样本的特征主要用于数据降维,对于一组样本的特征组成的多维向量,多
11、维向量里的某些元素本身组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的样本中都没有区分性,比如某个元素在所有的样本中都为为1 1,或者与,或者与1 1差距不大,那么这个元素本身就差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常没有区分性,用它做特征来区分,贡献会非常小。所以我们的目的是找那些变化大的元素,小。所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的即方差大的那些维,而去除掉那些变化不大的维,从而使特征留下的都是最能代表此元素的维,从而使特征留下的都是最能代表此元素的“精品精品”,而且计算量也变小了。,而且计算量也变
12、小了。v对于一个对于一个k k维的特征来说,相当于它的每一维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维坐维特征与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们可以标系中,坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个特征在某些变化这些维的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。维上方差大,而在某些维上方差很小。v例如,一个例如,一个4545度倾斜的椭圆,在第一坐标系,如度倾斜的椭圆,在第一坐标系,如果按照果按照x,yx,y坐标来投影,这些点的坐标来投影,这些点的x x和和y y的属性很难的属性很难用于区分他们,因
13、为他们在用于区分他们,因为他们在x,yx,y轴上坐标变化的方轴上坐标变化的方差都差不多,我们无法根据这个点的某个差都差不多,我们无法根据这个点的某个x x属性来属性来判断这个点是哪个,而如果将坐标轴旋转,以椭判断这个点是哪个,而如果将坐标轴旋转,以椭圆长轴为圆长轴为x x轴,则椭圆在长轴上的分布比较长,方轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比点,这样,区分性比x,yx,y轴的方法要好!轴的方法要好!v所以我们的做法
14、就是求得一个所以我们的做法就是求得一个k k维特征的投影矩阵,维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。投影这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正交的。通过求样本个维都正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可以构成这个投影矩阵了。向量,这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大特征向量的选择取决于协方差矩阵的特征值的大小。小。举一
15、个例子:举一个例子:对于一个训练集,对于一个训练集,100100个样本,特征个样本,特征是是1010维,那么它可以建立一个维,那么它可以建立一个100*10100*10的矩阵,的矩阵,作为样本。求这个样本的协方差矩阵,得到一作为样本。求这个样本的协方差矩阵,得到一个个10*1010*10的协方差矩阵,然后求出这个协方差的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,应该有矩阵的特征值和特征向量,应该有1010个特征值个特征值和特征向量,我们根据特征值的大小,取前四和特征向量,我们根据特征值的大小,取前四个特征值所对应的特征向量,构成一个个特征值所对应的特征向量,构成一个10*410*4
16、的的矩阵,这个矩阵就是我们要求的特征矩阵,矩阵,这个矩阵就是我们要求的特征矩阵,100*10100*10的样本矩阵乘以这个的样本矩阵乘以这个10*410*4的特征矩阵,的特征矩阵,就得到了一个就得到了一个100*4100*4的新的降维之后的样本矩的新的降维之后的样本矩阵,每个样本的维数下降了。阵,每个样本的维数下降了。二、主分量分析的基本原理 假定有n个样本,每个样本共有p个变量,构成一个np阶的数据矩阵(1.2.1)当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量
17、指标所反映的信息,同时它们之间又是彼此独立的。定义:记x1,x2,x P为原变量指标,z1,z2,z m(mp)为新变量指标(1.2.2)系数lij的确定原则:z i与zj(ij;i,j=1,2,m)相互无关;z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,xP的所有线性组合中方差最大者;zm是与z1,z2,zm1都不相关的x1,x2,xP,的所有线性组合中方差最大者。则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xP的第1,第2,第m主成分。从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,p)在诸主成分zi(i=1,2,m
18、)上的荷载 lij(i=1,2,m;j=1,2,p)。从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。三、主分量分析的计算步骤(一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,j=1,2,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为(1.3.1)(1.3.2)(二)计算特征值与特征向量(二)计算特征值与特征向量 解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ;分别求出对应于特征值的特征向量 ,要求=1,即,其中表示向量 的第j个分量。计算主成分贡献率及累计贡献率 贡献率累计贡献率 一般取累计贡献率达85%95%的特征值所
19、对应的第1、第2、第m(mp)个主成分。计算主成分载荷 主成分计算概括以下几点:主成分计算概括以下几点:(1.3.3)(1.5.4)三、主分量分析主要作用三、主分量分析主要作用 1 1主成分分析能降低所研究的数据空间的维主成分分析能降低所研究的数据空间的维数。即用研究数。即用研究m m维的维的Y Y空间代替空间代替p p维的维的X X空间空间(m(mp)p),而低维的,而低维的Y Y空间代替空间代替 高维的高维的x x空间所损失空间所损失的信息很少。即:使只有一个主成分的信息很少。即:使只有一个主成分Y1Y1(即即 m m1)1)时,这个时,这个Y Y1 1仍是使用全部仍是使用全部X X变量变
20、量(p(p个个)得到得到的。例如要计算的。例如要计算Y1Y1的均值也得使用全部的均值也得使用全部x x的均的均值。在所选的前值。在所选的前m m个主成分中,如果某个个主成分中,如果某个X Xi i的的系数全部近似于零的话,就可以把这个系数全部近似于零的话,就可以把这个XiXi删除,删除,这也是一种删除多余变量的方法。这也是一种删除多余变量的方法。2 2有时可通过因子负荷有时可通过因子负荷a aijij的结论,弄清的结论,弄清X X变量间的某些关系。变量间的某些关系。3 3、多维数据的一种图形表示方法。我、多维数据的一种图形表示方法。我们知道当维数大于们知道当维数大于3 3时便不能画出几何时便不
21、能画出几何图形,多元统计研究的问题大都多于图形,多元统计研究的问题大都多于3 3个变量。要把研究的问题用图形表示个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的或其中某两个主成分,根据主成分的得分,画出得分,画出n n个样品在二维平面上的分个样品在二维平面上的分布况,由图形可直观地看出各样品在布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离进行分类处理,可以由图形发现远离大
22、多数样本点的离群点。大多数样本点的离群点。4 4由主成分分析法构造回归模型。即由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变把各主成分作为新自变量代替原来自变量量x x做回归分析。做回归分析。5 5用主成分分析筛选回归变量。回归用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来分析筛选变量,
23、可以用较少的计算量来选择量,获得选择最佳变量子集合的效选择量,获得选择最佳变量子集合的效果。果。四、主分量分析方法应用实例 下面,我们根据表3.5.1给出的数据,对某农业生态经济系统做主成分分析。表3.5.1 某农业生态经济系统各区域单元的有关数据 步骤如下:(1)将表3.5.1中的数据作标准差标准化处理,然后将它们代入公式(3.5.4)计算相关系数矩阵(表3.5.2)。表3.5.2相关系数矩阵 (2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(表3.5.3)。由表3.5.3可知,第1,第2,第3主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第1、第2、第
24、3主成分z1,z2,z3即可。表3.5.3特征值及主成分贡献率 (3)对于特征值=4.661 0,=2.089 0,=1.0430分别求出其特征向量e1,e2,e3,再用公式(3.5.5)计算各变量x1,x2,x9在主成分z1,z2,z3上的载荷(表3.5.4)。表3.5.4 主成分载荷 上述计算过程,可以借助于SPSS或Matlab软件系统实现。(1)第1主成分z1与x1,x5,x6,x7,x9呈现出较强的正相关,与x3呈现出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第1主成分z1是生态经济结构的代表。(2)第2主成分z2与x2,x4,x5呈现出较强的正相关,与x1
25、呈现出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第2主成分z2代表了人均资源量。分析:分析:显然,用3个主成分z1、z2、z3代替原来9个变量(x1,x2,x9)描述农业生态经济系统,可以使问题更进一步简化、明了。(3)第3主成分z3与x8呈现出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第3主成分在一定程度上代表了农业经济结构。(4)另外,表3.5.4中最后一列(占方差的百分数),在一定程度上反映了3个主成分z1、z2、z3包含原变量(x1,x2,x9)的信息量多少。为了规范事业单位聘用关系,建立和完善适应社会主义市场
26、经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益第二节第二节 核主成分分析核主成分分析l概述概述l核主成分的算法核主成分的算法l核主成分的特性核主成分的特性l计算的复杂性计算的复杂性一、概述一、概述 主分量分析法已经有许多成功的应用,但它的前主分量分析法已经有许多成功的应用,但它的前提是只对服从高斯分布的数据特征提取效果较好,提是只对服从高斯分布的数据特征提取效果较好,这就大大限制了它的应用范围。因为,如果数据这就大大限制了它的应用范围。因为,如果数据呈任意分布,那么不论在原数据空间中如何做正呈任意分布,那么不论在原数据空间中如何做正交变换,都不可能找到一组最优的特征方向,找交
27、变换,都不可能找到一组最优的特征方向,找到的所谓到的所谓“主分量主分量”也就不能表达数据的特征结也就不能表达数据的特征结构了,而后续工作建立在这样的构了,而后续工作建立在这样的“主分量主分量”表示表示的新特征向量的基础上,效果可想而知。的新特征向量的基础上,效果可想而知。PCA PCA 对数据分布有这样的苛刻要求,主要由于它是一对数据分布有这样的苛刻要求,主要由于它是一个线性方法,对于提取数据的非线性结构无能为个线性方法,对于提取数据的非线性结构无能为力。显然,不论在原空间中对力。显然,不论在原空间中对 PCA PCA 方法如何做方法如何做改进,都不可能摆脱这个前提的限制,从本质上改进,都不可
28、能摆脱这个前提的限制,从本质上将其变为一个非线性算法将其变为一个非线性算法。核主成分分析是对主成分分析的一种改进,核主成分分析是对主成分分析的一种改进,主成分分析要求处理的数据服从高斯分布,主成分分析要求处理的数据服从高斯分布,因此其应用受到大大的限制。因此其应用受到大大的限制。针对之一局针对之一局限性,核主成分分析首先利用非线性变换,限性,核主成分分析首先利用非线性变换,将数据映射到特征空间,使其近似服从高将数据映射到特征空间,使其近似服从高斯分布,然后在特征空间利用主成分分析,斯分布,然后在特征空间利用主成分分析,所以,核主成分分析能够处理较多类型的所以,核主成分分析能够处理较多类型的数据
29、。数据。基于核函数的非线性主成分分析方法,简称为基于核函数的非线性主成分分析方法,简称为核主成分分析(核主成分分析(KPCAKPCA),于于19981998年由年由ScholkopfScholkopf首次提出。主要应用于模式识别、信号处理等。首次提出。主要应用于模式识别、信号处理等。如果选用适当的映射函数,输入空间线性不可如果选用适当的映射函数,输入空间线性不可分问题在特征空间将转化为线性可分问题。这分问题在特征空间将转化为线性可分问题。这种非线性映射函数被称之为核函数。将核函数种非线性映射函数被称之为核函数。将核函数与一般的主成分分析有机融合而形成的基于核与一般的主成分分析有机融合而形成的基
30、于核的主成分分析,不仅具有优秀的主成分提取性的主成分分析,不仅具有优秀的主成分提取性能尤其适合于处理非线性问题,其应用前景更能尤其适合于处理非线性问题,其应用前景更为广泛。为广泛。基于核的主分量分析法基于核的主分量分析法(KPCA)(KPCA)是对主分量是对主分量分析法的非线性推广,这一过程涉及许多重分析法的非线性推广,这一过程涉及许多重要的思想和技巧,深入理解这些理论和核技要的思想和技巧,深入理解这些理论和核技巧是进行核技巧工作的基础。核主成分是在巧是进行核技巧工作的基础。核主成分是在高维特征空间高维特征空间F F中做通常的线性主成分分析。中做通常的线性主成分分析。特征空间是输入空间非线性变
31、换得到的。在特征空间是输入空间非线性变换得到的。在主向量上的连续投影的等高线在输入空间变主向量上的连续投影的等高线在输入空间变为非线性的,在输入空间画不出特征向量的为非线性的,在输入空间画不出特征向量的原象。对核主成分来说,其关键在于不必自原象。对核主成分来说,其关键在于不必自特征空间对经过映射后的数据直接进行计算。特征空间对经过映射后的数据直接进行计算。所有的计算将通过空间中的核函数来实现。所有的计算将通过空间中的核函数来实现。二、核主成分的算法二、核主成分的算法 计算基于核的主成分,又称为核主成分,步骤计算基于核的主成分,又称为核主成分,步骤如下:如下:(1 1)计算矩阵)计算矩阵 ,(2
32、 2)通过将)通过将K K进行对角化变换,并通过使进行对角化变换,并通过使 来归一化特征向量相对应的系数来归一化特征向量相对应的系数 。(3 3)提取一个测试点)提取一个测试点x x的主成分(按照相应的的主成分(按照相应的核核K K),根据下式计算特征向量的映射。),根据下式计算特征向量的映射。常用的核函数:三、核主成分的特性三、核主成分的特性 核主成分,实际上就是在特征空间做普核主成分,实际上就是在特征空间做普通的主成分。因此,所有有关主成分通的主成分。因此,所有有关主成分 的的数学的和统计的特性都适用于核主成分。数学的和统计的特性都适用于核主成分。只是在特征空间是对一组输入空间的数只是在特
33、征空间是对一组输入空间的数据经过正交(据经过正交()变换后是数据)变换后是数据(i i),),i=1i=1,M M,进行操作。在特征空间,进行操作。在特征空间F F中,中,主成分是具有以下特征的正交变换。主成分是具有以下特征的正交变换。(假定特征向量是按特征值的大小降序排列)假定特征向量是按特征值的大小降序排列):l各主成分之间不相关。各主成分之间不相关。l前前q q(qq1 1,M M)个主成分,也就)个主成分,也就是在特征向量上的投影,比其它任何正交是在特征向量上的投影,比其它任何正交方向上的投影所提供的方差贡献率要多。方向上的投影所提供的方差贡献率要多。l观测数据的前观测数据的前q q个
34、主成分的均方误差最小。个主成分的均方误差最小。l前前q q个主成分包含了输入空间最大的信息。个主成分包含了输入空间最大的信息。(这一结论是在高斯性的假设之下,并依(这一结论是在高斯性的假设之下,并依赖于数据及所选择的特殊的核得到的)赖于数据及所选择的特殊的核得到的)一个一个256256维输入空间的维输入空间的5 5次的多项式核可以生成次的多项式核可以生成一个十亿维的特征空间。核主成分可以对这么一个十亿维的特征空间。核主成分可以对这么高维的特征空间进行计算。有两个原因:首先,高维的特征空间进行计算。有两个原因:首先,不需要在整个特征空间不需要在整个特征空间F F中寻找特征向量,而中寻找特征向量,
35、而是在观测值是在观测值 在特征空间在特征空间F F中所生成的映射所中所生成的映射所张成的子空间中进行。其次,当我们使用核函张成的子空间中进行。其次,当我们使用核函数时,不需要明确地计算特征空间中向量之间数时,不需要明确地计算特征空间中向量之间的点积运算。(事实上,即使向量在低纬度的的点积运算。(事实上,即使向量在低纬度的子空间这一点也不可行。)因而与子空间这一点也不可行。)因而与PCAPCA相比计相比计算量的增加不会太大,对于特别复杂的问题甚算量的增加不会太大,对于特别复杂的问题甚至可以不用计算全部特征值,只需用特别的算至可以不用计算全部特征值,只需用特别的算法计算最大的一个或两个特征值即可。法计算最大的一个或两个特征值即可。四、计算的复杂性四、计算的复杂性 核主成分分析在核主成分分析在MatlabMatlab软件中的实软件中的实现步骤:现步骤:输入数据输入数据S S,投影后数据维数,投影后数据维数k k;计算核矩阵;计算核矩阵;将核矩阵中心化;将核矩阵中心化;计算核矩阵的特征值和特征向量;计算核矩阵的特征值和特征向量;将特征向量规范化;将特征向量规范化;数据重建;数据重建;输出变换后的数据集。输出变换后的数据集。