《硕士论文-非线性主成分分析方法及其在医学中的应用.pdf》由会员分享,可在线阅读,更多相关《硕士论文-非线性主成分分析方法及其在医学中的应用.pdf(40页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、山西医科大学硕士学位论文非线性主成分分析方法及其在医学中的应用姓名:苗丽花申请学位级别:硕士专业:流行病与卫生统计学指导教师:郭东星20090510l I 阳医科人学坝l:学位沦史非线 生主成分分析方法及其在医学中的应用摘要在医学多变量研究中,经常会遇到各变量之M 呈非线性关系的情况,此时如果仍用一般的线性数据处理方法分析数据是不妥的。由此,各种非线性数据处理方法应运而生,基于核函数技术的非线性数据处理方法由于其操作简簟的优良特性而倍受青睐。核函数技术通过非线性映射把输入空问的数据映射到高维特征空问,在特征空间进行数据处理,它的关键在于通过引入核函数,可以把非线性变换后的高维特征空间的内积运算
2、转换为原始输入空f b J 中的核函数计算,而不用显式地计算非线性映射,从而实现了输入空间上的非线性化。本研究探讨了基于核函数的核主成分分析法(K e r n e lP r i n c i p a lC o m p o n e n tA n a l y s i S,K P C A)的基本原理和数学模型。主成分分析(P r i n c i p a lC o m p o n e n tA n a l y s i s,P C A)是一种经典的统计方法,它对多元统计观测数据的协方差结构进行分析,以期求出能简约地表达这些数据关系的主成分。具体地蜕也就是通过线性变换将原始,l 维观测值化为个数相同的一组新
3、特征,即每一个新特征都是原始特征的线性组合,如果这些新特征互不相关,其中少数m 个(ms 刀)包含了原始数据主要信息的最重要的特征就是主成分(P r i n c i p a lC o m p o n e n t,P C)。主成分分析是一种特征提取的方法,也可以认为是一种数据压缩(降维)的方法。核主成分分析则是在特征空间中进行通常的线性主成分分析,是在高维特征空间中对角化核矩阵K,其非零特征根的数目最多为Z 个(观测值的个数),它通常高于样本的维数。特征空间的维数很高,甚至是无穷维的。但是K P C A 并不是在整个特征空间中寻求主成分,而只是在由,个观测数据所张成的孑空问中寻求主成分,不必计算
4、非线性变换和内积,只需计算核函数,因而与P C A 相比计算量的增加不会太大,对于特别复杂的问题甚至可以不用计算全部特征值,只需用特别的算法计算最大的一个或两个特征值即可。研究结果表明核主成分分析比主成分分析具有更好的降维效果,且能有效地处理变量间的非线性关系。为在医学研究中的应用提供了理论依据。本课题实例分析使用M a t l a b 软件作为运算分析平台。关键词:主成分,核主成分,核函数,协方差函数l I I 州医科人学坝I 学位论史N o n l i n e a rp r i n c i p a lc o m p o n e n ta n a l y s i sm e t h o da
5、n di t sa p p l i c a t i o n si nm e di c i n eA b s t r a c tT h e r ea r em u l t i v a r i a t ea n a l y s e si nt h em e d i c a lr e s e a r c h,a n dw eo f t e ne n c o u n t e rt h ev a r i a b l e sw h i c ha r en o n l i n e a rr e l a t e da m o n gt h e m I nt h i sc a s e,i ti si n a p
6、 p r o p r i a t et h a tt oh a n d l et h ed a t aw i t hal i n e a rm e t h o d T h u s,m a n ym e t h o d sw h i c hc a nd e a lw i t ht h en o n l i n e a rd a t aa r ep r o p o s e d A m o n gt h e m,n o n l i n e a rd a t ap r o c e s s i n gm e t h o d sb a s e do nk e r n e lt r i c ka r ev
7、e r yp o p u l a rt od e a lw i t ht h e s ev a r i a b l e sf o ri t se x c e l l e n tp r o p e r t yt h a ti ti se a s yt oo p e r a t e T h em a i ni d e ao fk e r n e lm e t h o d si so r i g i n a li n p u ts p a c ed a t aa r em a p p e di n t oh i g hd i m e n s i o nf e a t u r es p a c e s
8、t h r o u g hn o n l i n e a rm a p p i n g,D a t ai sa p p l i e dt od e a lw i t hi nt h ef e a t u r es p a c e s I t sk e yi si n d u c t e di n t ok e r n e lf u n c t i o n,t h a ts c a l a rp r o d u c to p e r a t i o ni nh i g hd i m e n s i o nf e a t u r ei st r a n s f o r m e di n t ok
9、e r n e lf u n c t i o nc o m p u t ei ni n p u ts p a c e,a n dd o n tn e e dt oc o m p u t en o n l i n e a rm a p p i n g,S On o n l i n e a r i z a t i o ni sa c h i e v e di ni n p u ts p a c e s I n t h i sp a p e rw ed i s c u s st h ew o r kp r i n c i p l ea n dm a t h e m a t i c sm o d e
10、lo fk e r n e lp r i n c i p a lc o m p o n e n ta n a l y s i sm e t h o d P r i n c i p a lc o m p o n e n ta n a l y s i si sat r a d i t i o n a ls t a t i s t i cm e t h o da n di t sa n a l y s i so b j e c ti st h ec o v a r i a n c es t r u c t u r eo ft h em u l t i v a r i a t eo b s e r v
11、 e dv a l u ea n di t sp u r p o s ei so b t a i nt h ep r i n c i p a lc o m p o n e n tw h i c hc a ns i m p l yd e s c r i b et h er e l a t i o no ft h eo b s e r v e dv a l u e I nd e t a i l,P C Am e t h o di sc h a n g i n go r i g i n a lnd i m e n s i o no b s e r v e dv a r i a b l ei n t
12、oas e to fn e wf e a t u r ew i t ht h es a m enn u m b e rt h r o u g hl i n e a rt r a n s f o r m a t i o n,a n de a c hn e wf e a t u r ei st h el i n e a rc o m b i n a t i o no ft h eo r i g i n a lf e a t u r e I ft h e s en e wf e a t u r e sa r eu n r e l a t e db e t w e e ne a c ho t h e
13、f t h es m a l ln u m b e rm a i nf e a t u r e sa m o n gt h e mw h i c hc o n t a i nt h ep r i n c i p a li n f o r m a t i o no ft h eo r i g i n a ld a t aa r ec a l l e dp r i n c i p a lc o m p o n e n t s P C Ai sam e t h o do ff e a t u r ee x t r a c t i o na n dd i m e n s i o n a l i t y
14、r e d u c t i o n W h i l ek e r n e lP C Ai san o n l i n e a rg e n e r a l i z a t i o no fP C Ai nt h es e n s et h a ti ti sp e r f o r m i n gP C Ai nf e a t u r es p a c e sa n dd i a g o n a l i z i n gk e r n e lm a t r i xi nh i g hd i m e n s i o n a ls p a c e s K e r n e lP C Ac a nf i
15、n da tm o s t(t h en u m b e ro fo b s e r v e dv a l u e)n u m b e ro fn o n z e r oe i g e n v a l u e s,w h i c hc a ne x c e e dt h es a m p l ed i m e n s i o n a l i t y T h ed i m e n s i o n a l i t yo ff e a t u r es p a c e si sv e r yh i g h,e v e nt oi n f i n i t e H o w e v e r,k e r n
16、 e lP C Ad o n tn e e dt ol o o kf o rp r i n c i p a lc o m p o n e n t si nt h ef u l ls p a c e sEb u tj u s ti nt h es u b s p a c es p a n n e db yt h eo b s e r v e dd a t a K e r n e lP C An e e do n l yt oc o m p u t ek e r n e lf u n c t i o na n dr a t h e rt h a nt oc o m p u t en o n l i
17、 n e a rt r a n s f o r m a t i o na n ds c a l a rp r o d u c t T h u s,t h ea m o u n to fc a l c u l a t i o no fk e r n e lP C Ai s n tv e r yc o m p l i c a t e dc o m p a r e dt ol l叫医科人学硕I j 学伸论文P C A W h e nc o m et oe s p e c i a l l yc o m p l e x i t yp r o b l e m,w ee v e nd o n tn e e
18、dt oc o m p u t et h ew h o l ee i g e n v a l u e,o n l yn e e dt oc o m p u t et h el a r g e s to n eo rt w oe i g e n v a l u e s O u rr e s u l t sd e m o n s t r a t et h a tk e r n e lp r i n c i p a lc o m p o n e n ta n a ly s i ss h o w sb e t t e rr e s u l t st h a np r i n c i p a lc o
19、m p o n e n t sa n a l y s i si nd i m e n s i o n sr e d u c t i o na n dc a nd e a lw i t ht h en o n l i n e a rr e l a t i o nb e t w e e nt h ev a r i a b l e s P r o v i d eat h e o r e t i c a lb a s i sf o rt h ep o p u l a r i z e da p p l i c a t i o no ft h e s em e t h o d si nm e d i c
20、a ls t u d i e s W eu s eM a t l a bs o f t w a r ea sp l a t f o r mt oh a n d l et h ea n a l y s i so fo u ra p p l i c a t i o ne x a m p l e K e yw o r d s:P r i n c i p a lc o m p o n e n t,K e r n e lP r i n c i p a lC o m p o n e n t,K e r n e lF u n c t i o n,c o v a r i a n c ef u n c t i
21、o nmh 叫医科人学硕l:学位沦文j 上一日I J吾在医学研究中经常会遇到多个指标的实际问题。指标数目的增多必然会带来统计分析的复杂性。比如描述牙槽弓形念特征的可有2 2 个指标,衡量甲状腺机能的有2 1 个指标等。指标较多时不但增加了资料搜集的工作量,而且给资料分析带来很多麻烦,增加了分析问题的复杂性和难度。例如,在儿章的生长发育的评价中,某科研工作者收集到了1 4 8 名儿章的身高、体重、胸围、头围、坐高、肺活量等十个指标。要求根据这十个指标对研究对象做出合理的评价,如果分别用每一个指标对儿章的生长发育作评价,这种评价只能是孤立的,而不是综合的。那么,去寻找一种合理的、综合性的方法,既可
22、减少分析指标,又尽量不损失或少损失原指标所包含的信息,而又能对资料做出全面的分析就非常必要。事实上,许多指标之间往往具有一定的相关性,因此有可能用较少的起主导作用的综合指标把存在于各原始指标中的主要信息分f-J 另J 类地提取出来。这些为数较少的综合指标既能综合反映原始指标中所包含的主要信息,而且相互之间又是无关的,同时分别具有各自的独特含义,可以避免不必要的重复。这种处理问题的方法就是主成分分析方法,综合后的指标就称为是原始指标的主成分。主成分分析(p r i n c i p a lc o m p o n e n ta n a l y s i s)也称主分量分析,于1 9 0 1 年由P e
23、 a r s o n首先提出,1 9 3 3 年由H o t e l l i n g 作了进一步的发展。主成分分析是一种经典的统计方法,它对多元统计观测数据的协方差结构进行分析,以期求出能简约地表达这些数据依赖关系的主成分。主成分分析是一种特征提取的方法,也可以认为是一种数据降维的方法。一般来说,主成分分析的实施效果与评价指标间的相关程度高低成正比。评价指标间相关程度越高,主成分分析的效果就越好。当指标之间相关性不大时,第一个主成分所提取的原始指标的信息常常是很少的,这时,为了满足累计方差贡献率不低于某阈值(比如8 5),就有可能选择较多的主成分,此时的主成分分析的降维作用不明显,这是经典主成
24、分分析的一个不足之处。它的另一个不足之处是只能处理“线性”问题,只是一种“线性降维技术。一方面,对原始数据进行标准化处理后,协方差矩阵就变成相关系数矩阵,而相关系数只能反映指标间“线性 程度。在现实生活中,指标间的关系也有呈非线性关系的,如果这时非要用“线性”关系去反映,会得到不正确的结论。另一方面,主成分是指标的线性组合。当主成分与原始指标之间呈非线性关系,此时简单地进行线性处理就有可能导致对现实关系反映上的偏差。现实生活中有许多变量之间呈非线性关系的数据,要对这些数据更加合理的处理和解释,就不能用经典的主成分分析方法。基于以上原因,有必要对经典的主成分分析加以改造,进行非线性主成分分析方法
25、的研究。为此,专家、学者提出了一系列的非线性主成分方法,主要分为三类:(1)由l r i c和K a w a t o 提出的基于主成分分析的多层感知器方法,此类方法需预先确定主成分个数,I V心医科人学硕I:学位论文并且在网络隐含层较多时,学习训练能力会下降。(2)由H a s t i e t 和S t u e t z l e 提出的主曲线和主曲面方法,此类方法同样需要预先确定主成分个数,而且即使在给出了适合的个数时,也不能清楚地确定各主成分的方差贡献率的大小。(3)由S c h o l k o p f(1 9 9 8,1 9 9 9)及M u l l e r(2 0 0 1)引入的核主成分分
26、析。该方法能够映射输入变量数据到高维空间进行非线性主成分分析(N P C A),且获得的第一主成分能捕捉绝大多数的数据信息。基于核函数的非线性主成分分析方法,简称为核主成分分析(K P C A),于1 9 9 8 年由S c h o l k o p f 首次提出。主要应用于模式识别、信号处理等。如果选用适当的映射函数,输入空间线性不可分问题在特征空问将转化为线性可分问题。这利非线性映射函数被称之为核函数(K e r n e lF u n c t i o n)。将核函数与一般的主成分分析(P r i n c i p l eC o m p o n e n tA n a l y s i s,P C
27、A)有机融合而形成的基于核的主成分分析(K e r n e lP r i n c i p l eC o m p o n e n tA n a l y s i s,K P C A),不仅具有优秀的主成分提取性能,尤其适合于处理非线性问题,其应用前景更为广泛。V学位论文独创性声明本人声明,所呈交的学位论文系在导师指导下本文独立完成的研究成果。文中任何引用他人的成果,均已做出明确标注或得剑许可。论文内容未包含法律意义上己属于他人的任何形式的研究成果,也不包含本人已用于其他学位申请的论文或成果。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。本文如违反上述声明,愿意承担以
28、下责任和后果:1、交回学校授予的学位证书:2、学校可在相关媒体上对作者本人的行为进行通报;3、本文按照学校规定的方式,对因不当取得学位给学校造成的名誉损害,进行公开道歉。4、本人负责因论文成果不实产生的法律纠纷。论文作者签名:学位论文版权使用授权书本人完全了解山西医科大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权山西医科大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名单位仍然为山
29、西医科大学。(保密论文在解密后应遵守此规定)论文作者签名:指导教师签名:同期:年月日日期:年月日(本声明的版权归山西医科大学所有,未经许可,任何单位及任何个人不得擅自使刚)州医科人学硕I:学位论文1 1 核的定义及定理1 1,2 1第一章核函数理论定义1 设X 是R“中的一个子集,对一个在X X 上的函数k(x,Y),如果存在从X 到H il b e r t 空问H 的映射:J H 使得k(x,Y)=(妒0),(y),其中 表示日中的内积,则称k(x,Y)为核函数。核函数的定义并不能使我们很容易地选择和确定核函数,然而M e r c e r 定理不仅从理论上解决了核函数的确定,并且给出了其特性
30、。定理1(M e r c e r 定理)1 3 1:令X 是一个R 的紧凑子集,k 是Xx X 上的一个连续的对称函数,使得积分算子瓦:2 似)呻L2(X)T k f(Y)=fk(x,y)f(x)d x是正的,也就是说对所有的fE L:(x)有L。J 七o,y)f(x)f(y)d x d y o则k(x,y)可表示为xx X 上的一致收敛序列k(x,y)一罗A 谚o)谚(y)Ms 其中A o 是瓦的特征值,谚如(x)是对应凡的特征函数(慨k=1)定理2 满足M e r c e r 定理的对称函数k(x,Y)是核函数。满足M e r c e r 定理1 4 I 的核函数,被称之为M e r c
31、e r 核。定义2若对称函数七(,):xx X-R,满足对于任意的,l,当a 1)以:,口。E R 及,屯,x E X,有吒口尼“,x)o,则称七(,)为正定核。M e r c e r 核是正定笥:因为私n 咿吣抄,扣一(栌)=陪中“)卜给定一个向量集合S 一,西),G r a m 矩阵被定义为l x l 的矩阵K,其元素为一“z f),i,j 一1*oo,l。G r a m 矩阵是对称矩阵,又称为核矩阵。一个核函数对应一个半正定的矩阵。核矩阵的这个有限半正定性质是核方法理论的核心成分。核函数方法实施步骤可以简单地描述如下:寸忑卜。厂(x)=罗口,七O,工,)J _-_ _ _ _-_,样本(
32、Z n)核函数核矩阵(,)算法模式函数(图1 1)常用的M e r c e r 核函数有1 1 6 1:多项式核k(x,Y)=(s(x y)+c)。,其中c 芝0,d 是整数,它们为自定义参数:G a u s s 径向基核七(工,y):e X p(一竖三),其中。是自定义参数:S i g m o i d 核k(x,Y)=t a n h(一b(x Y)一C),其中6,C 是自定义参数。傅立叶核七o,y)=夏E 乏i 1 瓦-q 云2 了i 孬,其中q 是满足O q l 的自定义参数。1 2 核的构造【5 7 1不同的核函数对应不同的非线性变换,决定了特征空间的性质。上面给出了一些具体的核,如多项
33、式核、高斯径向基核等,如何针对具体问题来选择合适的核函数以及参数已成为研究的重点,因此从已知的核中构造新的核显得尤为重要。定理3-令k l,k 2:xxX _ R,k 3:R“x R”一R 是核函数,aE R+,厂:x _ 尺的实值函数和:X R”,那么下列函数都是核函数:(1)k(x,),)一k l G,y)+七2 0,y)(2)k(x,y)=口七。(x,y)(3)k(x,y)一k l(z,y)k 2 ,y)(4)k(x,y)=,(z)厂(y)(5)k(x,y)te (6)k(x,y)=k 3(驴(x),驴(y)2I l V t i 医科人警硕I:学化沦文证明:令S 是一个有限点集 9 9
34、X ,令K 和K 2 分别是通过七。、k:限制于这些点而得到的对应的核矩阵。考虑任意一个向量a E R。,矩阵K 是半F 定的,当且仅当对所有的口,有a K a 0。故有:(1)口7(K l+K 2 净=a K a+口K 2 口0,所以K+是、I,_ 止定的,k l+七2 是一个核函数。(2)类似地,D 么K,口=a 口K。口0,因而a k l 是一个核函数。(3)令K=K。o K:,它是矩阵K,和K:的张量积,它通过用K。中的每一个元素和墨相乘所得的积去取代K,中原来的那个元素而得到。两个半F 定矩阵的张量积本身也是半正定的,因为乘积的特征值是两个成分的特征值的所有乘积对。对应于函数k l
35、k,的矩阵被称为K 和K,的S c h u r 积,其元素是两个成分中的对应元素的乘积。矩阵H 是K 的主子矩阵,由一个列集合和同一个行集合定义。因此,对于任意一个a 尺7 存在对应的口1 R r,使得口7 H a=a x a l20。所以H 是半F 定矩阵,得证。(4)考虑一维特征映射巾:xk-)f(x)E R那么k(x,z)就是对应的核。(5)指数函数可以被具有正系数的多项式函数任意的地逼近,由第(1)、(2)和第(3)部分可得,具有正系数的多项式p 暇,z”是核函数,而指数函数是这个核函数的极限。由于有限半正定性质在按点态方式取极限的情况下是封闭的,结论成立。(6)由于足,是一个核,通过
36、把限制于点(),“)而得到的矩阵是半正定的,得证。主成分分析(P C A)方法被成功的运用于医学数据的处理,且取得了很好的效果。然而主成分分析方法在处理数据时是基于变量问的线性关系,当变量问呈非线性关系时,效果不理想。核函数方法与经典的主成分方法相结合而形成的核主成分分析方法,能有效处理非线性数据,且取得了满意的效果,成为现在研究的一种热门方法。3州医科人学硕l:学位论文第二章核主成分分析主成分分析(P C A)I S-l o】是一种从高维数据集有效地提取数据结构的技术。通过求解特征值问题或使用估计主成分的迭代算法可以很容易地来实现。回顾现有的文献,见J o l l i f f e(1 9 8
37、 6)D i a m a n t a r a s t 和K u n g(1 9 9 6),一些经典的学术论文见P e a r s o n(1 9 0 1)H o t e l l i n g(1 9 3 3)K a r h u n e n(1 9 4 6)。主成分是对描述数据的相应的坐标系的对角化。转换后用来描述数据的新的坐标值,称为主成分。通常情况下,较少的主成分就可以表示数据的结构。称为数据的因子或潜变量。经典的主成分分析方法(变量间呈线性关系)已相当成熟,目前对P C A 的研究,更侧重于对输入空问的变量问呈非线性关系的主成分的研究1 1 1】。通过输入空问的核函数在特征空间进行内积运算,
38、而不需要显式地使用变量本身。这种核方法能够构造不同的非线性形式。尽管该方法已被熟知,然而在医学研究领域中的应用却很少。下面来回顾一般的主成分算法。为了能够把一般的主成分用非线性形式来表示,我们将公式表示为内积的形式。2 1 在特征空间中进行主成分分析给出一组中心化的数据集以E R,k 一】,M,y:!,x k=0,计算主成分相当于对”一。J角化协方差矩阵 1 2-1 5 1c 一 乏M,v,r(2 1)肘幺l解方程的特征值加一C v(2 2)因为(肼r 弘=O v)x对于特征值A 0 和特征向量y 尺 0),因为A y c y;(专差X j X j T)1;=f f i 百1 荟M(V 咖,(
39、2 3)所有满足特征值A 0 的特征向量,必然属于空间,公式(2 2)等价于以下公式A O t ,)一O I。C v)k 一1,2,M(2 4)在特征空间F 中描述同样的算法。特征空间是输入空间经非线性映射得到的。:R 呻F,z 呻X(2 5)特征空间F 非常大,也可能是无限的【1 9,2 0 。(大写字母代表特征空间F 中的元素,4小写字母代表输入空间尺一中的兀素。)假定待处理的数据己中心化,:,妒“);0,在特征空间,罩,协方差矩阵可以表示为以下的形式:万:上壹m)m(26)M台l 一一如果特征空问F 为无穷维,可以把驴(石(x)r 看作是在特征空间F 上的线性变换。X 钟驴O,)(J)X
40、(2 7)现在需要找出满足式(2 8)的AzO 的特征值和特征向量y F o)。A y;砂(2 8)所有的A 乒0 的特征向量y 落在驴(x。),驴)所张成的空问罩。式(2 8)的两边同乘()得到以下方程A(吒)y);(矽(吒)一c v)k=1,M(2 9)存在系数呸O=1,M)使得y2 酗妒)(2 1 0 合并式(2 9)和(2 1 0),得到A 萋q()庐“)一吉善q 也)薹妒。从o 驴“)(2 1 1)对所有的七一1,M。定义一个Mx M 的矩阵K可以得到值 0:一(妒(t)。妒O,)M 九K o【:K 2 G(2 1 2)(2 1 3)口代表一个列向量q,口肘。求解式(2 1 3),也
41、就是求解式(2 1 4)的非零特征M 九o cIK c(2 1 4)因为K 是对称矩阵2 2。矧,K 有一组呈正交基的特征向量(卢);和相应的特征值段,对所有的f,K 声=以卢U-1,,M)。为了清楚公式(2 1 3)和(2 1 4)的联系,假设厶口满足公式(2 1 3),用核矩阵K 的特征向量基来表示口,那么有口一二q 卢公式(2 1 3)则变为:5心医科人学硕I:警f 讧论文肘A 刚t 卢2 q 彳卢(2 1 5)或者,相应的对所有的f-1,oM,M A a,肫=q?,这意味着对所有的i=1,MM A=以或口j=0 或以=0(2 1 6)接下来,我们假定A、口满足公式(2 1 4),则有:
42、M;t a r 卢=q 肛卢(2 1 7)也就是对所有的i 一1,M,M A=心或q=0(2 1 8)比较(2 1 6)和(2 1 8)得出,所有满足式(2 1 3)的解都满足式(2 1 4)。而式(2 1 6)和(2 1 8)并没有给出全部的解。给出式(2 1 4)的一组解,可以添加许多核矩阵K 的特征值为O 的特征向量仍然可以满足式(2 1 3)。这意味着存在式(2 1 3)的解,它们具有不同的特征值而在口的空间旱不是正交的。这并不是说在特征空间F 里的协方差矩阵C 的特征向量不是正交的。事实上,如果a 是核矩阵K 的特征值为O 的特征向量,那么相应的向量罗,q m(薯)和所有的特征空间F
43、 中币(x f)所形成的区间的向量都是J 下交的。因为对所有的来说,;q 垂(t)一(K a)J o,也就是;呸()=o。所以,式(2 13)和(2 1 4)的解是不同的,且它们之间解的不同是无关联的。我们要求与式(2 1 3)相关的解,只需要对角化核矩阵K1 2 5 硎。定义矩阵K 的特征值As 九s sk(也就是式2 1 4 中M A 的解),口1,口埘是与特征值相对应的特征向量。A。是第一个非零的特征值。将口p,口肼归一化(假定非线性变换西不为O)。V)-1七一p,M(2 1 9)将式(2 1 0)和(2 1 4)代入式(2 1 5),得到将口P,口归一化的条件【2 8 1:1。,摹。a
44、 弼驴(xr)。驴(x 伪。墨i a?a(2 2 0)-(a 七口)一A I(口a)为了提取主成分,在特征空间计算特征向量V(七=p,M)上的投影,让z 作为一个测试点,在特征空间映射为驴(石),那么有妒o)一善彰“)(2 2 1)式(2 2 1)称为与非线性变换相对应的非线性主成分。主成分的计算概括起来有以下几个步骤【2 9 1:6(1)计算矩阵K:(2)计算矩阵K 的特征值,并在特征空问F 中将其归一化:(3)计算一个测试点在特征向量上的投影。2 2在高维特征空间中心化数据1 3 0-3 2 1在输入空间中对观测值进行中心化比较容易实现。但在特征空间F 中,由于不能精确计算观测变量在特征空
45、间F 中映射后的均值,要对观测值实现中心化是相当困难的。那么,可以通过对基于核的主成分方程稍加修改的方法来实现高维特征空间数据的中心化。给出任意的驴和一组观测值t,X M,记确:叫誓)一吉荟驴“)(2 2 2)多(薯)是中心化数据,在特征空间中定义协方差矩阵以及毫f=(多瓴)莎(x f),则有:互。霞(2 2 3)就公式(2 2 2)来讲,&是特征空间F 里一个特征向量的膨胀系数,矿=:。5,歹(t)。如果没有中心化的数据则不能直接来计算矩阵霞,但是,可以用与之相应的没有中心化的矩阵K 来计算。令;(t)。妒0),并对所有的i,歹令1 一1,(k)甜:-1 M,来计算磊=()芗(鼍):毛;(誓
46、)一吉荟)o,)一吉善矽(_)一一击薹1 拥一万1 善M 蚝1 哪+矿1 互M。k k(2 2 4)=(K k K K 1 肼+1 M k l 肘)i j这样可以通过矩阵K 来计算霞,求解式(2 2 3)的特征值问题。在式(2 2 0)中,通过归一化特征空间F 中相应的向量矿来求解,即五(舀)一1。总之,庐可以看作是到高维空间F 中的非线性映射。在这种情况下,并不需要清楚地知道映射后的具体数值,只需要对输入向量经过非线性驴映射后的点积进行运算(式(2 1 2)和(2 2 1),进行点积运算时,使用的核的形式决定了特征空间F。72 3 核主成分的基本思想i,3 1核主成分是在高维特征空l 开JF
47、 中(图2 2b)做通常的线性主成分分析(图2 1)。特征空间是输入空间(通过妒)非线性变换得到的。在主向量上的连续投影的等高线在输入空问变为非线性的(用箭头表示),在输入空间画不出特征向量的原象。对核主成分来说,其关键在于不必在特征空间对经过多映射后的数据直接进行计算。所有的计算将通过输入空间中的核函数来实现。线性主成分分析(P C A)k(x,Y)=(X y),JR 2X+。一I?叉t?;,一,之x r-。,x 芦一0t分,图2 1核主成分分析(K P C A)例如:k(x,Y);0 y)d一 一7 IIR 2一毒,:x 一+。xXx!x一。X冀志,jU 2 4 核主成分的算法图2 2、J
48、I。“。,。蟛,r,x x、琴,-。,。o x-p。一一。,j F 厂卜。,一b计算基于核的主成分,又称为核主成分,步骤如下:(1)计算矩阵k o 一“,石)玎,(2)通过将K 对角化求解式(2 1 4),并通过使九”a 一)一1 来归一化特征向量相对应的系数口“。(3)提取一个测试点x 的主成分(按照相应的核k),根据下式计算特征向量的映射。8州医科人学硕I:学化沦艾(y”驴0)=罗口?足(,x)霄如果使用的核满足核函数的条件,相当于在高维的特征空问做经典的主成分分析。将输入空间中有关数据的主成分的特性引用到特征空间中,需要选择一个特殊的核函数。核主成分分析的在M a t l a b 软件中
49、的实现步骤1 1 7,1 8 l:(1)输入数据s 一 工。,屯,西,投影后数据维数k;(2)计算核矩阵:K;(七七盯一(一x f),i,_=1,2,z(3)将核矩阵中心化:K K 一;万K 一;蚴+吾(_ 勾)办,其中_ 是元素全为1 的向量;(4)计算核矩阵的特征值和特征向量:A,j i =e i g(K);(5)将特征向量q 规范化:舀,=q 五,_=1,2,k;(6)数据重建:(i)t 每()K ,。),i,-1,2,七;(7)输出变换后的数据集:j=&,s:,函)。2 5 核主成分的特性1 3 4,3 5 l核主成分,实际上就是在特征空间做普通的主成分。因此,所有有关主成分的数学的和
50、统计的特性都适用于核主成分。只是在特征空问是对一组输入空间的数据经过庐变换后的数据爹(鼍),f=L,M,进行操作。在特征空间F 中,主成分是具有以下特性的正交变换。(假定特征向量是按特征值的大小降序排列):各主成分之间不相关。h 茸q(q E 1,M )个主成分,也就是在特征向量上的投影,比其它任何正交方向上的投影所提供的方差贡献率要多。观测数据的前q 个主成分的均方误差最小。前q 个主成分包含了输入空间最大的信息。(这一结论是在高斯性的假设之下,并依赖于数据及所选择的特殊的核得到的)2 6 计算的复杂性【3 8】一个2 5 6 维输入空间的5 次的多项式核可以生成一个1 0 o 维的特征空间