《主成分分析(共15页).docx》由会员分享,可在线阅读,更多相关《主成分分析(共15页).docx(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上主成分分析专题1 引言我们在作数据分析处理时,涉及的样品往往包含有多个测量指标(比如个指标),较多的指标会带来分析问题的复杂性。然而,这些指标彼此之间常常存在着一定程度的、有时甚至是相当高的相关性,这就使含在观测数据中的信息在一定程度上有所重叠。主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。这些综合指标能够反映原始指标的绝大部分信息,它们通常表示为原始个指标的某种线性组合。为了使这些综合指标所含的信息互不重叠,应要求它们互不相关。例如,考虑2的情形,假设共有个样品,每个样品都测量了两个指标,它们大致分布在一个椭圆内。如图所示。显然,在坐
2、标系中,个点的坐标和呈现某种线性相关性。我们将该坐标系按逆时针方向旋转某个角度变成新坐标系,这里是椭圆的长轴方向,是短轴方向。旋转公式为易见,个点在新坐标系下的坐标和几乎不相关。和称为原始变量和的综合变量,个点在轴上的方差达到最大,即在此方向上所含的有关个样品间差异的信息是最多的。因此,若欲将二维空间的点投影到某个一维方向,则选择轴方向能使信息的损失降低到最小。我们称轴为第一主成分,而与轴正交的轴,有着较小的方差,称为第二主成分。第一主成分的效果与椭圆的形状有很大关系,椭圆越是扁平,个点在轴上的方差就相对越大,在轴上的方差就相对越小。考虑这样两种极端的情形:一种是椭圆的长轴与短轴的长度相等,即
3、椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50的信息,这显然是不可取的。造成它的原因是,原始变量和的相关程度几乎为零,也就是说,和所包含的信息几乎互不重叠,因此无法用一个一维的综合变量来代替它们。另一种是椭圆扁平到了极限,变成轴上的一条线段,第一主成分包含有二维空间点的100信息,仅用这一个综合变量代替原始的二维变量不会有任何的信息损失,此时的主成分分析效果是非常理想的。其原因是,原始变量和可以相互确定,它们所含的信息是完全相同的,因此使用一个综合变量也就完全足够了。2 总体的主成分一、主成分的定义及导出设为一个维随机向量,并假定二阶矩存在,备注:设和
4、是随机变量,若,存在,称它为的阶原点矩,简称阶矩。若,存在,称它为的阶中心矩。若,存在,称它为和的阶混合矩。若,存在,称它为和的阶混合中心矩。显然,二维随机变量有四个二阶中心矩(设它们都存在),分别记为将它们排成矩阵的形式:这个矩阵称为随机变量的协方差矩阵。设维随机变量的二阶混合中心矩,都存在,则称矩阵为维随机变量的协方差矩阵。由于(),因而上述矩阵是一个对称矩阵。一般,维随机变量的分布是不知道的,或者是太复杂,以致在数学上不易处理,因此在实际应用中协方差矩阵就显得重要了。备注完毕。记,。考虑如下的线性变换(7.2.1)我们希望是的一切线性函数中方差最大的。因为,对任意的常数,所以如不对加以限
5、制,就会使问题变得没有什么意义。于是常常限制(7.2.2)故我们希望在(7.2.2)的条件下寻求向量,使得达到最大,就称为第一主成分。设(因为非负定)为的特征值,为相应的单位特征向量,且相互正交。则的谱分解为:(7.2.3)其中为正交矩阵。对维单位向量,有备注:备注完毕。即第一主成分方差的上确界为。当取时,有(7.2.4)或所以,就是所求的第一主成分,它的方差具有最大值。如果第一主成分所含信息不够多,还不足以代表原始的个变量,则需考虑使用,为了使所含的信息与不重叠,应要求(7.25)于是,我们在约束条件(7.2.2)式和(7.2.5)式下寻求向量,使达到最大,所求的称为第二主成分。类似地,我们
6、可以再定义第三主成分、第主成分。一般来说,的第主成分是指:在约束条件(7.2.2)和(7.2.6)下寻求,使得达到最大。现在我们来求维单位向量,使得为第二主成分。由(7.2.6)式知由于,所以,即与正交。从而故若取,则有(7.2.7)所以,就是所求的第二主成分,具有方差。一般地,我们可求得第主成分为,它具有方差,。二、主成分的性质1. 主成分的均值和协方差矩阵记,由于(7.2.8)故主成分的均值为(7.2.9)协方差矩阵为(7.2.10)2. 主成分的总方差由于,备注:若,均为方阵,则。备注完毕。所以(7.2.11)或由此可以看出,主成分分析把个原始变量的总方差分解成了个不相关的变量的方差之和
7、。主成分分析的目的就是为了减少变量的个数,一般是不会使用所有个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。我们称为主成分的贡献率;第一主成分的贡献率最大,这表明综合原始变量的能力最强,而的综合能力依次递减。若只取()个主成分,则称为主成分的累计贡献率,累计贡献率表明综合的能力。通常取,使得累计贡献率达到一个较高的百分数(如85)以上。3. 变量与主成分之间的相关系数变量与主成分之间的相关系数的计算公式为(7.2.12)由(7.2.8)式知(7.2.13)若记,则所以代入(7.2.12)式得(7.2.14)即(7.2.14)所有这些相关系数列于表7.1中。在实际应用中,通常
8、我们只对与的相关系数感兴趣,因此往往只列出表7.1的前列,即形成表。表7.1 变量与主成分之间的相关系数主成分原始变量4. 个主成分对原始变量的贡献率前面提到的累计贡献率这个概念度量了主成分从原始变量中提取信息的多少,那么,包含有的多少信息应该用什么指标来度量呢?这个指标就是与的复相关系数的平方,称为个主成分对原始变量的贡献率,记为。易知,即(7.2.15)这些值列于表7.2中。表7.2 个主成分对原始变量的贡献率原始变量由式知,对的贡献率。另外,下式也可证明:(7.2.16)备注:事实上,因为,所以,另外,备注完毕。三、载荷矩阵可以表达为可见,的每一分量均可表示成主成分的线性组合。如果我们选
9、取前个主成分,并记(7.2.17)则有即的每一个分量均可近似地表示为前个主成分的线性组合。由前面知是不相关的,且,即(7.2.19)和(7.2.20)比较(7.2.19)与(7.2.20)两式,可以看出用去代替时,一般能说明方差的大部分,所占比例为(7.2.21)可见,相对越大,上述比值一般就越大,说明用个主成分来综合反映原始变量的效果也就越好。另一方面这个比值也取决于,我们称为第个原始变量在第个主成分的载荷,而称由矩阵的前列组成的矩阵为主成分的载荷矩阵,记为,即即我们来分析一下载荷矩阵中元素代表的意义。中的第列反映了主成分对原始变量各分量的作用。如果中出现了一列中只有一个非零元素,不妨设第1
10、列为这时即则表明第一主成分只对原始变量有作用,而对其它的原始变量都不起作用;如果中某一列的元素均不为零,则表明这一列相应的主成分对各原始变量都起作用。因此我们把前一种主成分称为特殊成分,而把后一种主成分称为公共成分。由此可见,载荷矩阵的具体形式可供我们分析每一主成分对诸原始变量的贡献。所以,在主成分分析中,在求出主成分的同时,还应求出载荷矩阵。在实际应用中,一般先对个主成分的方差施行标准化,然后再求出主成分的载荷矩阵。即令于是备注:备注完毕。所以,由(7.2.17)式得其中即,且这是用标准化的主成分近似表示原始变量的公式。此时的方差可表示为,(7.2.24)称为标准化主成分的载荷矩阵。如果对标
11、准化的主成分施行一个正交变换,即令(7.2.25)其中为一个正交矩阵,则有故仍然是标准化的主成分。又,因此也可用来表示,即有(7.2.26)其中为标准化主成分的载荷矩阵。与(7.2.24)式同样的道理,有,(7.2.27)故,(7.2.28)这表明标准化的主成分经过正交变换后,的方差及其表达形式都是不变的。这种不变的性质在很大程度上允许我们寻求这样标准化主成分的正交变换,使得变换后的载荷矩阵具有更鲜明的实际意义。四、从相关矩阵出发求主成分我们前面讨论的主成分是从协方差矩阵出发求得的,其结果受原始个变量单位的影响。不同的变量往往有不同的单位,对同一变量使用不同的单位会产生不同的主成分,主成分会过于照顾方差()大的变量,而对方差小的变量却照顾得不够。为使主成分分析能够均等地对待每一个原始变量,消除由于单位的不同而可能带来的一些不合理影响,常常将各原始变量作标准化处理,即令,(7.2.29)显然,的协方差矩阵就是的相关矩阵。从出发求得主成分的方法与从出发是完全类似的,并且主成分的一些性质具有更简洁的数学形式。首先对进行谱分解,即存在正交矩阵,使得(7.2.30)这里,为的个特征值。由此得到个主成分,。记于是(7.2.31)上述主成分具有的性质可概括如下:(1) ,(2) (3) 变量与主成分之间的相关系数为(4)主成分对变量的贡献率为(5)专心-专注-专业