《ch主成分和因子分析.pptx》由会员分享,可在线阅读,更多相关《ch主成分和因子分析.pptx(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、汇报什么?汇报什么?假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,如:固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等。如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?第1页/共55页需要高度概括需要高度概括在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。需要把这种有很多变量的数据进行高度概括。第2页/共55页本章介绍两种把变量维数降低以便于描述、理 解 和 分 析 的 方 法:主 成 分 分 析(principalcomponent
2、analysis)和因子分析(factoranalysis)。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前,先看下面的例子。主成分分析第3页/共55页成绩数据()100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。第4页/共55页从本例可能提出的问题目前的问题是,能否把这个数据的6 6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能否利用找到的综合变量来对学生排序或据此进行其他分析呢?第5页/共55页空间的点例例中中数数据据点点是是六六维维的的;即即每每个个观观测测值值是是6维维空空间间中中的的一一个个点点。希希望望把把6维维空空
3、间间用用低低维空间表示。维空间表示。先先假假定定只只有有二二维维,即即只只有有两两个个变变量量,由由横横坐标和纵坐标所代表;坐标和纵坐标所代表;每每个个观观测测值值都都有有相相应应于于这这两两个个坐坐标标轴轴的的两两个坐标值;个坐标值;第6页/共55页空间的点如如果果这这些些数数据据形形成成一一个个椭椭圆圆形形状状的的点点阵阵(这这在在二二维维正正态态的的假假定定下下是是可可能能的的)该该椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴。在在短短轴轴方方向向上上数据变化很少;数据变化很少;在在极极端端的的情情况况,短短轴轴如如退退化化成成一一点点,长长轴轴的的方方向向可可以以完完全全解解释释这
4、这些些点点的的变变化化,由由二二维到一维的降维就自然完成了。维到一维的降维就自然完成了。第7页/共55页第8页/共55页椭圆的长短轴当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。第9页/共55页如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆的长短轴相差得越大,降维也越有道理。第10页/共55页第11页/共55页主轴和主成分多维变量的情况和二维类似,也有高维的椭球,
5、只不过不那么直观罢了。首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。第12页/共55页正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主轴。和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的 线 性 组 合,叫 做 主 成 分(principalcomponent)。第13页/共55页主成分之选取选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一
6、个大体的说法;具体选几个,要看实际情况而定。第14页/共55页主成分分析的数学主成分分析的数学要要寻寻找找方方差差最最大大的的方方向向。即即,使使向向量量X的的线线性性组组合合aX的的方方差差最最大大的的方方向向a.而而Var(aX)=aCov(X)a;由由于于Cov(X)未未知知;于于是是用用X的的样样本本相相关关阵阵R来来近近似似.要要寻寻找找向向量量a使使得得aRa最最大大(注注意意相相关关阵阵和和协协方方差差阵阵差差一一个个常数)常数)这涉及相关阵和特征值。回顾这涉及相关阵和特征值。回顾选择几个主成分呢选择几个主成分呢?要看要看“贡献率贡献率.”第15页/共55页对于我们的数据,SPS
7、SSPSS输出为这里的Initial Eigenvalues就是这里的六个主轴长度,又称特征值(数据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。第16页/共55页特征值的贡献还可以从SPSS的”碎石”图看出第17页/共55页怎么解释这两个主成分。主成分是原始六个变量的线性组合。这由下表给出。这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分为数学、物理、化学、语文、历史、英语这六个变量的线性组合,系数(比例)为。第18页/共55页如用x x1 1,x x2 2,x x3 3,x x4 4,x x5 5,x x6 6分别表
8、示原先的六个变量,而用y y1 1,y y2 2,y y3 3,y y4 4,y y5 5,y y6 6表示新的主成分,那么,第一和第二主成分为这些系数称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。第19页/共55页比如y1表示式中x1的系数为,这就是说第一主成分和数学变量的相关系数为。相关系数(绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。第20页/共55页可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。第21页/共55页该
9、图左面三个点是数学、物理、化学三科,右边三个点是语文、历史、外语三科。图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还是可以识别的。第22页/共55页因子分析主成分分析从原理上是寻找椭球的所有主轴。原先有几个变量,就有几个主成分。而因子分析是事先确定要找几个成分,这里叫因子(factor)(比如两个),那就找两个。这使得在数学模型上,因子分析和主成分分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点,它还 多 一 道 工 序:因 子 旋 转(factorrotation);这个步骤可以使结果更好。第23页/
10、共55页对于计算机,因子分析并不费事。从输出的结果来看,因子分析也有因子载荷(factor loading)的概念,代表了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷位置和主成分分析不同。因子分析也给出了二维图;其解释和主成分分析的载荷图类似。第24页/共55页主成分分析与因子分析的公式上的区别主成分分析因子分析(mp)因子得分第25页/共55页因子分析的数学因子分析的数学因子分析需要许多假定才能够解.具体公式.第26页/共55页对于我们的数据,SPSSSPSS因子分析输出为第27页/共55页这个表说明六个变量和因子的关系。为简单记,我们用x1,x2,x3,x4,x5,x6来表示m
11、ath(数学),phys(物理),chem(化学),literat(语文),history(历史),english(英语)等变量。这样因子f1和f2与这些原变量之间的关系是(注意,和主成分分析不同,这里把成分(因子)写在方程的右边,把原变量写在左边;但相应的系数还是主成分和各个变量的线性相关系数,也称为因子载荷):第28页/共55页第29页/共55页这里,第一个因子主要和语文、历史、英语三科有很强的正相关;而第二个因子主要和数学、物理、化学三科有很强的正相关。因此可以给第一个因子起名为“文科因子”,而给第二个因子起名为“理科因子”。从这个例子可以看出,因子分析的结果比主成分分析解释性更强。第3
12、0页/共55页这些系数所形成的散点图(在SPSS中也称载荷图)为可以直观看出每个因子代表了一类学科 第31页/共55页计算因子得分可以根据输出可以根据输出算出每个学生的第一个因子和第二个因子的大小,即算出每个学生的因子得分f1和f2。第32页/共55页该输出说明第一和第二主因子为(习惯上用字母f来表示因子)可以按照如下公式计算,该函数称为因子得分(factor score)。人们可以根据这两套因子得分对学生分别按照文科和理科排序。当然得到因子得分只是SPSS软件的一个选项。第33页/共55页因子分析和主成分分析的一些注意事项可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信
13、息。所以原始变量的选择很重要。另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。第34页/共55页在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系在用因子得分进行排序时要特别小心,特别是对于敏感问题。由于原始变量不同,因子的选取不同,排序可以很不一样。第35页/共55页附录附录第36页/共55页的的pp矩阵矩阵.而对于观测值而对于观测值X=(x1,xp),其中其中xi=(x1i,xni),i=1,p,的样本相关阵第的样本相关阵第(ij)-元素为元素为
14、X=(X1,Xp)的的相关阵为第相关阵为第(ij)-元素为元素为的的pp矩阵矩阵,其中其中sij为第为第i和第和第j观测的样本相观测的样本相关系数关系数第37页/共55页关于特征值和特征向量关于特征值和特征向量特征方程特征方程|R-l lI|=0的解为特征值的解为特征值l l,这这里里B为一个为一个p维正定方阵维正定方阵.l l通常有通常有p个根个根l l1 l l2 l lp.满足满足(R-l liI)xi=0的向量的向量xi为为l li的特征向量的特征向量.对任意向量对任意向量a有性质有性质第38页/共55页头头m个主成分的累积贡献率个主成分的累积贡献率:这里R为X的样本相关阵,第i个特征
15、值l li=aiRai=V(aix);ai为第i个特征向量.Cov(aix,ajx)=0.第39页/共55页这里这里a aijij为第为第i i个特征向量的第个特征向量的第j j个分量个分量;第第i i个主成分的载荷平方和为该主成分的个主成分的载荷平方和为该主成分的方差方差,等于其特征值等于其特征值l li i.所选的所选的m m个主成分个主成分对变量对变量x xj j的的总方差贡献总方差贡献为为主成分负荷主成分负荷(载荷载荷,loading):Yi与与Xj的的相关系数相关系数:第40页/共55页第41页/共55页正交因子模型:正交因子模型:X-m m=AF+e em mi=变量变量i的均值的
16、均值e ei=第第i个特殊因子个特殊因子Fi=第第i个公共因子个公共因子aij=第第i个变量在个变量在第第j个因子上的载荷个因子上的载荷不能观测的值满足下列条件:不能观测的值满足下列条件:F和和e e独立独立E(F)=0,Cov(F)=IE(e e)=0,Cov(e e)=Y Y,Y Y是对角矩阵是对角矩阵第42页/共55页F为公共因子向量,每个公共因子(如Fi)是对模型中每个变量都起作用的因子;而e e为特殊因子向量,每个特殊因子(如e ei)只对一个变量(第i个)起作用.第43页/共55页因子分析的方法在于估计因子分析的方法在于估计S S=AA+Y Y和和Y Y,再分解以得到再分解以得到A
17、.X的协方差阵的协方差阵S S可以可以分解成分解成这里这里l l1 l l2 l lp为为S S的特征值的特征值;而而e1,ep为相应的特征向量为相应的特征向量(e1,ep为主为主成分的系数成分的系数,因此称为主成分法因此称为主成分法).上面分上面分解总是取和数的重要的头几项来近似解总是取和数的重要的头几项来近似.第44页/共55页X的协方差阵的协方差阵S S可以近似为可以近似为(如如Y Y忽略忽略)如如Y Y不忽略不忽略,S S可以近似为可以近似为应用中应用中,S,S可以用样本相关阵可以用样本相关阵R代替代替.第45页/共55页正交模型正交模型X=m m+AF+e e的协方差结构的协方差结构
18、根据前面模型,可得出下面结果:根据前面模型,可得出下面结果:上面上面s sii2=S Sjaij2+y yi2中中,S Sjaij2称为称为共性方共性方差差(公共方差公共方差或或变量共同度变量共同度common variance,communalities),而,而y yi2称为称为特特殊方差殊方差.变量共同度刻画全部公共因子对变量共同度刻画全部公共因子对变量变量Xi的总方差所做的贡献的总方差所做的贡献.第46页/共55页的统计意义就是第i个变量与第j个公共因子的相关系数,表示Xi依赖Fj的份量,这里eij是相应于特征值l li的特征向量ei的第j个分量.因子载荷阵中各列元素的平方和Sj=S
19、Siaij2称为公共因子Fj对X诸变量的方差贡献之总和因子载荷第47页/共55页除主成分法外还有最大似然法来估计除主成分法外还有最大似然法来估计A,m m和和Y Y(在多元正态分布的假定下在多元正态分布的假定下).).当然当然,还有其他方法还有其他方法(有些互相类似有些互相类似).).第48页/共55页令令T为任意为任意m正交方阵正交方阵(TT=TT=I),则则X-m m=AF+e=e=ATTF+e=Ae=A*F*+e,e,这这里里A A*=AT,F*=TF.因此因此S S=AA+Y Y=ATTA+Y Y=(A*)(A*)+Y Y因此因此,因子载荷因子载荷A只由一个正交阵只由一个正交阵T决决定
20、定.载荷载荷A A*=AT与与A都给出同一个表都给出同一个表示示.由由AA=(A*)(A*)对角元给出的共对角元给出的共性方差性方差,也不因也不因T的选择而改变的选择而改变.第49页/共55页正交变换正交变换T相当于相当于刚体刚体旋旋转转(或反射或反射),因子载荷因子载荷A的的正交变换正交变换AT称为称为因子旋转因子旋转估计的协方差阵或相关阵估计的协方差阵或相关阵,残差阵残差阵,特殊方差及共性特殊方差及共性方差都不随旋转而变方差都不随旋转而变.这里这里“残差阵残差阵”为协方差阵或相关阵与估计的为协方差阵或相关阵与估计的AA+Y Y之差之差.第50页/共55页因子旋转的因子旋转的一个一个准则为最
21、大方差准则准则为最大方差准则.它使旋转后的因子载荷它使旋转后的因子载荷的总方差达到最大的总方差达到最大.如如即要选变换即要选变换T使下式最大使下式最大(计算机循环算法计算机循环算法)第51页/共55页需要由需要由X=AF变成变成F=b bX.或或Fj=b bj1X1+b bjpXp j=1,m,称为称为因子得分因子得分(函数函数).这通常用加权最小二乘法或回归法等来求得这通常用加权最小二乘法或回归法等来求得.第52页/共55页总结总结模型模型X=m m+AF+e e因子分析的步骤因子分析的步骤1根据问题选取原始变量;根据问题选取原始变量;2求其相关阵求其相关阵R,探讨其相关性;探讨其相关性;3从从R求解初始公共因子求解初始公共因子F及因子载荷矩阵及因子载荷矩阵A(主成分法或最主成分法或最大似然法大似然法)4因子旋转;因子旋转;5由由X=AF到到F=bX(因子得分函数因子得分函数)6根据因子得分值进行进一步分析根据因子得分值进行进一步分析.第53页/共55页回到数值例子回到我们成绩例子.第54页/共55页感谢您的观看!第55页/共55页