《第8章-主成分与因子分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第8章-主成分与因子分析优秀PPT.ppt(31页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第8章章 主成分与因子分析主成分与因子分析 主成分分析与因子分析主成分分析与因子分析的目的在于降降维维,即在众多存在的相关性的变量中,找出少数几个综合性变量,来反映原来变量所反映的主要信息,使问题简化。主要作用主要作用o能降低所探讨的数据空间的维数;o可用于分析筛选回来变量,构造回来模型;o可用于综合评价;o可对变量进行分类 主要内容主要内容8.1 主成分分析主成分分析8.2 因子分析因子分析8.3 主成分分析和因子分析的区分主成分分析和因子分析的区分8.4 用用SPSS进行因子分析进行因子分析8.1 主成分分析主成分分析8.1.1 主成分分析的数学模型1.主成分主成分(Principal
2、Components)含义:含义:例:上衣尺寸主要包括领长、袖长、衣长、例:上衣尺寸主要包括领长、袖长、衣长、号号 领围、肩宽、臂围、胸围、腰围、臀围、袖宽等领围、肩宽、臂围、胸围、腰围、臀围、袖宽等 14 型型个变量,明显它们是相关的,因此可以找出反映上衣特个变量,明显它们是相关的,因此可以找出反映上衣特征的两个不相关的综合变量,就是上衣的号和型。征的两个不相关的综合变量,就是上衣的号和型。如:(男)如:(男)180/100A、175/96A;(女);(女)165/84A等等 F1 *2.如何实现:如何实现:儿童身高儿童身高(X1)和体重和体重(X2)两个两个变变量之量之间间的关系可以用散点
3、的关系可以用散点图图表示出来,如表示出来,如图图8.1所示。所示。明明显显,这这两个两个变变量之量之间间存在存在线线性关系。性关系。现现在以直在以直线线P1为为横坐横坐标标,以,以该轴该轴的垂直的垂直线线P2为纵为纵坐坐标标,建立一个新的平面直角坐,建立一个新的平面直角坐标标系,系,则则全部全部观测观测点均在坐点均在坐标轴标轴P1四周四周(即沿即沿该该方向方向观测值观测值方差最方差最大大),而在坐,而在坐标轴标轴P2方向上的波方向上的波动动很小,可以忽很小,可以忽视视。这样这样,二,二维问题维问题即可以降即可以降为为一一维问题维问题,只取一个,只取一个综综合合变变量量P1(主成分主成分)即可。
4、即可。X2F2 *X1 相当于在平面上做一个坐标变换,即按逆时针方向旋转角度,依据旋转变换公式,新旧坐标之间有如下关系 主成分就是P个原始变量的某种线性组合;从几何意义上看,这些线性组合正是由X1,X2,XP构成的坐标系经旋转而产生的新坐标系,新坐标系使之通过变差最大的方向(或者说具有最大的样本方差)。3.建立主成分分析的数学模型:建立主成分分析的数学模型:假设观测 p 项变量(指标),记为X1,X2,Xp,取n件样品,原始数据资料阵为指标1(X1)指标2(X2)指标p(Xp)第1次观测值第n次观测值 为找出主成分,寻求原变量X1,X2,Xp的线性组合Fi,其数学模型 模型可简写为P=u1X1
5、+u2X2+upXp=UTX若令式中U=(u1,u2,up)T,X=(X1,X2,XP)T满足如下的条件:(1)Pi和Pj不相关,即(2)主成分的方差依次递减,重要性依次递减,即称Pi为第i主成分(i=1,2,p)。(3)总方差不变,即(4)每个主成分的系数平方和为1,即4主成分的求法(见板书)5主成分个数的提取为简化问题,通常提取q(qp)个主成分,原则是这q个主成分能够反映出原来P个变量的绝大部分的方差。几个概念:1)主成分的方差贡献率第i个主成分的方差在全部方差中所占的比重:称为第i个主成分的方差贡献率,反映了第i个主成分综合原来P个变量信息的实力。2)主成分的累积方差贡献率 前q个主成
6、分共有多大的信息综合实力,用这q个主成分的方差和在全部方差中所占比重来描述,称为前q个主成分的即即8.1.2 主成分分析的步骤及应用1.主成分分析的步骤第一步:确定分析变量,收集数据资料。其次步:对原始数据进行标准化。第三步:对标准化后的样本数据资料计算协差阵或相关阵。第四步:计算或R的特征值及相应的特征向量Ui,并按i 的大小排序(i=1,2,p)。第五步:计算主成分的贡献率及累计贡献率。第六步:确定主成分个数。1.取累计贡献率80%的前q个主成分2.选用特征值1的前q个主成分。第七步:将样本数据代入前q个主成分的表达式,可分别计 算出各单位前q个主成分的得分。2.主成分分析的应用【例8.1
7、】某地区为了对14家工业企业进行经济效益的综合评估,选择了8项不同的利润指标,包括净产值利润率X1(%)、固定资产利润率X2(%)、总产值利润率X3(%)、销售收入利润率X4(%)、产品成本利润率X5(%)、物耗利润率X6(%)、人均利润率X7(%)、流淌资金利润率X8(%)。统计数据资料如下表8-1所示。(见书)8.2 因子分析8.2.1 因子分析的数学模型 1因子分析的含义因子分析是主成分分析的推广,它是探讨存在相关关系的变量之间,是否存在不能干脆观测到但对可观测指标的变化起支配作用的潜在因子(factor)的分析方法。2因子分析的基本原理因子分析就是通过变量的相关系数矩阵内部结构的探讨,
8、找出能限制全部变量的少数几个公共因子去描述多个变量之间的相关关系,然后依据相关性的大小把变量分组.共享这4个公共因子,但是每个变量又有自己的特性,即不被包含的特殊因子例:某公司聘请人才,对每位应聘者进行外貌、求职信的形式、例:某公司聘请人才,对每位应聘者进行外貌、求职信的形式、专业实力、讨人宠爱的实力、自信念、洞察力、诚恳、推销本专业实力、讨人宠爱的实力、自信念、洞察力、诚恳、推销本事、阅历、主动性、志向、理解实力、潜在实力、实际实力、事、阅历、主动性、志向、理解实力、潜在实力、实际实力、适应性等适应性等15个方面的考核。这个方面的考核。这15个方面可归结为应聘者的外露个方面可归结为应聘者的外
9、露实力、讨人宠爱的实力、阅历、专业实力实力、讨人宠爱的实力、阅历、专业实力4个方面,每一方面个方面,每一方面称之为一个公共因子。企业可依据这称之为一个公共因子。企业可依据这4个公共因子的状况来衡个公共因子的状况来衡量应聘者的综合水平。这量应聘者的综合水平。这4个公共因子可以表示为个公共因子可以表示为是不行观测的潜在因子,即公共因子。15个变量 3因子分析的数学模型假设有n个样品,每个样品观测p项变量(指标),记为X1,X2,Xp,原始数据资料阵=(X1,X2,Xp)则因子分析的一般数学模型为矩阵形式为称为公共因子 A=aij(i=1,2,p;j=1,2,m)称为载荷矩阵 aij为第i个变量在第
10、j个公共因子上的载荷,简称因子载荷。是特殊因子,是不能被前m个公共因子包含的部分 满足如下的条件:(1)mp。(2)假定特殊因子 听从(3)(4)假定原始变量、公共因子和特殊因子都已标准化,即平均值为0,方差为1。8.2.2 因子载荷因子载荷在上式的两边右乘以,再求数学期望 由于在标准化下,原始指标X、公共因子F和特殊因子都已标准化,平均值为0,方差为1;而且各因子不相关。因此,有可知,因子载荷 是变量Xi与公共因子Fj的相关系数(即载荷矩阵中第i行第j列的元素),反映了变量Xi与公共因子Fj的相关程度。,确定值越接近于1,表明公共因子Fj与变量Xi的相关性越强。同时因子载荷 也反映了公共因子
11、Fj对原始变量Xi的重要作用和程度。1因子载荷矩阵中的几个统计特征因子载荷矩阵中的几个统计特征1)因子载荷aij的统计意义2)变量共同度的统计意义变量Xi的共同度 也就是变量Xi的方差 说明说明对两边求方差有 由于X和F已标准化了,所以有hi2,是全部公共因子对Xi的总方差的贡献,即全部公共因子对Xi的说明贡献程度 2,仅与Xi本身的变更有关,即变量Xi的方差中不能由全体公共因子说明说明的比例,2越小,说明变量Xi的信息损失越少。3)公共因子方差贡献的统计意义公共因子Fj的方差贡献是因子载荷矩阵中各列元素的平方和 公共因子Fj的方差贡献反映了公共因子Fj对原始变量的说明实力。该值越高,说明相应
12、公共因子的重要性越高。2因子载荷矩阵的估计方法因子载荷矩阵的估计方法要建立实际问题的因子分析模型,关键是要依据样本数据估计因子载荷矩阵A,目前较为普遍运用的是主成分分析法 1)先对数据进行一次主成分分析 得到主成分分析的模型为 样本协差阵S的特征值 对应的单位正交特征向量u1,u2,up 然后计算p个主成分 当略去特殊因子时,因子分析模型变为X=AF 所以因子载荷矩阵A的第j列应为,即载荷矩阵A的样本估计量为 当相关变量所取单位不同时,我们常常先对变量标准化,标准化样本协差阵S就是原始变量的样本相关阵R,再用R代替S,与上类似,进行载荷矩阵的估计。实际应用时通常依据公共因子的累积贡献率是否达到
13、80%以上,确定所取公共因子的个数。8.2.3 因子旋转与因子得分因子旋转与因子得分1因子旋转因子旋转 因子分析的目的是知道每个公共因子的实际意义(即命名说明),以便对实际问题进行科学的分析。由于因子载荷阵的不唯一性,可以对其进行旋转,使每个变量只在一个公共因子上有较大的载荷,而在其余公共因子上的载荷比较小。2.方差最大正交旋转法方差最大正交旋转法 方差最大正交旋转法是从初始因子载荷矩阵的每一列动身,使和每个因子有关的载荷的平方的方差最大。先考虑两个因子的平面正交旋转,设因子的载荷矩阵为则因子分析模型为 方差最大正交旋转法的目的是希望通过因子旋转后,使每个因子上的载荷尽量拉开距离,一部分的载荷
14、趋于1,另一部分趋于0。这事实上希望将指标X1、X2,XP分成两部分,一部分主要与第一公共因子有关,另一部分主要与其次公共因子有关 也就是要求要求(b112,b212,bp12)和(b122,b222,bp22)两组数据的方差V1和V2尽可能地大。即正交旋转的角度必需满足使达到最大值。这里取bij2是为了消退符号不同的影响,除以hi2是为了消退各个变量对公共因子依靠程度不同的影响。令 有 假如公共因子有m(m2)个,则需逐次取2个公共因子全部配对进行上述的旋转,共需旋转Cm2次算作一个循环,如循环完毕得出的因子载荷矩阵还没有达到目的,则可以进行其次轮Cm2次配对旋转,依次进行,直到达到实际要求
15、为止。3因子得分因子得分 要运用这些公共因子做其他的探讨,比如把得到的公共因子作为自变量来做回来分析,对样本进行分类或评价,这就须要我们对公共因子进行测度,即给出公共因子的值(将公共因子表示为变量的线性组合)。设公共因子由原始变量表示的线性组合为 称式(8.21)为因子得分函数。由于方程的个数少于变量的个数(即mp),所以只能在最小二乘意义下对因子得分函数的系数进行估计。设公共因子可以对p个变量做回来,即建立回来方程为变量和公共因子均已标准化,故有bj0=0。由最小二乘估计有R为原始变量的相关系数矩阵。8.2.4 因子分析的步骤及应用因子分析的步骤及应用1.因子分析的步骤因子分析的步骤第一步:
16、确定分析变量,收集数据资料。第一步:确定分析变量,收集数据资料。其次步:对原始数据进行标准化。其次步:对原始数据进行标准化。第三步:计算所选变量的相关系数矩阵,推断所选变量是否第三步:计算所选变量的相关系数矩阵,推断所选变量是否 适宜做因子分析。适宜做因子分析。第四步:提取公共因子。第四步:提取公共因子。第五步:因子旋转。假如公共因子的实际含义不清,须要通第五步:因子旋转。假如公共因子的实际含义不清,须要通 过坐标变换使每个原始变量在尽可能少的公共因过坐标变换使每个原始变量在尽可能少的公共因子子 之间有亲密的关系。之间有亲密的关系。第六步:计算公共因子得分。第六步:计算公共因子得分。2.因子分
17、析的应用因子分析的应用8.3 主成分分析和因子分析的区分主成分分析和因子分析的区分主要体现在:(1)主成分分析是将主成分表示为原观测变量的线性组合 而因子分析是将原观测变量表示为各公共因子的线性组合(2)主成分分析中公共因子数等于变量数,没有特殊子;而因子分析中公共因子数少于变量数,有各变量的特殊因子。(3)主成分分析不须要有假设,因子分析则须要一些假设。因子分析的假设包括各个共同因子之间不相关、特殊因子之间不相关、共同因子和特殊因子之间不相关。(4)主成分分析中,每个变量的系数uij唯一确定;但因子分析中,每个因子的系数aij不是唯一的。(5)主成分分析的重点在于说明各个变量的总方差,而因子分析则把重点放在说明各变量之间的协方差。8.4 用SPSS进行因子分析o选择菜单AnalyzeData ReductionFactor,弹出Factor Analyze对话框。数据文件中的全部变量 须要进行因子分析变量 选择数据的变量选择描述统计量选择提取公共因子方法 选择因子旋转方法 选择计算因子得分的方法 小结 总之,主成分分析与因子分析就是这样的降维方法,它可以在众多的变量中,找出少数几个综合性变量,来反映原来变量所反映的主要信息,使问题简化。