主成分分析与因子分析.ppt

上传人:豆**** 文档编号:56515229 上传时间:2022-11-02 格式:PPT 页数:53 大小:1.02MB
返回 下载 相关 举报
主成分分析与因子分析.ppt_第1页
第1页 / 共53页
主成分分析与因子分析.ppt_第2页
第2页 / 共53页
点击查看更多>>
资源描述

《主成分分析与因子分析.ppt》由会员分享,可在线阅读,更多相关《主成分分析与因子分析.ppt(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、主成分分析与因子分主成分分析与因子分析析汇报什么?汇报什么?假定你是一个公司的财务经理,掌握了公司的所假定你是一个公司的财务经理,掌握了公司的所有数据,比如有数据,比如固定资产、流动资金、每一笔借贷固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教产值、利润、折旧、职工人数、职工的分工和教育程度等等育程度等等。如果让你向上面介绍公司状况,你能够把这些指如果让你向上面介绍公司状况,你能够把这些指标和数字都标和数字都原封不动地摆出去吗原封不动地摆出去吗?当然不能。当然不能。你必须要把各个方

2、面作出高度概括,你必须要把各个方面作出高度概括,用一两个指用一两个指标简单明了地把情况说清楚。标简单明了地把情况说清楚。对众多变量进行降维对众多变量进行降维每个人都会遇到有每个人都会遇到有很多变量很多变量的数据。的数据。比比如如全全国国或或各各个个地地区区的的带带有有许许多多经经济济和和社社会会变变量量的的数数据据;各个学校的研究、教学等各种变量的数据等等。各个学校的研究、教学等各种变量的数据等等。这这些些数数据据的的共共同同特特点点是是变变量量很很多多,在在如如此此多多的的变变量量之之中中,有有很很多多是是相相关关的的,即即有有很很多多重重叠叠信信息息。人人们们希希望望能能够够找找出它们的出

3、它们的少数少数“代表代表”来对它们进行描述。来对它们进行描述。本本章章就就介介绍绍两两种种把把变变量量维维数数降降低低以以便便于于描描述述、理理解解和和分分析析 的的 方方 法法:主主 成成 分分 分分 析析(principal principal component component analysisanalysis)和和因因子子分分析析(factor factor analysisanalysis)。实实际际上上主主成成分分分分析析可可以以说说是是因因子子分分析析的的一一个个特特例例。在在引引进进主主成成分分析之前,先看下面的例子。分分析之前,先看下面的例子。成绩数据(成绩数据(stud

4、ent.sav)100个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史史、英语的成绩如下表(部分)。英语的成绩如下表(部分)。从本例可能提出的问题从本例可能提出的问题目目前前的的问问题题是是,能能不不能能把把这这个个数数据据的的6 6个个变变量用一两个综合变量来表示呢?量用一两个综合变量来表示呢?这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的的信信息息呢?呢?能能不不能能利利用用找找到到的的综综合合变变量量来来对对学学生生排排序序呢呢?这这一一类类数数据据所所涉涉及及的的问问题题可可以以推推广广到到对对企企业业,对对学学校校进进行行分分析析、排排序序、判判别别和和

5、分类等问题。分类等问题。主成分分析主成分分析(PrincipalComponentsAnalysis)例例中中的的数数据据点点是是六六维维的的;也也就就是是说说,每每个个观观测测值值是是6维维空空间间中中的的一一个个点点。我我们们希希望望把把6维维空空间间用用低低维维空空间间表表示示。由由于于6维维空空间间无无法法直直接接观观察察,因因此此,我我从从2维维空空间间开开始始解解释释主主成成分分析的原理。分分析的原理。主成分分析原理主成分分析原理当当散散点点呈呈椭椭圆圆状状分分布布时时,代代表表长长轴轴的的变变量量就就描描述述了了数数据据的的主主要要变变化化,而而代代表表短短轴轴的的变变量量就就描

6、描述述了了数据的次要变化。数据的次要变化。但但是是,坐坐标标轴轴通通常常并并不不和和椭椭圆圆的的长长短短轴轴平平行行。因因此此,需需要要寻寻找找椭椭圆圆的的长长短短轴轴,并并进进行行变变换换,使使得得新变量和椭圆的长短轴平行。新变量和椭圆的长短轴平行。如如果果长长轴轴变变量量代代表表了了数数据据包包含含的的大大部部分分信信息息,就就用用该该变变量量代代替替原原先先的的两两个个变变量量(舍舍去去次次要要的的一一维维),降维就完成了。,降维就完成了。椭椭圆圆(球球)的的长长短短轴轴相相差差得得越越大大,降降维维也也越越有有道道理。理。主成分分析的几何解释平移、旋转坐标轴主成分分析的几何解释平移、旋

7、转坐标轴 主成分分析的几何解释平移、旋转坐标轴主成分分析的几何解释平移、旋转坐标轴样本数据的标准化可解决平移问题 根据旋转变换的公式:主成分分析主成分分析对对于于多多维维变变量量的的情情况况和和二二维维类类似似,也也有有高高维维的的椭椭球,只不过无法直观地看见罢了。球,只不过无法直观地看见罢了。首首先先把把高高维维椭椭球球的的主主轴轴找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量;这这样样,主主成分分析就基本完成了。成分分析就基本完成了。注注意意,和和二二维维情情况况类类似似,高高维维椭椭球球的的主主轴轴也也是是互互相相垂垂直直的的。

8、这这些些互互相相正正交交的的新新变变量量是是原原先先变变量量的的线性组合,叫做主成分线性组合,叫做主成分(principalcomponent)。主成分分析的主成分分析的数学模型数学模型 假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,Fk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。满足如下的条件:主成分之间相互

9、独立,即无重叠的信息。即主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为每个主成分的系数平方和为1。即。即样本数据的标准化可解决平移问题 根据旋转变换的公式:主成分分析主成分分析正正如如二二维维椭椭圆圆有有两两个个主主轴轴,三三维维椭椭球球有有三三个个主主轴轴一样,有几个变量,就有几个主成分。一样,有几个变量,就有几个主成分。选选择择越越少少的的主主成成分分,降降维维就就越越好好。什什么么是是标标准准呢呢?那那就就是是这这些些被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了

10、主主轴轴长长度度总总和和的的大大部部分分。有有些些文文献献建建议议,所所选选的的主主轴轴总总长长度度占占所所有有主主轴轴长长度度之之和和的的大大约约85%即即可可,其其实实,这这只只是是一一个个大大体体的的说说法法;具具体体选几个,要看实际情况而定。选几个,要看实际情况而定。对于我们的数据,对于我们的数据,SPSSSPSS输出为输出为这这里里的的InitialEigenvalues就就是是这这里里的的六六个个主主轴轴长长度度,又又称称特特征征值值(数数据据相相关关阵阵的的特特征征值值)。头头两两个个成成分分特特征征值值累累积积占占了了总总方方差差的的81.142%。后后面面的的特特征征值值的的

11、贡贡献献越越来来越越少。少。特征值的贡献还可以从特征值的贡献还可以从SPSS的所谓碎石图看出的所谓碎石图看出因子载荷反映的是主成分与变量间的相关系数。因子载荷反映的是主成分与变量间的相关系数。(因子载荷阵)(因子载荷阵)主成分载荷与因子载荷可以把第一和第二因子可以把第一和第二因子的载荷点出一个二维图以的载荷点出一个二维图以直观地显示它们如何解释直观地显示它们如何解释原来的变量的。这个图叫原来的变量的。这个图叫做载荷图。做载荷图。该图该图左面三个点是数学、物理、化学三科左面三个点是数学、物理、化学三科,右边三个点右边三个点是语文、历史、外语三科。是语文、历史、外语三科。因子分析因子分析(Fact

12、orAnalysis)主要内容一、什么是因子分析一、什么是因子分析二、因子分析模型二、因子分析模型三、因子载荷矩阵中的几个统计特征三、因子载荷矩阵中的几个统计特征四、因子旋转四、因子旋转五、因子得分五、因子得分六、在六、在SPSS上进行因子分析的步骤上进行因子分析的步骤 因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。例如,在企业形象或品牌形象的研究中,消

13、费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。一、什么是因子分析一、什么是因子分析 但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。而这三个公共因子可以表示为:称 是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分 ,称为特殊因子。二、因子分析模型二、因子分析模型 数学模型数学模型 设 个变量,如果表示为注:注:因子分析与回归分析不同,因子分析中的因因子分析与回归分析不同,因子分析中的因子是一个比

14、较抽象的概念,而回归因子有非常明子是一个比较抽象的概念,而回归因子有非常明确的实际意义;确的实际意义;主成分分析分析与因子分析也有不同,主成主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,分分析仅仅是变量变换,而因子分析需要构造因而因子分析需要构造因子模型。子模型。主成分分析主成分分析:原始变量的线性组合表示新的原始变量的线性组合表示新的综合变量,即主成分,无误差项;综合变量,即主成分,无误差项;因子分析:潜在的假想变量和随机影响变因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量,有误差项。量的线性组合表示原始变量,有误差项。主成分分析与因子分析的公式上的区别主成分分析

15、与因子分析的公式上的区别主成分分析主成分分析因子分析因子分析(mp)因子得分因子得分 三、因子载荷矩阵中的几个统计特征三、因子载荷矩阵中的几个统计特征 1 1、因子载荷、因子载荷a aijij的统计意义的统计意义 因子载荷 是第i个变量与第j个公共因子的相关系数 模型为 因子载荷构成的km矩阵称为“因子矩阵”(factor matrix)或“因子模式”(factor pattern),因为它反映了因子与变量关系中因子的性质。“因子结构”(factor structure)是指因素与变量间的相关关系,可以证明,在正交模型中,因子模式等于因素结构,因子负荷就是变量与因素间的相关系数。因此在正交模型

16、中不加区别地统称为“因子载荷”。2 2、变量共同度(、变量共同度(communalitycommunality)的统计意义)的统计意义定定义义:变量 的共同度是因子载荷矩阵的第i行的元素的平方和。记为统计意义统计意义:两边求方差 所有的公共因子和特殊因子对变量 的贡献为1。如果 非常靠近1,非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。3 3、公共因子、公共因子 方差贡献方差贡献(Contributions)(Contributions)的统计意义的统计意义因子载荷矩阵中各列元素的平方和 称为所有的 对 的方差贡献和。衡量的相对重要性。四、四、因子旋转因子旋转建立了因子分

17、析的目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。求初始解是按照因子解释变量方差的多少顺序提取因子的,因此,绝大多数变量在第一个因子上肯定都有显著的负荷,其后的因子解释方差比例逐渐递减。这时的因素负荷矩阵中大多数因子都和许多变量相关,尤其是靠前的第一因素,负载了过多的变量,很不便于解释。这时就需要借助“因子旋转”改变因子轴的位置,重新分配各因子所解释的方差比例,从而得到易于解释的“简单结构”。根据矩阵代数的知识,因子旋转实际上是对因素解进行的一个变换(正交旋转是标准正交变换),得到的模

18、型对数据的拟合程度不发生改变,同时也不改变每个变量的共同度。(一)为什么要旋转因子(一)为什么要旋转因子旋转前与旋转后的因子载荷图旋转前后的因子载荷比较这里,这里,第一个因子主要和语文、历史、英语三科有很强第一个因子主要和语文、历史、英语三科有很强的正相关;的正相关;而第二个因子主要和数学、物理、化学三科而第二个因子主要和数学、物理、化学三科有很强的正相关有很强的正相关。因此可以给第一个因子起名为。因此可以给第一个因子起名为“理科理科因子因子”,而给第二个因子起名为,而给第二个因子起名为“文科因子文科因子”。变换后因子的共同度变换后因子的共同度设 正交矩阵,做正交变换正交矩阵,做正交变换变换后

19、因子的共同度没有发生变化!变换后因子的共同度没有发生变化!(二)正交旋转(二)正交旋转(orthogonalrotation)变换后因子贡献变换后因子贡献设 正交矩阵,做正交变换正交矩阵,做正交变换变换后因子的贡献发生了变化!变换后因子的贡献发生了变化!1、方差最大法(Varimax)方差最大法从简化因子载荷矩阵的每一列出发,使和每个因子方差最大法从简化因子载荷矩阵的每一列出发,使和每个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子上有较高的载荷时,对因子的解释最简单。上有较高的载荷时,对因子的解释最简单。方差最大的直观意义

20、是希望通过因子旋转后,使每个因子上的载荷尽量拉开距离,一部分的载荷趋于1,另一部分趋于0。此法便于解释因子,因此最常用。(三)斜交旋转(oblique rotation)如果因子间存在相关(斜交模型),理论上应考虑斜交旋转以更好地形成简单结构和解释因子。由于没有因子正交条件的限制,斜交旋转实际上就是尽可能将因素轴调整到各组变量附近或者更有利于解释因子的位置。f1f2f1f2x1x2x3x4x5x6五、五、因子得分因子得分(一)因子得分的概念(一)因子得分的概念 前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究,比如把得到的因子作为自变量来做

21、回归分析,对样本进行分类或评价,这就需要我们对公共因子进行测度,即给出公共因子的值。计算因子得分计算因子得分于于是是可可以以根根据据前前面面的的公公式式,算算出出每每个个学学生生的的第第一一个个因因子子和和第第二二个个因因子子的的大大小小,即即算算出出每每个个学学生生的的因因子子得得分分f1和和f2。人人们们可可以以根根据据这这两两套套因因子子得得分分对对学学生生分分别别按按照照文文科科和和理理科科排排序序。当当然然得得到到因因子子得得分分只只是是SPSS软软件件的的一一个个选项。选项。因子分析和主成分分析的一些注意事项因子分析和主成分分析的一些注意事项可可以以看看出出,因因子子分分析析和和主

22、主成成分分分分析析都都依依赖赖于于原原始始变变量量,也也只只能能反反映映原原始始变变量量的的信信息息。所所以以原原始始变变量量的的选选择择很很重重要。要。另另外外,如如果果原原始始变变量量都都本本质质上上独独立立,那那么么降降维维就就可可能能失失败败,这这是是因因为为很很难难把把很很多多独独立立变变量量用用少少数数综综合合的的变变量量概概括。数据越相关,降维效果就越好。括。数据越相关,降维效果就越好。在在得得到到分分析析的的结结果果时时,并并不不一一定定会会都都得得到到如如我我们们例例子子那那样样清清楚楚的的结结果果。这这与与问问题题的的性性质质,选选取取的的原原始始变变量量以以及及数据的质量

23、等都有关系数据的质量等都有关系在在用用因因子子得得分分进进行行排排序序时时要要特特别别小小心心,特特别别是是对对于于敏敏感感问问题题。由由于于原原始始变变量量不不同同,因因子子的的选选取取不不同同,排排序序可可以以很不一样。很不一样。在SPSS上进行因子分析的步骤一、样本数据的适当性考察二、选择提取因子的方法及确定公因子数三、确定因子旋转的方法四、选择因子得分的计算方法样本数据的适当性考察考察数据适当性,首先可以看样本相关矩阵,如果变量之间相关程度普遍较低则不大可能找到便于解释的公因子或者达不到简化数据的目的,一般大部分相关系数应当不低于0.3。介绍两种考察方法:(1)Bartlett球度检验

24、(球度检验(Bartlettstestofsphericity)(2)KMO取样适当性度量(取样适当性度量(Kaiser-Meyer-Olkinmeasureofsamplingadequacy)Bartlett球度检验球度检验通过构造一个近似2统计量从整体上检验相关矩阵,即Ho:“相关矩阵是一个单位阵”,显然,其显著性水平要至少小于0.05,才能拒绝Ho,说明各个变量间存在相关,适宜进行因素分析。KMO取样适当性度量取样适当性度量 用于比较观测变量间的简单相关系数与偏相关系数的相对大小,它是变量间简单相关系数平方和占这两种系数平方和的比率。显然,KMO值越接近1越好。一般规定:0.9以上,极

25、好;0.8以上,较好;0.7以上,一般;0.6以上,较差;0.5以上,差;0.5以下,不可接受。确定公因子数H.F.Kaiser(1960)提出的Kaiser准则(Kaiser criterion):即选取特征值大于1的主成分作为初始因子。因为原始变量标准化后的方差为1,代替它的公因子方差应当至少能解释原来一个变量的方差,否则代替就没有意义了。结合因子的累计解释方差(60%以上)及碎石图来判断确定因子旋转方法“简单结构规则”(rule of simple structure)是Thurstone(1947)提出的5个使因素与变量间具有简单的单纯关系以便于解释的因素变换规则。进一步简化,这个规则

26、一般可表述为:(1)在各因子上只有少数变量有较高的负荷,其它变量上的负荷(绝对值)很低;(2)每个变量只在少数因子上有很高的负荷;(3)任取两因子,负荷都低的变量尽量多一些;(4)任取两因子,每个变量只能在一个因子上有较高负荷。选择因子得分的计算方法SPSS提供的三种计算因子得分的方法,分别为:回归法、Bartlett法和Anderson-Rubin法。这些方法实际上都是基于最小二乘原理估计因子值系数的方法,只是定义误差的方式不同。回归法是求解使真因子得分和因子得分估计值的误差平方和达到最小的因子值系数,这样得出的因子得分可能相关,它是SPSS中默认的方法;Bartlett法的误差是独特因素得分估计值;Anderson-Rubin法在其基础上增加因素间相互正交的条件。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > pptx模板 > 企业培训

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁