《第八讲 主成分分析和因子分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第八讲 主成分分析和因子分析优秀PPT.ppt(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八讲 主成分分析和因子分析第一页,本课件共有17页变变量量压压缩缩。主主成成分分分分析析通通过过线线性性变变换换,在在尽尽可可能能保保留留原原始始变变量量的的信信息息的的基基础础,降降低低维维度度,将将原原来来的的多多个个变变量量组组合合成成相相互互独独立立的的少少数数的的、新新的综合变量。的综合变量。变变量量解解释释。利利用用新新变变量量进进一一步步探探讨讨变变量量内内在在联联系和结构,利于简化和解释问题。系和结构,利于简化和解释问题。因因子子分分析析和和主主成成分分分分析析方方法法,往往往往是是更更复复杂杂的的统计分析方法的基础。统计分析方法的基础。Factor1.sav、Factor2
2、.sav 第二页,本课件共有17页二、主成分分析二、主成分分析1、基本原理、基本原理l统计信息实际上是指数统计信息实际上是指数据变异信息据变异信息l右图中,在椭圆的长右图中,在椭圆的长轴方向数据变异明显轴方向数据变异明显大于短轴方向大于短轴方向第三页,本课件共有17页F1F2F1与F2不相关l沿长、短轴方向设定沿长、短轴方向设定新坐标系,长轴变量新坐标系,长轴变量承载大部分变异信息,承载大部分变异信息,短轴变量承载少量变短轴变量承载少量变异信息异信息l一个长轴新变量一个长轴新变量F就可以代表原来两个就可以代表原来两个变量的主要信息,从变量的主要信息,从而起到降维作用而起到降维作用l在主成分分析
3、中,提在主成分分析中,提取出的每个新变量取出的每个新变量(主主成分成分)都是原来多个变都是原来多个变量的线性组合量的线性组合第四页,本课件共有17页如由两个原始变量如由两个原始变量X1和和X2,可提取两个主成分,可提取两个主成分:F1=a11X1+a21X2 F2=a12X 1+a22X2 依次类推:由依次类推:由N个原始变量可提取个原始变量可提取N个主成分,个主成分,但如果将它们全部提取出来就失去了该方法简但如果将它们全部提取出来就失去了该方法简化数据的实际意义化数据的实际意义一般情况下按贡献率由大到小,取累计贡献率一般情况下按贡献率由大到小,取累计贡献率达到达到85的前的前23个主成分,其
4、他的忽略不计。个主成分,其他的忽略不计。在进行主成分回归时,提取出的主成分能包含在进行主成分回归时,提取出的主成分能包含主要信息即可,不一定要有准确的实际含义。主要信息即可,不一定要有准确的实际含义。第五页,本课件共有17页利用主成分进行综合评价:当进行多指标的利用主成分进行综合评价:当进行多指标的综合评价时,应用主成分方法将多指标中的综合评价时,应用主成分方法将多指标中的信息集中为若干个主成分,然后加权求和,信息集中为若干个主成分,然后加权求和,得到综合评价指数。得到综合评价指数。利用主成分进行回归分析:通过对存在共线利用主成分进行回归分析:通过对存在共线性的自变量进行主成分分析,从而在提取
5、多性的自变量进行主成分分析,从而在提取多数信息的同时解决共线性问题。数信息的同时解决共线性问题。2、应用、应用第六页,本课件共有17页与主成分分析相同,也是一种多变量化简、降与主成分分析相同,也是一种多变量化简、降维技术。维技术。在主成分分析时,要求提取出的主成分能包含在主成分分析时,要求提取出的主成分能包含主要信息即可,不一定要有准确的实际含义。主要信息即可,不一定要有准确的实际含义。但在因子分析中,目的是分解原始变量,从中但在因子分析中,目的是分解原始变量,从中归纳出潜在的归纳出潜在的“类别类别”,相关性较强的指标归,相关性较强的指标归为一类,每一类变量代表了一个为一类,每一类变量代表了一
6、个“共同因子共同因子”,即一种内在结构。因子分析就是要寻找该结,即一种内在结构。因子分析就是要寻找该结构。构。在实际应用中,有时两者不加区分在实际应用中,有时两者不加区分三、因子分析三、因子分析1、概述、概述第七页,本课件共有17页 为了找出变量间内在结构,要求因子分析满足为了找出变量间内在结构,要求因子分析满足以下条件:以下条件:样本量样本量u样本量与变量数的比例应在样本量与变量数的比例应在5:15:1以上以上u总样本量最好大于总样本量最好大于100100,而且原则上越大越好,而且原则上越大越好各变量间必须有相关性各变量间必须有相关性uKMOKMO统计量统计量:在(在(0 0,1 1)之间,
7、大于)之间,大于0.90.9最佳,最佳,0.9-0.70.9-0.7尚可,尚可,0.7-0.60.7-0.6很差,很差,0.50.5以下放弃以下放弃uBartlettBartletts s球形检验:对变量间的独立性进行检球形检验:对变量间的独立性进行检验,若变量间相互独立(验,若变量间相互独立(Sig.Sig.大于大于0.05)0.05),因子,因子分析无效分析无效2、适用条件、适用条件第八页,本课件共有17页判断数据是否符合要求,是否有必要进行主判断数据是否符合要求,是否有必要进行主成分成分/因子分析因子分析对原有变量标准化,以消除计量单位和数据对原有变量标准化,以消除计量单位和数据基数的影
8、响基数的影响(SPSS会自动对原始变量标准化)会自动对原始变量标准化)根据标准化数据计算相关矩阵或协方差矩阵,根据标准化数据计算相关矩阵或协方差矩阵,及其特征根和特征向量及其特征根和特征向量进行分析,按一定标准确定提取的主成分进行分析,按一定标准确定提取的主成分/因因子数子数3、步骤、步骤第九页,本课件共有17页如果进行的是主成分分析,步骤到此结束如果进行的是主成分分析,步骤到此结束如果进行的是因子分析,则考察因子的可解如果进行的是因子分析,则考察因子的可解释性,并在必要时进行因子旋转,使因子载释性,并在必要时进行因子旋转,使因子载荷向荷向0、1分化,以寻求最佳解释分化,以寻求最佳解释如有必要
9、,计算因子得分等中间指标供进一如有必要,计算因子得分等中间指标供进一步分析使用步分析使用第十页,本课件共有17页特征根特征根(Eigenvalue):是因子影响力度的指标,其):是因子影响力度的指标,其数值代表因子相当于原始变量平均解释力的多少。特数值代表因子相当于原始变量平均解释力的多少。特征根大于征根大于1,表示引入的因子解释力度大于一个,表示引入的因子解释力度大于一个原始变量平均解释力度。因此往往将特征根大于原始变量平均解释力度。因此往往将特征根大于作为抽取因子的标准。作为抽取因子的标准。方差贡献率:数值越大,表明该因子对原来变量方差贡献率:数值越大,表明该因子对原来变量信息的综合能力越
10、强。信息的综合能力越强。累计贡献率累计贡献率4、输出统计量、输出统计量第十一页,本课件共有17页变量变量Xi的变量共同度:也称公因子方差比,是提取的变量共同度:也称公因子方差比,是提取公因子后,各变量中信息被提取出的比例,或者说公因子后,各变量中信息被提取出的比例,或者说原变量的信息量原变量的信息量(方差方差)由公因子决定的比例由公因子决定的比例旋转前旋转前/后因子载荷后因子载荷:反映因子和各个变量间的密:反映因子和各个变量间的密切程度的指标,实质是两者间的相关系数切程度的指标,实质是两者间的相关系数因子得分函数系数因子得分函数系数第十二页,本课件共有17页公因子数量的确定公因子数量的确定l主
11、成分的累积贡献率:主成分的累积贡献率:85%以上以上l 特征根:大于特征根:大于1l 综合判断。综合判断。因子分析时更重要的是因子的因子分析时更重要的是因子的可解释性,必要时保留特征根小于可解释性,必要时保留特征根小于1的因子的因子l利用碎石图帮助确定因子数量利用碎石图帮助确定因子数量5、公因子数的确定、公因子数的确定第十三页,本课件共有17页例:在例:在Factor2.savFactor2.sav中,有重庆市中,有重庆市4040个区县的个区县的GDPGDP、工业总、工业总产值等九个指标数据,试根据这些指标对各区县经济发产值等九个指标数据,试根据这些指标对各区县经济发展状况进行综合评价。展状况
12、进行综合评价。l在在SPSSSPSS中的实现:中的实现:分析分析(Analyze)-(Analyze)-数据降维数据降维(Data Reduction)-(Data Reduction)-因子分析因子分析(Factor Analyze)(Factor Analyze)u在因子分析对话框中,将原变量选入在因子分析对话框中,将原变量选入“变量变量”列表列表框中框中u在在“描述描述”按钮对话框,在按钮对话框,在“相关矩阵相关矩阵”部分选择部分选择“系数系数”和和“KMOKMO和和BartlettBartlett球形度检验球形度检验”6、在、在SPSS中的实现中的实现第十四页,本课件共有17页u在在“
13、抽取抽取”按钮对话框,按钮对话框,“方法方法”设定为设定为“主成分主成分”u在在“旋转旋转”按钮对话框,按钮对话框,“方法方法”设定为设定为“最大方差法最大方差法”u在在“得分得分”按钮对话框,选择按钮对话框,选择“保存为变保存为变量量”、“方法方法”设定为设定为“回归回归”,选择,选择“显示因子得分系数矩阵显示因子得分系数矩阵”第十五页,本课件共有17页说明的总方差表:包括特征根,旋转前说明的总方差表:包括特征根,旋转前/后的后的方差贡献率、累计贡献率方差贡献率、累计贡献率变量共同度变量共同度旋转前旋转前/后因子载荷矩阵后因子载荷矩阵因子得分模型系数:求出公因子后,可以用因子得分模型系数:求出公因子后,可以用回归估计方法求出因子得分数学模型(在因回归估计方法求出因子得分数学模型(在因子分析中,不能直接由载荷矩阵按列得到因子分析中,不能直接由载荷矩阵按列得到因子的表达式)子的表达式)7、输出结果阅读、输出结果阅读第十六页,本课件共有17页 某市某市15个大中型企业经济效益数据见个大中型企业经济效益数据见“某某市工业企业效益指标市工业企业效益指标.sav”,利用因子分析,利用因子分析方法对企业经济效益进行综合评价及分析。方法对企业经济效益进行综合评价及分析。上机习题上机习题 第十七页,本课件共有17页