主成分分析、因子分析、聚类分析的比较与应用.doc-淘文阁

资源描述

《主成分分析、因子分析、聚类分析的比较与应用.doc》由会员分享，可在线阅读，更多相关《主成分分析、因子分析、聚类分析的比较与应用.doc（4页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2007 年第 6 期山东教育学院学报总第 124 期主成分分析、因子分析、聚类分析的比较与应用李新蕊 ( 济南大学政治与公共管理学院 , 山东济南 250022) 摘要 : 主成分分析、因子分析、聚类分析是三种比较有价值的多元统计方法 , 但同时也是在使用过程中容易误用或混淆的几种方法。本文从基本思想、数据的标准化、应用上的优缺点等方面 , 详细地探讨了三者的异同 , 并且举例说明了三者在实际问题中的应用。关键词 : 主成分分析 ; 因子分析 ; 聚类分析中图分类号 : G441 文献标识码 : A 文章编号 : 1008

2、 2816( 2007) 06 0023 04 一、引言主成分分析就是将多项指标转化为少数几项综合指标 , 用综合指标来解释多变量的方差 - 协方差结构。综合指标即为主成分。所得出的少数几个主成分 , 要尽可能多地保留原始变量的信息 , 且彼此不相关。因子分析是研究如何以最少的信息丢失 , 将众多原始变量浓缩成少数几个因子变量 , 以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构 , 并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该

3、彼此相似 , 而属于不同组的样本应该足够不相似。三种分析方法既有区别也有联系 , 本文力图将三者的异同进行比较 , 并举例说明三者在实际应用中的联系 , 以期为更好地利用这些高级统计方法为研究所用有所裨益。二、基本思想的异同 ( 一 ) 共同点主成分分析法和因子分析法都是用少数的几个变量 ( 因子 ) 来综合反映原始变量 ( 因子 ) 的主要信息 , 变量虽然较原始变量少 , 但所包含的信息量却占原始信息的 85% 以上 , 所以即使用少数的几个新变量 , 可信度也很高 , 也可以有效地解释问题。并且新的变量彼此间互不相关 , 消除了多重共线性。这

4、两种分析法得出的新变量 , 并不是原始变量筛选后剩余的变量。在主成分分析中 , 最终确定的新变量是原始变量的线性组合 , 如原始变量为 x1 , x2 , . . . , x3 , 经过坐标变换 , 将原有的 p 个相关变量 xi 作线性变换 , 每个主成分都是由原有 p 个变量线性组合得到。在诸多主成分 Zi 中 , Z1 在方差中占的比重最大 , 说明它综合原有变量的能力最强 , 越往后主成分在方差中的比重也小 , 综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系 , 它不是对原始变量的重新组合 , 而是对原始变量进行分

5、解 , 分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子 ; 特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分 , 就可以将主成分得分或因子得分代替原始收稿日期 : 2007 10 23 作者简介 : 李新蕊 ( 1982 ) , 女 , 山东莱阳人 , 发展与教育心理学硕士研究生。 1 ( 34) 24 李新蕊 : 主成分分析、因子分析、聚类分析的比较与应用 2007 年第 6 期变量进行进一步的分析 , 因为主成分变量及因子变量比原始变量少了许多 , 所以起到了降维的作用 , 为我们处理数据降低了难度。聚类分析的

6、基本思想是 : 采用多变量的统计值 , 定量地确定相互之间的亲疏关系 , 考虑对象多因素的联系和主导作用 , 按它们亲疏差异程度 , 归入不同的分类中一元 , 使分类更具客观实际并能反映事物的内在必然联系。也就是说 , 聚类分析是把研究对象视作多维空间中的许多点 , 并合理地分成若干类 , 因此它是一种根据变量域之间的相似性而逐步归群成类的方法 , 它能客观地反映这些变量或区域之间的内在组合关系。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法 , 是多元统计分析方法 , 分析的结果为群集。对向量聚类后 , 我们对数据的处理难度也自然降低 ,

7、所以从某种意义上说 , 聚类分析也起到了降维的作用。 ( 二 ) 不同之处主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法 , 也就是求出少数几个主成分 ( 变量 ) , 使它们尽可能多地保留原始变量的信息 , 且彼此不相关。它是一种数学变换方法 , 即把给定的一组变量通过线性变换 , 转换为一组不相关的变量 ( 两两相关系数为 0, 或样本向量彼此相互垂直的随机变量 ) , 在这种变换中 , 保持变量的总方差 ( 方差之和 ) 不变 , 同时具有最大方差 , 称为第一主成分 ; 具有次大方差 , 称为第二主成分。依次类推。若共有

8、p 个变量 , 实际应用中一般不是找 p 个主成分 , 而是找出 m ( m p) 个主成分就够了 , 只要这 m 个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组 , 使得同组内的变量之间相关性较高 , 但不同的组的变量相关性较低 , 每组变量代表一个基本结构 , 这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析。

9、因子分析不是对原始变量的重新组合 , 而是对原始变量进行分解 , 分解为公共因子和特殊因子两部分。具体地说 , 就是要找出某个问题中可直接测量的具有一定相关性的诸指标 , 如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律 , 从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异 , 主成分分析能解释所有变异。聚类分析算法是给定 m 维空间 R 中的 n 个向量 , 把每个向量归属到 k 个聚类中的某一个 , 使得每一个向量与其聚类中心的距离最小。聚类可以理解为 : 类内的相关性尽量大 , 类间相关性尽量小。聚类

10、问题作为一种无指导的学习问题 , 目的在于通过把原来的对象集合分成相似的组或簇 , 来获得某种内在的数据规律。。从三类分析的基本思想可以看出 , 聚类分析中并没于产生新变量 , 但是主成分分析和因子分析都产生了新变量。三、数据标准化的比较主成分分析中为了消除量纲和数量级 , 通常需要将原始数据进行标准化 , 将其转化为均值为 0 方差为 1 的无量纲数据。而因子分析在这方面要求不是太高 , 因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量 , 并且因子变量是每一个变量的内部影响变量 , 它的求解与原始变量

11、是否同量纲关系并不太大 , 当然在采用主成分法求因子变量时 , 仍需标准化。不过在实际应用的过程中 , 为了尽量避免量纲或数量级的影响 , 建议在使用因子分析前还是要进行数据标准化。在构造因子变量时采用的是主成分分析方法 , 主要将指 2 (14- 17) 3 ( 66) 4 ( 338) 总第 124 期山东教育学院学报 25 标值先进行标准化处理得到协方差矩阵 , 即相关矩阵和对应的特征值与特征向量 , 然后构造综合评价函数进行评价。聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化 , 即消除量纲

12、的影响。不同方法进行标准化 , 会导致不同的聚类结果要注意变量的分布。如果是正态分布应该采用 z 分数法。四、应用中的优缺点比较 ( 一 ) 主成分分析 1、优点。首先它利用降维技术用少数几个综合变量来代替原始多个变量 , 这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分 , 对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。 2、缺点。当主成分的因子负荷的符号有正有负时 , 综合评价函数意义就不明确。命名清晰性低。 ( 二 ) 因子分析 1、优点 : 第一它不是对原有变量的取舍 , 而是根据原始变量的信

13、息进行重新组合 , 找出影响变量的共同因子 , 化简数据 ; 第二 , 它通过旋转使得因子变量更具有可解释性 , 命名清晰性高。 2、缺点 : 在计算因子得分时 , 采用的是最小二乘法 , 此法有时可能会失效。 ( 三 ) 聚类分析 1、优点 : 聚类分析模型的优点就是直观 , 结论形式简明。 2、缺点 : 在样本量较大时 , 要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标 , 而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系 , 但事物之间却无任何内在联系 , 此时 , 如果根据距离或相似系数得出聚类分析的结果 ,

14、显然是不适当的 , 但是 , 聚类分析模型本身却无法识别这类错误。五、实际应用中三者的联系在实际应用中 , 我们经常是将三类方法结合使用 , 例如对电子工业部所属的十五个电视机生产企业某年份的经济效益数据排出他们的经济效益优劣顺序。由于考察综合经济效益的指标很多增加了我们衡量的难度 , 在此情况下 , 我们可以先对各指标进行主成分分析 , 选出累计影响达到 85% 以上的成分 , 然后对每个生产企业的主成分进行标准化 , 用标准化后的数值进行聚类分析 , 从而可以把不同的企业按照不同的效益划分为不同的类别。再如勘探队在矿区采集了有金矿

15、化的火山岩标本六块 , 分别测定六种元素 Cr, N i, Sr, Au, Cu, S 的含量 , 得到了珍贵的调查数据 , 想要对化石进行分类。我们首先可以进行因子分析 , 即对变量 Cr, Ni, Sr, Au, Cu, S 因子分析。由相关性大小把六种元素分类 , 使得同一组内的元素之间有较好的相关性。但是不同组的元素之间相关性较低。这样 , 每一组元素就可以代表一个基本结构称为主成分或因子。利用主成分分析法提取公因子 , 再用方差极大法旋转因子轴 , 通过方差贡献大小选择特征值大于 1 的因子 , 根据各成分的累计贡献率得出用几个因子来代替六个原始

16、变量 , 通过因子载荷矩阵计算因子得分系数 , 再根据因子得分系数和原始变量的标准化计算每个样本的因子得分。把因子得分变量作为新变量进行聚类分析 , 就可以把矿石分类 , 分清哪几块成分类似 , 每块矿石含哪几种元素最多。。再如研究学生的学习成绩 , 取某班级 200 名学生的基础课成绩进行分析。先将原始数据标准化 , 建立指标之间的相关系数矩阵 , 求出矩阵的特征值及方差贡献率。在指定提取四个因子时 , 各成分的方差贡献率累计达到 80% 以上 , 即因子分析效果较理想。假如数学分析、高等数学、概率论 26 李新蕊 : 主成分分析、因子分析、聚类分析的

17、比较与应用 2007 年第 6 期与数理统计、离散数学、复变函数在第一个因子上有较高的载荷 , 第一个因子揭示了这五个变量 , 可解释为数学课程的成绩 ; C 语言程序设计和离散数学在第二个因子上有较高的载荷 , 这可以解释为计算机课程的成绩 , 大学英语在第三个因子上有较高的载荷 , 可解释为重要的公共课程的成绩 , 解析几何在第四个因子上有较高的载荷 , 由于解析几何因其自身的特点而与其他数学课程有所差别 , 故单独被一主因子所解释。这样我们就用四个不相关的新的综合指标代替了较多的指标 , 通过因子载荷矩阵计算因子得分系数 , 再根据因子得分系数和原

18、始变量的标准化计算每个样本的因子得分。把因子得分变量作为新变量进行聚类分析 , 就可以把学生进行归类 , 分清哪一些同学的成绩类型相似 , 每位同学在哪种类型课程中的成绩最突出。主成分分析、因子分析、聚类分析虽然都是降维的统计方法 , 但是三者各有自己不同的应用条件 , 在使用中的侧重点和优缺点也各不相同。因此我们在使用它们的时候应充分考虑各方面实际情况 , 更多的情况下我们应该将三者联合使用以求达到我们的研究目的。参考文献 : 1 李云晋 . 非标准化数据的聚类分析方法 J . 昆明冶金高等专科学校学报 , 2005, ( 1) . 2 王芳 . 主成分分析

19、与因子分析的异同比较及应用 J . 统计教育 , 2003, ( 5) . 3 李蓉 , 李宇 . 基与主成分分析与聚类分析方法的我国西部区域划分问题的研究 J . 科技广场 , 2006, (5) . 4 5 卢纹岱 . SPSS for Windows 统计方法 ( 第 2 版 ) M . 北京 : 电子工业出版社 , 2005. 6 王宏健 , 易柱新 . 主成分方法用于聚类分析 J . 经济数学 , 1996, ( 1) . 7 刘罗曼 , 张颖南 . 因子分析和聚类分析的一个简单应用 J . 沈阳师范大学学报 ( 自然科学版 ) , 200

20、5, ( 2) . Compare and Application of Principal Component Analysis, Factor Analysis and Clustering Analysis L i Xinrui ( School of Political Science and Public Administration, University of Jinan, Jinan 250022, China) Abstract: Principal component analysis , factor analysis and clustering analysis ar

21、e all the familiar statistical methods .This paper compared the three analysis methods from the basic thoughts, data! s standardization and the merits and demeritsas in application. At last, illuminated the application of the three methods in practical problem with ex amples. Key words: Principal component analysis; Factor analysis; Clustering analysis

展开阅读全文