《主成分分析、因子分析、聚类分析的比较与应用.doc》由会员分享,可在线阅读,更多相关《主成分分析、因子分析、聚类分析的比较与应用.doc(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2007 年第 6 期 山 东 教 育 学 院 学 报 总第 124 期 主成分分析 、 因子分析 、 聚类分析的比较与应用 李新蕊 ( 济南大学 政治与公共管理学院 , 山东 济南 250022) 摘要 : 主成分分析 、 因子分析 、 聚类分析是三种 比较有价值的多元统计方法 , 但同时也是在使用过程 中容易误 用或混淆的几种方法 。 本文从基本思想 、 数据的标准化 、 应用上的优缺点等方面 , 详细地探讨了三者的异同 , 并且 举例说明了三者在实际问题中的应用 。 关键词 : 主成分分析 ; 因子分析 ; 聚类分析 中图分类号 : G441 文献标识码 : A 文 章编号 : 1008
2、 2816( 2007) 06 0023 04 一 、 引言 主成分分析就是将多项指标转化为少数几项 综合指标 , 用综合指标来解释多变量的方差 - 协 方差结构。综合指标即为主成分。所得出的少数 几个主成分 , 要尽可能多地保留原始变量的信息 , 且彼此不相关。因子分析是研究如何以最少的信 息丢失 , 将众多原始变量浓缩成少数几个因子变 量 , 以及如何使因子变量具有较强的可解释性的 一种多元统计分析方法。聚类分析是依据实验数 据本身所具有的定性或定量的特征来对大量的数 据进行分组归类以了解数据集的内在结构 , 并且 对每一个数据集进行描述的过程。其 主要依据是 聚到同一个数据集中的样本应该
3、彼此相似 , 而属 于不同组的样本应该足够不相似 。 三种分析方法既有区 别也有联系 , 本文力图 将三者的异同进行比较 , 并举例说明三者在实际 应用中的联系 , 以期为更好地利用这些高级统计 方法为研究所用有所裨益。 二 、 基本思想的异同 ( 一 ) 共同点 主成分分析法和因子分析法都是用少数的几 个变量 ( 因子 ) 来综合反映原始变量 ( 因子 ) 的主要 信息 , 变量虽然较原始变量少 , 但所包含的信息量 却占原始信息的 85% 以上 , 所以即使用少数的几 个新变 量 , 可 信度也 很高 , 也可 以有 效地解 释问 题。并且新的变量彼此间互不相关 , 消除了多重 共线性。这
4、两种分析法得出的新变量 , 并不是原 始变量筛选后剩余 的变量。在主成分 分析中 , 最 终确定的新变量是原始变量的线性组合 , 如原始 变量为 x1 , x2 , . . . , x3 , 经过 坐标变换 , 将原有 的 p 个相关变量 xi 作线性变换 , 每个主成分都是由原 有 p 个变量线性组合得到。在诸多主成分 Zi 中 , Z1 在方差中占的比重最大 , 说明它综合原有变量 的能力最强 , 越往后主成分在方差中 的比重也小 , 综合原信息的能力越弱。因子分析是要利用少数 几个公共因子去解释较多个要观测变量中存在的 复杂关系 , 它不是对原始变量的重新组合 , 而是对 原始变量进行分
5、解 , 分解为公共因子与特殊因子 两部分。公共因子是由所有变量共同具有的少数 几个因子 ; 特殊因子是每个原始变量独自具有的 因子。对新产生的主成分变量及因子变量计算其 得分 , 就可以将主成分得分或因子得分代替原始 收稿日期 : 2007 10 23 作者简介 : 李新蕊 ( 1982 ) , 女 , 山东莱阳人 , 发展与教育心理学硕士研究生。 1 ( 34) 24 李新蕊 : 主成分分析、因子分析、聚类分析的 比较与应用 2007 年第 6 期 变量进行进一步的分析 , 因为主成分变量及因子 变量比原始变量少了许多 , 所以起到了降维的作 用 , 为我们处理数据降低了难度 。 聚类分析的
6、基本思想 是 : 采用多 变量的统计 值 , 定量地确定相互之间的亲疏关系 , 考虑对象多 因素的联系和主导作用 , 按它们亲疏差异程度 , 归 入不同的分类中一元 , 使分类更具客观实际并能 反映事物的内在必然 联系。也就是说 , 聚类分析 是把研究对象视作多维空间中的许多点 , 并合理 地分成 若干类 , 因此它是一种根据变量域之间的 相似性而逐步归群成类的方法 , 它能客观地反映 这些变量或区域之间 的内在组合关系。 聚类 分析是通过一个大的对称矩阵来探索相关关系的 一种数学分析方法 , 是多元统计分析方法 , 分析的 结果为群集。对向量聚类后 , 我们对 数据的处理 难度也自然降低 ,
7、 所以从某种意义上说 , 聚类分析 也起到了降维的作用。 ( 二 ) 不同之处 主成分分析是研究如何通过少数几个主成分 来解释多变量的方差一协方差 结构的分析方法 , 也就是求出少数几个主成分 ( 变量 ) , 使它们尽可 能多 地保留原始变量 的信息 , 且彼此 不相关。它 是一种数学变换方法 , 即把给定的一组变量通过 线性变换 , 转换为一组不相关的变量 ( 两两相关系 数为 0, 或样本向量彼此相互垂直的随机变量 ) , 在 这种变换中 , 保持变量的总方差 ( 方差之和 ) 不变 , 同时具有最大方差 , 称为第一主成分 ; 具有次大方 差 , 称为第二主 成分。依次 类推。若共有
8、p 个变 量 , 实际应用中一般不是找 p 个主成分 , 而是找出 m ( m p) 个主成分就够了 , 只要这 m 个主成分能 反映原来所有变量的绝大部分的方差。主成 分分 析可以作为因子分析的一种方法出现。 因子分析是寻找潜在的起支配作用的因子模 型的方法。因子分析是根据相关性大小把变量分 组 , 使得同组内的变量之间相关性较高 , 但不同的 组的变量相关性较低 , 每组变量代表一个基本结 构 , 这个基本结构称为公共因子。对于所研究的 问题就可试图用最少个数的不可测的所谓公共因 子的线性函数与特殊因子之和来描述原来观测的 每一分量。通过因子分析得来的新变量是对每个 原始变量进行内部剖析。
9、因子分析不是对原始变 量的重新组合 , 而是对原始变 量进行分解 , 分解为 公共因子和特殊因 子两部分。具体地 说 , 就是要 找出某个问题中可直接测量的具有一定相关性的 诸指标 , 如何受少数几个在专业中有意义、又不可 直接测量到、且相对独立的因子支配的规律 , 从而 可用各指标的测定来间接确定各因子的状态。因 子分析只能解释部分变异 , 主成分分析能解释所 有变异。 聚类分析算法是给定 m 维空间 R 中的 n 个向 量 , 把每个向量归属到 k 个聚类中的某一个 , 使得 每一个向量与其聚类中心的距离最小。聚类可以 理解为 : 类内 的相关 性尽 量大 , 类间 相关性 尽量 小。聚类
10、问题作为一种无指导的学习 问题 , 目的 在于通过把原来的对象集 合分成相似的组或簇 , 来获得某种内在的数据规律。 。 从三类分析的基本 思想可以看出 , 聚类分析 中并没于产生新变量 , 但是主成分分析和因子分 析都产生了新变量。 三 、 数据标准化的比较 主成分分析中为了 消除量纲和数量 级 , 通常 需要将原始数据进行标准化 , 将其转化为均值为 0 方差为 1 的无量纲数据。而因子分析在这方面要 求不是太高 , 因为在因子分析中可以通过主因子 法、加权最小二乘法、不加权最小二乘 法、重心 法 等很多解法来求因子变量 , 并且因子变量是每一 个变量的内部影响变量 , 它的求解与原始变量
11、是 否同量纲关系并不太大 , 当然在采用主成分法求 因子变量时 , 仍需标准化。不过在 实际应用的过 程中 , 为了尽量避免量纲或数量级的影响 , 建议在 使用因子分析前还是要进行数据标准化。在构造 因子变量时采用的是主成分分析方法 , 主要将指 2 (14- 17) 3 ( 66) 4 ( 338) 总第 124 期 山 东 教 育 学 院 学 报 25 标值先进行标准化处理得到协方差矩阵 , 即相关 矩阵和对应的特征值与特征向量 , 然后构造综合 评价函数进行评价。 聚类分析中如果参与聚类的变量的量纲不同 会导致错误的聚类结果。因此在聚类过程进行之 前必须对变量值进行标准化 , 即消除量纲
12、的影响。 不同方法进行标准化 , 会导致不同的聚类结果要 注意变量的分布。如果是正态分布应该采用 z 分 数法。 四 、 应用中的优缺点比较 ( 一 ) 主成分分析 1、 优点。首先它利用降维技术用少数几个综 合变量来代替原始多个变量 , 这些综合变量集中 了原始变量的大部分信息。其次它通过计算综合 主成分函数得分 , 对客观经济现象进行科学评价。 再次它 在应用 上侧重 于信息 贡献影 响力 综合评 价。 2、缺点。当主成分的因子负荷的符号有正有 负时 , 综合 评价函数意义就不明确。命名清晰性 低。 ( 二 ) 因子分析 1、优点 : 第一它不是对原有变量的取舍 , 而是 根据原始变量的信
13、息进行重新组合 , 找出影响变 量的共同因子 , 化简数据 ; 第二 , 它通 过旋转使得 因子变量更具 有可解释性 , 命名清晰性高。 2、缺点 : 在计算因子得分时 , 采用的是最小二 乘法 , 此法有时可能会失效。 ( 三 ) 聚类分析 1、优点 : 聚类分析模型的优点就是直观 , 结论 形式简明。 2、缺点 : 在样本量较大时 , 要获得聚类结论有 一定困难。由于相似系数是根据被试的反映来建 立反映被试间内在联系的指标 , 而实践中有时尽 管从被试反映所得出的数据中发现他们之间有紧 密的关系 , 但事物之间 却无任何内在联系 , 此时 , 如果根据距离或相似系数得出 聚类分析的结果 ,
14、 显然是不适当的 , 但是 , 聚类分析模型本身却无法 识别这类错误。 五 、 实际应用中三者的联系 在实际应用中 , 我们经常是将 三类方法结合 使用 , 例如对电子工业部所属的十五个电视机生 产企业某年份的经济效益数据排出他们的经济效 益优劣顺序。由于考察综合经济效益的指标很多 增加了我们衡量的难度 , 在此情况下 , 我们可以先 对各 指 标进 行 主成 分分 析 , 选 出 累计 影 响 达到 85% 以上的成分 , 然 后对每个生产 企业的主成分 进行标准化 , 用标准化后的数值进行聚类 分析 , 从 而可以把不同的企业按照不同的效益划分为不同 的类别。 再如勘探队在矿区采集了有金矿
15、化的火山岩 标本六块 , 分别测定六种元素 Cr, N i, Sr, Au, Cu, S 的含量 , 得到了珍贵的调查数据 , 想要对化石进行 分类。我们首先可以进行因子分析 , 即对变量 Cr, Ni, Sr, Au, Cu, S 因子分析。由相关性大小把六种 元素分类 , 使得同一组内的元素之间有较好的相 关性。但是不 同组 的元 素之 间 相关 性较 低。这 样 , 每一组元素就可以代表一个基本结构称为主 成分或因子。 利用主成分分析法提取 公因子 , 再 用方差极大法旋转因子轴 , 通过方差贡献大小选 择特征值大于 1 的因子 , 根据各 成分的累计贡献 率得出用几个因子来代替六个原始
16、变量 , 通过因 子载荷矩阵计算因子得分系数 , 再根据因子得分 系数和原始变量的标准化计算每个样本的因子得 分。把因子得分变量作为新变量进行 聚类分析 , 就可以把矿石分类 , 分清哪几块成分类似 , 每块矿 石含哪几种元素最多。 。 再如研究学生的学习成绩 , 取某班级 200 名学 生的基础 课成绩 进行分 析。先 将原 始数据 标准 化 , 建立指标之间的相关系数矩阵 , 求出矩阵的特 征值及方差贡献率。在指定提取四个 因子时 , 各 成分的方差贡献率累计达到 80% 以上 , 即因子分 析效果较理想。假如数学分析、高等数学、概率论 26 李新蕊 : 主成分分析、因子分析、聚类分析的
17、比较与应用 2007 年第 6 期 与数理统计、离散数学、复变函数在第一个因子上 有较高的载荷 , 第一个因子揭示了这五个变量 , 可 解释为数学课程的成绩 ; C 语言程序设计和离散数 学在第二个因子上有较高的载荷 , 这可以解释为 计算机课程的成绩 , 大学英语在第三个因子上有 较高的载荷 , 可解释为重要的公共课程的成绩 , 解 析几何在第四个因子上有较高的载荷 , 由于解析 几何因 其自身 的特点 而与其 他数学 课程 有所差 别 , 故单独 被一主因子所解释。这样 我们就用四 个不相关的新的综合指标代替了较多的指标 , 通 过因子载荷矩阵计算因子得分系数 , 再根据因子 得分系数和原
18、始变量的标准化计 算每个样本的因 子得分。把因子得分变量作为新变量进行聚类分 析 , 就可以把学生进行归类 , 分清哪一些同学的成 绩类型相似 , 每位同学在哪种类型课程中的成绩 最突出。 主成分分析、因子分析、聚类分析虽然都是降 维的统计方法 , 但是三者各有自己不同的应用条 件 , 在使用中的侧重点和优缺点也各 不相同。因 此我们在使用它们的时候应充分考虑各方面实际 情况 , 更多的情况下我们应该将三者联合使用以 求达到我们的研究目的。 参考文献 : 1 李云晋 . 非标准化数据的聚类分析方 法 J . 昆明冶金高 等专 科 学校学报 , 2005, ( 1) . 2 王芳 . 主成分分析
19、与因子分析的异同 比较及应用 J . 统 计教 育 , 2003, ( 5) . 3 李蓉 , 李宇 . 基与主成分分析 与聚类分析方法 的我国西 部区 域划分问题的研究 J . 科技广场 , 2006, (5) . 4 5 卢纹岱 . SPSS for Windows 统计方 法 ( 第 2 版 ) M . 北 京 : 电子工业出版社 , 2005. 6 王宏健 , 易柱 新 . 主 成分 方法用 于聚 类分 析 J . 经 济数 学 , 1996, ( 1) . 7 刘罗曼 , 张颖南 . 因子 分析和聚 类分析 的一 个简单 应用 J . 沈阳师范大学学报 ( 自然科学版 ) , 200
20、5, ( 2) . Compare and Application of Principal Component Analysis, Factor Analysis and Clustering Analysis L i Xinrui ( School of Political Science and Public Administration, University of Jinan, Jinan 250022, China) Abstract: Principal component analysis , factor analysis and clustering analysis ar
21、e all the familiar statistical methods .This paper compared the three analysis methods from the basic thoughts, data! s standardization and the merits and demeritsas in application. At last, illuminated the application of the three methods in practical problem with ex amples. Key words: Principal component analysis; Factor analysis; Clustering analysis