《主成分分析在SPSS中的操作应用.doc》由会员分享,可在线阅读,更多相关《主成分分析在SPSS中的操作应用.doc(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、理 论 与 方 法 主成分分析在 中的操作应用 # 慧聪国际行业研究院广州分公司 张文霖 一、引言 在所有的线性组合中选取的 应 该是方差最大的 , 故称 个 指标的信息 , 再考虑选取 即选第二个线性组合 , 为了有 在社会经济统 计综合评价中主成 分分析和因子分析 效 地反映原 来信息 , 已 有的信息 就不需 要再出 现在 是两个常被使用的统计分析方法 。现在 、 等统计 中 , 用数学 语言表达就 是要求 ( , ) , 则称 为第 软件 使用越来 越普遍 , 但 并未 像 一 样 , 将主成 分分析与因子分析作为两个独立的方法并列处理 注 : 主 成分分析与因子分 析二者是又有着区
2、别与联系 , 最主要 的不同在于它们的 数学模型的构建上 , 具体区别请见参 考文 献 , 而是根 据二者 之间的 关系有机 地将主 成分分 析嵌入到因子分析之中 , 这样 虽然简化了分析程 序 , 却为 主成分分析的计算带来不便。且国内许多 教程并没 有详细 讲解如何应用 进 行主成分分析 , 那到底如何 使用 进行主 成分分 析呢 ? 为使读 者能够正 确使用 软件进行主成分分析 , 本文将通过一个实例来详细 介绍如何用 进行主成分分析。接下来先简单介绍主 成分分析原理与模 型 , 以便读者对主 成分分析有个大致 的了解。 二、主成分分析原 理和模型 ( 一 ) 主成分分析原理 主成分分析
3、是 设法将原来众多具 有一定相关性 ( 比 如 个指标 ) , 重新组合成一组新的互 相无关的综合指标 来代替原来的指标。通常 数学上的 处理就是 将原来 个 指标作线性组合 , 作为新的综合指标。最经典的做法就是 用 ( 选取的第 一个线性 组合 , 即第一 个综合 指标 ) 的方 二主成 分 , 依此类推可以构造出 第三、第 四 , , 第 个 主成分。 ( 二 ) 主成分分析数学模型 其 中 , , , (, ,) 为 的协 方差 阵 变量经 过标准化处理的值 , 因为在实际应用 中 , 往往 存在 指标的 量纲不同 , 所以在 计算之前须先消除 量纲的影响 , 而将原始 数据标准化 ,
4、 本文所 采用的数据就存在量 纲影 响 注 : 本文指的数据标准化是指 标准化 。 是相应的特征值和单位特征向量 , 。 进行主成分分析主要步骤如下 : 根据研究问题选取指标与数据 ; 进 行指 标数 据标准 化 ( 软件 过 程自 动 执行 ) ; 进行指标之间的相关性判定 ; 确定主成分个数 ; 为第一主成分 如 果第一主成分不足 以代表原来 差来表达 即 越大 表示 包含的信息越多 因此 市场 研究 # 理 论 与 方 法 计算综合主成分值并进行评价与研究 。 体系中选取了 个指标 : 人均 三 、对沿海 个省 市经济综 合指标进 农业增加值 工业增加值 行主成分分析 第三产业增加值 固
5、定资产投资 ( 一 ) 指标选取原则 基本建设投资 ( ) 本 文所 选 取的 数 据来 自 中国 统 计 年鉴 中 年的统计数据 , 在 沿海 个 省市经济状况主要 指标 表 沿海 个省市经济数据 农 业 工 业 第三产业 人均 海关出口总额 固定资 基本建 社会消费品 海关出 地方财 地区 辽宁 山东 河北 天津 江苏 上海 浙江 福建 广东 广西 增加值 增加值 增加值 产投资 设投资 零售总额 口总额 政收入 ( 二 ) 主成分分析在 中的具体操作步骤 把 选入 框 运用 统计 分析软 件 过 程 对 沿海 个 : 框组 中选中 省市经济综合指标进行主成分分析 。具体操作步骤如下 :
6、, 然后点击 , 返回 对话框 对话框 表 , 对话框与 弹 出 子对话框 点击“ ” 国内生产总值占全国比重 地方财政收入 ! 市 场研 究 理 论 与 方 法 在调用 过程 进行分析 时 , 会 直接给出 标准化后的数据 , 如需要 得到标准 化数据 , 则需 自动对原始数据进 行标准化处理 , 所 以在得到计算结果 调用 过程进行计算 。 后的变量都是指经过 标准化处理后的变 量 , 但 表 并不 相关系数矩阵 人均 农 业 工 业 增加值 第三 产业 固定 资产 基本 建设 社会消 费品零 海关 出口 地方 财政 人均 农业增加值 增加 值 增加值 投资 投资 售总额 总额 收入 工业
7、增加值 第三产业增加值 固定资产投资 基本建设投资 社会消费品零售总额 海关出口 总额 地方财政收入 表 方差分解主成分提取分析表 表 初始因子载荷矩阵 人均 农业增加值 工业增加值 第三产业增加值 固定资产投资 基本建设投资 社会消费品零售总额 海关出口总额 地方财政收入 : 从表 可知 与工业增加值 , 第三产业 增加值 、 解释力 度大 , : 因此一般可以 用特征值大于 作 为纳入标 固定 资产投资 、基 本建设投 资、社会消 费品零 售总额 、地 方财政收入这几 个指标存在着极其 显著的关系 , 与海 关 出口总额存在着 显著关系。可见许 多变量之间直接的 相 关性比较强 , 证明他
8、们存在信息上的重叠。 主成分 个数提取原 则为主成 分对应的特 征值大于 的前 个主成分。特征值在某种程度上可以被看成是表 示主成 分影响力度大 小的指标 , 如 果特征值小 于 , 说 明 该主成分的解释 力度还不如直接引 入一个原变量的平 均 准。通过表 ( 方差分解 主成分提取分析 ) 可知 , 提取 个 主成分 , 即 , 从表 ( 初始因子载荷矩阵 ) 可知 、工 业 增加值、第三 产业增加 值、固定 资产投资 、基本建 设投 资 、社 会消费品零 售总额 、海关出口 总额、地 方财政 收入 在第一主 成分上有较高载荷 , 说明第一主成分 基本反映 了这些指标的信息 ; 人均 和农业
9、增加值指标在第二 主成分上 有较高载荷 , 说明 第二主成分基本反 映了人均 和农业 增加值两个指标的信息。所以提取 两个主成 市场 研究 ! 理 论 与 方 法 分是可以基本反映全 部指标的信息 , 所 以决定用两个新 对 话 框 来 实现 : 弹 出 变量来代替原来的 十个变量 。 但这两个 新变量的表达还 对 话框 后 , 把 选 入 框 , 在 不能从 输出窗口中 直接得 到 , 因为“ ”是 前的方 框打 上钩 , 点 指初始因子载荷矩 阵 , 每一个载荷量表 示主成分与对应 击“ ” , 经标准化的数据会自动填入数据窗口 中 , 并以 变量的相关系数。 用表 ( 主成分 载荷矩阵
10、) 中的 数据除以主 成分相对 开头命名。 表 对话框 应的特征值开平方 根便得到两个主成 分中每个指标所对 。 ( 利用“ ” , 在 对话 框中 输入“ () ” 注 : 第 二主 成分 后的括号中 填 , 即可得到 特征向量 ( 见表 ) 。同 理 , 可得到特征向量 。将得到的特征向量与标准化后的 数据相乘 , 然后就可以得出主成分表达式 注 : 因本例只是 为了说明如何在 进行主成 分分析 , 故在此不对提取 的主成分进行命名 , 有兴趣的读者可自行命名 : 表 对话框 以每个主成 分所对应的特征值 占所提取主成分 总的 特征值之和的比例作为权重计算主成分综合模型 : 即可得到主成分
11、综合模型 : 根据主成分综合模型即可计算综合主成分值 , 并对其 按综合主成 分值进行排序 , 即 可对各地区进行综合 评价 比较 , 结果见表 。 对得 出的综合主 成分 ( 评价 ) 值 , 我们可 用实际 结果、 经验与原始数据 做聚类分析进行检 验 , 对有 争议的结果 , 可用原始数 据做判别分析解决 争议 , 具体评价与检 验本 文不做论述 , 如读者有兴趣可自行进行检验论述。 四 、小结 本文 旨在阐 述如何 利用 软 件进 行正确 的主 成 分 分析 , 使读者 能正确 使用 进 行主成 分分析 , 以 解 决实际问题 ; 避免出现读者因 子分析与主成分分析 混用 而出现定量
12、分析的错误 , 希望 今后的相关教科书能 够说 前文提到 会自动对数 据进行标准化 , 但不会直 明清楚主成 分分析与因子分析 的区别及联系 ( 区别 与联 接给出 , 需要我们自己另外算 , 我们可以通过 系见参考文献 ) , 并 介绍他们如何在 中操作 。 # 表 综合主成分值 城市 江苏 浙江 第一主成分 排名 第二主成分 用复制粘贴的方法 到数据编辑窗口 为变量 然后 广东 山东 排名 综合主成分 排名 参考文献 于秀林 , 任雪松 多元统计分析 辽宁 河北 北京 : 中国统计出版 社 , 福建 林海 明 , 张 文霖 主成分分 析与因 天津 广西 子分析详细的异同和 软件 统 计研究 ( ) ! 市 场研 究 上海