第11章-主成分分析和因子分析课件.ppt

上传人:飞****2 文档编号:92172971 上传时间:2023-05-31 格式:PPT 页数:61 大小:311KB
返回 下载 相关 举报
第11章-主成分分析和因子分析课件.ppt_第1页
第1页 / 共61页
第11章-主成分分析和因子分析课件.ppt_第2页
第2页 / 共61页
点击查看更多>>
资源描述

《第11章-主成分分析和因子分析课件.ppt》由会员分享,可在线阅读,更多相关《第11章-主成分分析和因子分析课件.ppt(61页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、模型选择是艺术,而不是科学。William Navidi统计名言August 3,2010第 11 章 主成分分析和因子分析11.1 主成分分析11.2 因子分析 August 3,2010nn在在研研究究实实际际问问题题时时,往往往往需需要要收收集集多多个个变变量量。但但这这样样会会使使多多个个变变量量间间存存在在较较强强的的相相关关关关系系,即即这这些些变变量量间间存存在在较较多多的的信信息息重重复复,直直接接利利用用它它们们进进行行分分析析,不不但但模模型型复复杂杂,还还会会因因为为变变量量间间存存在在多多重重共共线线性性而而引引起起较较大的误差大的误差nn为为能能够够充充分分利利用用数

2、数据据,通通常常希希望望用用较较少少的的新新变变量量代代替替原原来来较较多多的的旧旧变变量量,同同时时要要求求这这些些新新变变量量尽尽可可能能反反映映原变量的信息原变量的信息nn主主成成分分分分析析和和因因子子分分子子正正式式解解决决这这类类问问题题的的有有效效方方法法。它它们们能能够够提提取取信信息息,使使变变量量简简化化降降维维,从从而而使使问问题题更更加简单直观加简单直观主成分分析和因子分析(Principal Component Analysis&Factor Analysis)(Principal Component Analysis&Factor Analysis)August 3

3、,2010因子分析得到的是什么?因子分析方法在部分领域应用的一些例子 因子分析方法在部分领域应用的一些例子l l 心 心 理 理 学 学:心 心 理 理 学 学 家 家 瑟 瑟 斯 斯 登 登 对 对56 56 项 项 测 测 验 验 的 的 得 得 分 分 进 进 行 行 因 因 子 子 分 分析 析,得 得 出 出 了 了7 7 中 中 主 主 要 要 智 智 利 利 因 因 子 子:词 词 语 语 理 理 解 解 能 能 力 力,语 语 言 言 流 流 畅 畅能 能 力 力、计 计 数 数 能 能 力 力、空 空 间 间 能 能 力 力、记 记 忆 忆 力 力、知 知 觉 觉 速 速 度

4、 度 和 和 推 推 理 理能力 能力l l 教 教 育 育 学 学:某 某 师 师 范 范 大 大 学 学 在 在 对 对 以 以 幼 幼 儿 儿 园 园3 3 6 6 岁 岁 幼 幼 儿 儿 为 为 对 对 象 象,通 通 过 过80 80 名 名 幼 幼 儿 儿 教 教 师 师 对 对480 480 名 名 幼 幼 儿 儿 好 好 奇 奇 心 心 行 行 为 为 特 特 征 征 描 描 述 述 的 的 开 开放 放 式 式 问 问 卷 卷 调 调 查 查,编 编 制 制 出 出60 60 个 个 项 项 目 目 的 的 初 初 始 始 问 问 卷 卷,对 对500 500 名 名 幼 幼

5、儿 儿 的 的 初 初 测 测 结 结 果 果 进 进 行 行 探 探 索 索 性 性 因 因 子 子 分 分 析 析 后 后,形 形 成 成 了 了33 33 个 个 项 项 目 目的 的 正 正 式 式 问 问 卷 卷,对 对1000 1000 名 名 幼 幼 儿 儿 的 的 评 评 价 价 结 结 果 果 进 进 行 行 验 验 证 证 性 性 因 因 子 子分 分 析 析,结 结 果 果 表 表 明 明:教 教 师 师 评 评 价 价 的 的3 3 6 6 岁 岁 幼 幼 儿 儿 好 好 奇 奇 心 心 结 结 构 构 包 包括 括 敏 敏 感 感、对 对 未 未 知 知 事 事 物

6、物 的 的 关 关 注 注、好 好 问 问、喜 喜 欢 欢 摆 摆 弄 弄、探 探 索 索 持 持久和好奇体验 久和好奇体验6 6 个因子 个因子August 3,2010因子分析得到的是什么?l医医学学:一一位位研研究究者者对对山山东东某某县县2000200020022002年年33年年的的全全死死因因调调查查资资料料中中不不同同地地区区各各恶恶性性肿肿瘤瘤标标化化死死亡亡率率进进行行因因子子分分析析后后发发现现,该该县县居居民民恶恶性性肿肿瘤瘤的的发发病病和和死死亡亡具具有有明明显显的的地地区区分分布布。在在地地区区分分布布中中,各各种种恶恶性性肿肿瘤瘤的的死死亡亡具具有有一一定定程程度度

7、的的聚聚集集性性。经经因因子子分分析析得得到到的的44个个主主因因子子可可以以解解释释1010种种恶恶性性肿肿瘤瘤死死亡亡率率的的74.5474.54;1010种种恶恶性性肿肿瘤瘤中中,被被解解释释的的比比例例最最小小也也在在6262以以上上;而而胃胃癌癌、白白血血病病、膀膀胱胱癌癌、乳乳腺腺癌癌、结结肠肠癌癌死死亡亡率率被被解解释释的的比比例例均均在在7777以以上上,表表明明这这1010种种恶恶性性肿肿瘤瘤之之间间存存在在中中等等偏偏强的内在联系和地区分布特点强的内在联系和地区分布特点August 3,2010因子分析得到的是什么?l l 地 地 质 质 学 学:海 海 南 南 岛 岛 的

8、 的 石 石 绿 绿 铁 铁 矿 矿 及 及 外 外 围 围 地 地 区 区 有 有 透 透 辉 辉 石 石 透 透 闪 闪 岩 岩 石 石 和 和 阳 阳起 起 石 石 两 两 种 种 岩 岩 石 石。地 地 质 质 工 工 作 作 者 者 对 对 两 两 种 种 岩 岩 石 石 标 标 本 本 的 的11 11 种 种 化 化 验 验 数 数 据 据 进 进行 行 了 了 因 因 子 子 分 分 析 析,分 分 别 别 得 得 到 到5 5 种 种 和 和4 4 种 种 主 主 要 要 因 因 子 子。结 结 果 果 表 表 明 明,透 透 辉 辉石 石 透 透 闪 闪 岩 岩 石 石 与

9、 与 阳 阳 起 起 石 石 有 有 明 明 显 显 区 区 别 别,前 前 者 者 的 的 元 元 素 素 组 组 合 合 属 属 碳 碳 酸 酸 盐 盐 沉 沉积 积 型 型,后 后 者 者 属 属 岩 岩 浆 浆 分 分 异 异 型 型。透 透 辉 辉 石 石 透 透 闪 闪 岩 岩 石 石 中 中 铁 铁 的 的 沉 沉 积 积 与 与 泥 泥 质 质成 成 分 分 有 有 关 关,属 属 于 于 正 正 常 常 沉 沉 积 积。由 由 此 此 推 推 断 断 石 石 绿 绿 铁 铁 矿 矿 的 的 主 主 要 要 成 成 矿 矿 为 为 沉 沉积作用,并据此提出了找矿标志和找矿方向

10、积作用,并据此提出了找矿标志和找矿方向l l 上 上 市 市 公 公 司 司 评 评 价 价:某 某 研 研 究 究 者 者 选 选 择 择35 35 家 家 能 能 源 源 类 类 上 上 市 市 公 公 司 司,根 根 据 据2007 2007 年 年 的 的12 12 项 项 经 经 营 营 指 指 标 标 数 数 据 据,采 采 用 用 因 因 子 子 分 分 析 析 法 法 分 分 别 别 按 按 盈 盈 利 利 能 能力 力、资 资 产 产 管 管 理 理 能 能 力 力、偿 偿 债 债 能 能 力 力 及 及 经 经 营 营 业 业 绩 绩 综 综 合 合 评 评 分 分 等 等

11、 方 方 面 面 对 对35 35家 家 上 上 市 市 公 公 司 司 进 进 行 行 了 了 排 排 名 名。其 其 中 中:盈 盈 利 利 能 能 力 力 排 排 在 在 前 前5 5 位 位 的 的 是 是:神 神火 火 股 股 份 份、海 海 油 油 工 工 程 程、兰 兰 花 花 科 科 创 创、潞 潞 安 安 环 环 能 能 和 和 中 中 国 国 石 石 油 油;经 经 营 营 业 业绩 绩 综 综 合 合 得 得 分 分 排 排 在 在 前 前5 5 位 位 的 的 是 是:神 神 火 火 股 股 份 份、潞 潞 安 安 环 环 能 能、兰 兰 花 花 科 科 创 创、海油工

12、程和开滦股份 海油工程和开滦股份August 3,201011.1 主成分分析 11.1.1 主成分分析的基本原理 11.1.2 主成分分析的数学模型 11.1.3 主成分分析的步骤第 11 章 主成分分析和因子分析August 3,201011.1.1 主成分分析的基本原理11.1 主成分分析August 3,2010n主成分的概念由主成分的概念由Karl PearsonKarl Pearson在在19011901年提出年提出n考察多个变量间相关性一种多元统计方法考察多个变量间相关性一种多元统计方法n研研究究如如何何通通过过少少数数几几个个主主成成分分(principal(principal

13、 component)component)来来解解释释多多个个变变量量间间的的内内部部结结构构。即即从从原原始始变变量量中中导导出出少少数数几几个个主主分分量量,使使它它们们尽尽可可能能多地保留原始变量的信息,且彼此间互不相关多地保留原始变量的信息,且彼此间互不相关n主成分分析的目的:数据的压缩;数据的解释主成分分析的目的:数据的压缩;数据的解释l l 常 常 被 被 用 用 来 来 寻 寻 找 找 判 判 断 断 事 事 物 物 或 或 现 现 象 象 的 的 综 综 合 合 指 指 标 标,并 并 对 对 综 综合指标所包含的信息进行适当的解释 合指标所包含的信息进行适当的解释什么是主成分

14、分析?(principal component analysis)August 3,2010nn对对这这两两个个相相关关变变量量所所携携带带的的信信息息(在在统统计计上上信信息息往往往往是是指数据的变异指数据的变异)进行浓缩处理进行浓缩处理nn假假定定只只有有两两个个变变量量xx11和和xx22,从从散散点点图图可可见见两两个个变变量量存存在相关关系,这意味着两个变量提供的信息有重叠在相关关系,这意味着两个变量提供的信息有重叠主成分分析的基本思想(以两个变量为例)nn如如果果把把两两个个变变量量用用一一个个变变量量来来表表示示,同同时时这这一一个个新新的的变变量量又又尽尽可可能能包包含含原原来

15、来的的两两个个变变量量的的信信息息,这这就就是是降降维维的的过程过程August 3,2010n n 椭 椭 圆 圆 中 中 有 有 一 一 个 个 长 长 轴 轴 和 和 一 一 个 个 短 短 轴 轴,称 称 为 为 主 主 轴 轴。在 在 长 长 轴 轴 方 方 向 向,数 数 据 据的变化明显较大,而短轴方向变化则较小 的变化明显较大,而短轴方向变化则较小n n 如 如 果 果 沿 沿 着 着 长 长 轴 轴 方 方 向 向 设 设 定 定 一 一 个 个 新 新 的 的 坐 坐 标 标 系 系,则 则 新 新 产 产 生 生 的 的 两 两 个 个 变 变 量 量和 和 原 原 始

16、始 变 变 量 量 间 间 存 存 在 在 一 一 定 定 的 的 数 数 学 学 换 换 算 算 关 关 系 系,同 同 时 时 这 这 两 两 个 个 新 新 变 变 量 量 之 之间彼此不相关,而且长轴变量携带了大部分的数据变化信息,间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而 而主成分分析的基本思想(以两个变量为例)短 短 轴 轴 变 变 量 量 只 只 携 携 带 带 了 了 一 一 小 小部分变化的信息 部分变化的信息(变异 变异)n n 此 此 时 时,只 只 需 需 要 要 用 用 长 长 轴 轴 方 方向 向 的 的 变 变 量 量 就 就 可 可 以 以 代 代

17、 表 表 原 原来 来 两 两 个 个 变 变 量 量 的 的 信 信 息 息。这 这样 样 也 也 就 就 把 把 原 原 来 来 的 的 两 两 个 个 变 变量 量 降 降 维 维 成 成 了 了 一 一 个 个 变 变 量 量。长 长 短 短 轴 轴 相 相 差 差 越 越 大 大,降 降 维 维也就越合理 也就越合理August 3,2010nn多多维维变变量量的的情情形形类类似似,只只不不过过是是一一个个高高维维椭椭球球,无无法法直观地观察直观地观察nn每每个个变变量量都都有有一一个个坐坐标标轴轴,所所以以有有几几个个变变量量就就有有几几主主轴轴。首首先先把把椭椭球球的的各各个个主

18、主轴轴都都找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量,这这样样,降降维维过程也就完成了过程也就完成了主成分分析的基本思想(以两个变量为例)nn找找出出的的这这些些新新变变量量是是原原来来变变量量的的线线性性组合,叫做主成分组合,叫做主成分August 3,201011.1.2 主成分分析的数学模型11.1 主成分分析August 3,2010n n 数 数 学 学 上 上 的 的 处 处 理 理 是 是 将 将 原 原 始 始 的 的 p p 个 个 变 变 量 量 作 作 线 线 性 性 组 组 合 合,作 作 为 为 新 新

19、的 的变量 变量n n 设 设 p p 个 个 原 原 始 始 变 变 量 量 为 为,新 新 的 的 变 变 量 量(即 即 主 主 成 成 分 分)为 为,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为主成分分析的数学模型主成分分析的数学模型 主成分分析的数学模型a aij ij为 为 第 第 i i 个 个 主 主 成 成 分 分 y yi i和 和 原 原来 来 的 的 第 第j j 个 个 变 变 量 量x xj j之 之 间 间 的 的线 线 性 性 相 相 关 关 系 系 数 数,称 称 为 为 载 载荷 荷(loading)(loading)。比 比 如 如

20、,a a11 11表 表 示 示 第 第1 1 主 主 成 成 分 分 和 和 原 原 来 来的 的 第 第1 1 个 个 变 变 量 量 之 之 间 间 的 的 相 相 关 关系 系 数 数,a a21 21表 表 示 示 第 第 2 2 主 主 成 成分 分 和 和 原 原 来 来 的 的 第 第1 1 个 个 变 变 量 量 之 之间的相关系数 间的相关系数August 3,2010n选择几个主成分?选择几个主成分?选择标准是什么?选择标准是什么?n被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴总程度之和的大部分总程度之和的大部分n在在统统计计上上,

21、主主成成分分所所代代表表的的原原始始变变量量的的信信息息用用其其方方差差来来表表示示。因因此此,所所选选择择的的第第一一个个主主成成分分是是所所有主成分中的方差最大者,即有主成分中的方差最大者,即Var(yVar(yii)最大最大n如如果果第第一一个个主主成成分分不不足足以以代代表表原原来来的的个个变变量量,在在考虑选择第二个主成分,依次类推考虑选择第二个主成分,依次类推n这些主成分互不相关,且方差递减这些主成分互不相关,且方差递减主成分的选择August 3,2010n究竟选择几个主成分才合适呢?究竟选择几个主成分才合适呢?n一一般般要要求求所所选选主主成成分分的的方方差差总总和和占占全全部

22、部方方差差的的80%80%以以上上就就可可以以了了。当当然然,这这只只是是一一个个大大体体标标准准,具体选择几个要看实际情况具体选择几个要看实际情况n如如果果原原来来的的变变量量之之间间的的相相关关程程度度高高,降降维维的的效效果果就就会会好好一一些些,所所选选的的主主成成分分就就会会少少一一些些,如如果果原原来来的的变变量量之之间间本本身身就就不不怎怎么么相相关关,降降维维的的效效果果自自然就不好然就不好n不相关的变量就只能自己代表自己了不相关的变量就只能自己代表自己了主成分的选择August 3,201011.1.3 主成分分析的步骤11.1 主成分分析August 3,2010n 对 原

23、 来 的p 个 指 标 进 行 标 准 化,以 消 除 变 量在水平和量纲上的影响n 根 据 标 准 化 后 的 数 据 矩 阵 求 出 相 关 系 数 矩阵n 求出协方差矩阵的特征根和特征向量n 确 定 主 成 分,并 对 各 主 成 分 所 包 含 的 信 息给予适当的解释主成分分析的步骤August 3,2010【例】根 据 我 国31 个 省 市 自 治 区2006 年 的6 项 主要 经 济 指 标 数 据,进 行 主 成 分 分 析,找 出 主 成分并进行适当的解释主成分分析(实例分析)31 31 个地区的 个地区的6 6 项经济指标 项经济指标August 3,2010第 第1

24、1 步 步 选择【选择【Analyze Analyze】下拉菜单,并选择【】下拉菜单,并选择【Data Reduction-Data Reduction-Factor Factor】,进入主对话框】,进入主对话框第 第2 2 步 步 在主对话框中将所有原始变量选入【在主对话框中将所有原始变量选入【Variables Variables】第 第3 3 步 步 点击【点击【Descriptives Descriptives】,在【】,在【correlation Matrix correlation Matrix】下选择】下选择【Coefficirnts Coefficirnts】,点击【】,点击【

25、Continue Continue】回到主对话框】回到主对话框第 第4 4 步 步 点击【点击【Extraction Extraction】,在【】,在【Display Display】下选择【】下选择【Scree Scree Plot Plot】,点击【】,点击【Continue Continue】回到主对话框】回到主对话框第 第5 5 步 步 点击【点击【Rotation Rotation】,在【】,在【Display Display】下选择【】下选择【Loading Loading Plot Plot】,点击【】,点击【Continue Continue】回到主对话框】回到主对话框 点击

26、【点击【OK OK】用SPSS 进行主成分分析 用用SPSSSPSS进行主成分分析进行主成分分析August 3,2010SPSS 的输出结果各变量之间的相关系数矩阵各变量之间的相关系数矩阵变量之间的存在较强的相关关系,适合作主成分分析 August 3,2010SPSS 的输出结果(选择主成分)各主成分所解释的原始变量的方差各主成分所解释的原始变量的方差该表是选则主成分的主要依据August 3,2010nn“Initial Initial EigenvaluesEigenvalues”(初始特征根初始特征根)l l 实际上就是本例中的 实际上就是本例中的6 6 个主轴的长度 个主轴的长度l

27、 l 特 特 征 征 根 根 反 反 映 映 了 了 主 主 成 成 分 分 对 对 原 原 始 始 变 变 量 量 的 的 影 影 响 响 程 程 度 度,表 表 示 示 引 引 入 入该主成分后可以解释原始变量的信息 该主成分后可以解释原始变量的信息l l 特 特 征 征 根 根 又 又 叫 叫 方 方 差 差,某 某 个 个 特 特 征 征 根 根 占 占 总 总 特 特 征 征 根 根 的 的 比 比 例 例 称 称 为 为 主 主成分方差贡献率 成分方差贡献率l l 设特征根为 设特征根为,则第,则第i i 个主成分的方差贡献率为 个主成分的方差贡献率为l l 比 比 如 如,第 第

28、 一 一 个 个 主 主 成 成 分 分 的 的 特 特 征 征 根 根 为 为3.963 3.963,占 占 总 总 特 特 征 征 根 根 的 的 的 的比 比 例 例(方 方 差 差 贡 贡 献 献 率 率)为 为66.052%66.052%,这 这 表 表 示 示 第 第 一 一 个 个 主 主 成 成 分 分 解 解 释 释了 了 原 原 始 始6 6 个 个 变 变 量 量66.052%66.052%的 的 信 信 息 息,可 可 见 见 第 第 一 一 个 个 主 主 成 成 分 分 对 对 原 原来的 来的6 6 个变量解释的已经很充分了 个变量解释的已经很充分了根据什么选择主

29、成分?August 3,2010nn根据主成分贡献率根据主成分贡献率l l 一 一 般 般 来 来 说 说,主 主 成 成 分 分 的 的 累 累 计 计 方 方 差 差 贡 贡 献 献 率 率 达 达 到 到80%80%以 以 上 上 的 的 前 前几个主成分,都可以选作最后的主成分 几个主成分,都可以选作最后的主成分l l 比如表 比如表13.3 13.3 中前两个主成分的累计方差贡献率为 中前两个主成分的累计方差贡献率为95.57%95.57%nn根据特特征根的大小根据特特征根的大小l l 一 一 般 般 情 情 况 况 下 下,当 当 特 特 征 征 根 根 小 小 于 于1 1 时

30、时,就 就 不 不 再 再 选 选 作 作 主 主 成 成 分 分 了 了,因 因 为 为 该 该 主 主 成 成 分 分 的 的 解 解 释 释 力 力 度 度 还 还 不 不 如 如 直 直 接 接 用 用 原 原 始 始 变 变 量 量 解 解 的 的 释 释力度大 力度大l l 比 比 如 如 表 表13.3 13.3 中 中 除 除 前 前 两 两 个 个 外 外,其 其 他 他 主 主 成 成 分 分 的 的 特 特 征 征 根 根 都 都 小 小 于 于1 1。所以。所以SPSS SPSS 只选择了两个主成分 只选择了两个主成分l l 就 就 本 本 例 例 而 而 言 言,两

31、两 个 个 主 主 成 成 分 分 就 就 足 足 以 以 说 说 明 明 各 各 地 地 区 区 的 的 经 经 济 济 发 发 展 展状况了 状况了根据什么选择主成分?August 3,2010n SPSS 还 提 供 了 一 个 更为 直 观 的 图 形 工 具 来 帮助 选 择 主 成 分,即 碎 石图(Scree Plot)n 从 碎 石 图 可 以 看 到6 个主轴长度变化的趋势n 实 践 中,通 常 结 合 具 体情 况,选 择 碎 石 图 中 变化 趋 势 出 现 拐 点 的 前 几个 主 成 分 作 为 原 先 变 量的 代 表,该 例 中 选 择 前两个主成分即可根据什么选

32、择主成分?(Scree Plot)拐点 拐点August 3,2010怎样解释主成分?主成分的因子载荷矩阵 主成分的因子载荷矩阵 l 表1 中 的 每 一 列 表 示 一 个 主 成 分 作 为 原 来 变 量 线 性 组 合 的 系 数,也 就 是主成分分析模型中的系数aijl 比 如,第 一 主 成 分 所 在 列 的 系 数0.670 表 示 第1 个 主 成 分 和 原 来 的 第 一 个变 量(人 均GDP)之 间 的 线 性 相 关 系 数。这 个 系 数 越 大,说 明 主 成 分 对 该变量的代表性就越大August 3,2010n 根 据 主 成 分 分 析 模 型 和 因

33、子 载 荷,可 以 得 到两 个 主 成 分 与 原 来6 个 变 量 之 间 的 线 性 组 合表达式如下 怎样解释主成分?(主成分与原始变量的关系)注意:表达式中的不是原始变量,而是标准化变量 注意:表达式中的不是原始变量,而是标准化变量August 3,2010n 载 荷 图(Loading Plot)直 观 显 示主成分对原始6 变量的解释情况n 图 中 横 轴 表 示 第 一 个 主 成 分 与 原始 变 量 间 的 相 关 系 数;纵 轴 表 示第 二 个 主 成 分 与 原 始 变 量 之 间 的相关系数n 每 一 个 变 量 对 应 的 主 成 分 载 荷 就对 应 坐 标 系

34、 中 的 一 个 点,比 如,人 均 GDP 变 量 对 应 的 点 是(0.670,0.725)n 第 一 个 主 成 分 很 充 分 地 解 释 了 原始 的6 个 变 量(与 每 个 原 始 变 量 都有 较 强 的 正 相 关 关 系),第 二 个主 成 分 则 较 好 地 解 释 了 居 民 消 费水 平、人 均GDP 和 年 末 总 人 口这3 个 变 量(与 它 们 的 相 关 关 系 较高),而 与 其 他 变 量 的 关 系 则 较弱(相关系数的点靠近坐标轴)怎样解释主成分?(Loading Plot)相 相 关 关 系 系 数 数 的 的 点 点 越 越远 远 离 离 坐

35、坐 标 标 轴 轴,主 主成 成 分 分 对 对 原 原 始 始 变 变 量 量的 的 代 代 表 表 性 性 就 就 越 越 大 大。这 这3 3 个 个 点 点 远 远 离 离 主 主 成 成分 分2 2 的坐标 的坐标August 3,201011.2 因子分析 11.2.1 因子分析的意义和数学模型 11.2.2 因子分析的步骤 11.2.3 因子分析的应用第 11 章 主成分分析和因子分析August 3,201011.2.1 因子分析的意义和数学模型11.2 因子分析August 3,2010nn由由Charles SpearmanCharles Spearman于于1904190

36、4年首次提出的年首次提出的nn与与主主成成分分分分析析类类似似,它它们们都都是是要要找找出出少少数数几几个个新新的的变量来代替原始变量变量来代替原始变量nn不不同同之之处处:主主成成分分分分析析中中的的主主成成分分个个数数与与原原始始变变量量个个数数是是一一样样的的,即即有有几几个个变变量量就就有有几几个个主主成成分分,只只不不过过最最后后我我们们确确定定了了少少数数几几个个主主成成分分而而已已。而而因因子子分分析析则则需需要要事事先先确确定定要要找找几几个个成成分分,也也称称为为因因子子(factor)(factor),然然后后将将原原始始变变量量综综合合为为少少数数的的几几个个因因子子,以

37、以再再现现原原始始变变量量与与因因子子之之间间的的关关系系,一一般般来来说说,因因子的个数会远远少于原始变量的个数子的个数会远远少于原始变量的个数什么是因子分析?(factor analysis)August 3,2010nn因因子子分分析析可可以以看看作作是是主主成成分分分分析析的的推推广广和和扩扩展展,但但它它对对问问题题的的研研究究更更深深入入、更更细细致致一一些些。实实际际上上,主主成分分析可以看作是因子分析的一个特例成分分析可以看作是因子分析的一个特例nn简简言言之之,因因子子分分析析是是通通过过对对变变量量之之间间关关系系的的研研究究,找找出出能能综综合合原原始始变变量量的的少少数

38、数几几个个因因子子,使使得得少少数数因因子子能能够够反反映映原原始始变变量量的的绝绝大大部部分分信信息息,然然后后根根据据相相关关性性的的大大小小将将原原始始变变量量分分组组,使使得得组组内内的的变变量量之之间间相相关关性性较较高高,而而不不同同组组的的变变量量之之间间相相关关性性较较低低。因因此此,因因子子分分析析属属于于多多元元统统计计中中处处理理降降维维的的一一种种统统计计方方法法,其其目目的的就就是是要要减减少少变变量量的的个个数数,用用少少数数因因子子代表多个原始变量代表多个原始变量什么是因子分析?(factor analysis)August 3,2010n因因变变量量和和因因子子

39、个个数数的的不不一一致致,使使得得不不仅仅在在数数学学模模型型上上,而而且且在在实实际际求求解解过过程程中中,因因子子分分析析和和主主成成分分分分析析都都有有着着一一定定的的区区别别,计计算算上上因因子子分分析析更更为为复杂复杂n因因子子分分析析可可能能存存在在的的一一个个优优点点是是:在在对对主主成成分分和和原原始始变变量量之之间间的的关关系系进进行行描描述述时时,如如果果主主成成分分的的直直观观意意义义比比较较模模糊糊不不易易解解释释,主主成成分分分分析析没没有有更更好好的的改改进进方方法法;因因子子分分析析则则额额外外提提供供了了“因因子子旋旋转转(factor(factor rotat

40、ion)”rotation)”这这样样一一个个步步骤骤,可可以以使使分分析析结果尽可能达到易于解释且更为合理的目的结果尽可能达到易于解释且更为合理的目的因子分析的数学模型August 3,2010n n 原始的 原始的 p p 个变量表达为 个变量表达为 k k 个因子的线性组合变量 个因子的线性组合变量n n 设 设 p p 个 个 原 原 始 始 变 变 量 量 为 为,要 要 寻 寻 找 找 的 的 k k 个 个 因 因 子 子(k k p p)为 为,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为因子分析的数学模型因子分析的数学模型 因子分析的数学模型系 系 数

41、数a aij ij为 为 第 第 个 个i i 变 变 量 量 与 与 第 第k k 个 个因 因 子 子 之 之 间 间 的 的 线 线 性 性 相 相 关 关 系 系 数 数,反 反 映 映 变 变 量 量 与 与 因 因 子 子 之 之 间 间 的 的 相 相关 关 程 程 度 度,也 也 称 称 为 为 载 载 荷 荷(loading)(loading)。由 由 于 于 因 因 子 子 出 出 现 现在 在 每 每 个 个 原 原 始 始 变 变 量 量 与 与 因 因 子 子 的 的线 线 性 性 组 组 合 合 中 中,因 因 此 此 也 也 称 称 为 为公 公 因 因 子 子。

42、为 为 特 特 殊 殊 因 因 子 子,代 代表公因子以外的因素影响 表公因子以外的因素影响August 3,2010n 共同度量(Communality)n 因子的方差贡献率 因子分析的数学模型(共同度量 共同度量Communality Communality 和公因子的方差贡献率 和公因子的方差贡献率)变 变 量 量x xi i的 的 信 信 息 息 能 能 够 够 被 被k k 个 个公 公 因 因 子 子 解 解 释 释 的 的 程 程 度 度,用 用 k k 个 个 公 公 因 因 子 子 对 对 第 第i i 个 个 变 变 量 量x xi i的方差贡献率表示 的方差贡献率表示第

43、第j j 个 个 公 公 因 因 子 子 对 对 变 变 量 量x xi i的 的提 提 供 供 的 的 方 方 差 差 总 总 和 和,反 反 映 映第 第j j 个 个 公 公 因 因 子 子 的 的 相 相 对 对 重 重 要 要程度 程度August 3,201011.2.2 因子分析的步骤11.2 因子分析August 3,2010n n 因子分析要求样本的个数要足够多 因子分析要求样本的个数要足够多l l 一 一 般 般 要 要 求 求 样 样 本 本 的 的 个 个 数 数 至 至 少 少 是 是 变 变 量 量 的 的5 5 倍 倍 以 以 上 上。同 同 时 时,样 样 本

44、本总数据量理论要求应该在 总数据量理论要求应该在100 100 以上 以上n n 用于因子分析的变量必须是相关的 用于因子分析的变量必须是相关的l l 如 如 果 果 原 原 始 始 变 变 量 量 都 都 是 是 独 独 立 立 的 的,意 意 味 味 着 着 每 每 个 个 变 变 量 量 的 的 作 作 用 用 都 都 是 是 不 不可替代的,则无法降维 可替代的,则无法降维n n 检验方法 检验方法l l 计 计 算 算 各 各 变 变 量 量 之 之 间 间 的 的 相 相 关 关 矩 矩 阵 阵,观 观 察 察 各 各 相 相 关 关 系 系 数 数。若 若 相 相 关 关 矩 矩

45、阵中的大部分相关系数小于 阵中的大部分相关系数小于0.3 0.3,则不适合作因子分析,则不适合作因子分析l l 使 使 用 用Kaiser-Meyer-Kaiser-Meyer-Olkin Olkin 检 检 验 验(简 简 称 称KMO KMO 检 检 验 验)和 和 Bartlett Bartlett球 球 度 度 检 检 验 验(Bartletts Bartletts test test of of sphericity sphericity)来 来 判 判 断 断(SPSS(SPSS 将 将两种检验统称为 两种检验统称为“KMO and Bartletts test of KMO an

46、d Bartletts test of sphericity sphericity”)”)因子分析的步骤(数据检验)August 3,2010n n Bartlett Bartlett 球度检验 球度检验l l 以 以 变 变 量 量 的 的 相 相 关 关 系 系 数 数 矩 矩 阵 阵 为 为 基 基 础 础,假 假 设 设 相 相 关 关 系 系 数 数 矩 矩 阵 阵 是 是 单 单 位 位阵 阵(对 对 角 角 线 线 元 元 素 素 不 不 为 为0 0,非 非 对 对 角 角 线 线 元 元 素 素 均 均 为 为0)0)。如 如 果 果 相 相 关 关 矩 矩阵是单位阵,则各变

47、量是独立的,无法进行因子分析 阵是单位阵,则各变量是独立的,无法进行因子分析n n KMO KMO 检验 检验l l 用 用 于 于 检 检 验 验 变 变 量 量 间 间 的 的 偏 偏 相 相 关 关 性 性,KMO KMO 统 统 计 计 量 量 的 的 取 取 值 值 在 在0 0 1 1之间 之间l l 如 如 果 果 统 统 计 计 量 量 取 取 值 值 越 越 接 接 近 近1 1,变 变 量 量 间 间 的 的 偏 偏 相 相 关 关 性 性 越 越 强 强,因 因 子 子分析的效果就越好 分析的效果就越好l l KMO KMO 统 统 计 计 量 量 在 在0.7 0.7

48、以 以 上 上 时 时,因 因 子 子 分 分 析 析 效 效 果 果 较 较 好 好;KMO KMO 统 统 计 计量在 量在0.5 0.5 以下时,因子分析效果很差 以下时,因子分析效果很差因子分析的步骤(数据检验)August 3,2010n n Principal Principal components(components(主 主 成 成 分 分 法 法):多 多 数 数 情 情 况 况 下 下 可 可 以 以 使 使 用 用 该 该方 方 法 法(这 这 也 也 是 是SPSS SPSS 的 的 默 默 认 认 选 选 项 项)。通 通 过 过 主 主 成 成 分 分 分 分 析

49、 析 的 的 思 思 想 想 提 提 取 取公因子,它假设变量是因子的线性组合 公因子,它假设变量是因子的线性组合n n Unweight Unweight Least Least Square(Square(不 不 加 加 权 权 最 最 小 小 平 平 方 方 法 法):该 该 方 方 法 法 使 使 实 实 际 际的相关矩阵和再生的相关矩阵之差的平方和达到最小 的相关矩阵和再生的相关矩阵之差的平方和达到最小n n Generalized Generalized Least Least Square(Square(加 加 权 权 最 最 小 小 平 平 方 方 法 法):用 用 变 变 量

50、 量 值 值 进 进 行 行加 加 权 权,该 该 方 方 法 法 也 也 是 是 使 使 实 实 际 际 的 的 相 相 关 关 矩 矩 阵 阵 和 和 再 再 生 生 的 的 相 相 关 关 矩 矩 阵 阵 之 之 差 差 的 的平方和达到最小 平方和达到最小n n Maximum Maximum Likelihood(Likelihood(最 最 大 大 似 似 然 然 法 法):该 该 方 方 法 法 不 不 要 要 求 求 数 数 据 据 服 服 从 从正态分布,在样本量较大时使用较好 正态分布,在样本量较大时使用较好n n Principal Principal Axis Axis

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁