主成分分析在SPSS中的应用.doc

上传人:88****9 文档编号:19389 上传时间:2018-04-20 格式:DOC 页数:4 大小:278.69KB
返回 下载 相关 举报
主成分分析在SPSS中的应用.doc_第1页
第1页 / 共4页
主成分分析在SPSS中的应用.doc_第2页
第2页 / 共4页
点击查看更多>>
资源描述

《主成分分析在SPSS中的应用.doc》由会员分享,可在线阅读,更多相关《主成分分析在SPSS中的应用.doc(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、山西农业大学学报 第 6 卷 J. Shanxi Agric . Univ . ( 第 5 期 ) No. 5 Vol . 000006 6 2007 主成分分析在 S P SS 何亮 ( 山西财经大学 管理科学与工程学院 , 中的应用 山西 太原 030012) 摘 要 : 主成分分析是利用降维的思想 , 在损失很少信息的前提下把多个指标转化 为几个综合指 标的多元统计方法 。 这里主要解释主成分分析方法的基本 理论 , 计软件中实现的方法 。 关键词 : 主成分分析 ; SPSS 在实际 当中的作 用和在 SP SS 统 中图分类号 : C931 1 文献标识码 : A 文章 编号 : 1

2、671 816X ( 2007) 05 0020 03 Principal Components Analysis in SPSS HE Liang ( M anagement Science and Engineer ing D ep ar tment , ics , T aiy uan S hanx i 030012, China) Shanx i Univer sity of Finance and E conom Abstracts: Pr incipal components analy sis is a way of multivariate St atistical analys

3、is w hich make many index es be less o nes w ith a few info rmations lo st. Based on the data reduction. In this ar ticle, it mainly make clear the theor y of principal co mpo nents Analysis and the w ay to SPSS. Key words: P rincipal co mpo nents analysis, SPSS implement it in 一 、 主成分分析的基本原理 ( 3) (

4、4) 主成分保留了原始变量绝大多数 信息。 各主成分之间互不相关。 1、主成分分析概述 主成分分析 ( Pr incipal com po nents analy sis) 也 称 主分 3、主成分分析的基本理论 : 设对某 一事 物的 研 究涉 及 p 个 指 标 , 分别 用 X1 , X 2, 量分析 , 是由 霍特 林 ( H otelling ) 于 1933 年 首先 提 出 的。 , Xp 表示 , 这 p 个指标构成 的 p 维 随机向 量为 X= ( X 1, 主成分分析是利用降维的思想 , 在损失很 少信息的前提下把 X2 , ! 。 , Xp ) 。设随机向 量 X 的

5、均值 为 , 协 方 差矩 阵 为 多个指标转化为几个综合指标的多元统计方法。通常把转化 生成的综合指标称之为主成分 , 其中每个主成分都是原始变 对 X 进行线性变 换 , 可以 形成 新的综 合变 量 , 用 Y 表 量的线 形组合 , 且各个主成分之间互不相关 , 这就使得主成 示 , 也就是说 , 新的综 合变量可 以由原 来的变 量线 性表示 , 分比原始变量具有某些更优越的性能。这样在研究复杂问题 时就可以只考虑少数几个主成分而不至于损失太多信息 , 从 而更容易抓住主要矛盾 , 揭 示事物 内部变 量之间 的规律 性 , 同时使问题得到简化 , 提高分析效率。 2、主成分分析基本

6、思想 即满足下式 : Y 1 = u11 Y 2 = u21 Y p = up1 X1 + X1 + X1 + u12 u22 up2 X2 + X2 + X2 + + + + u u u 1p 2p pp X X X p p p 在对某一事物进行实证研究中 , 为了更全面、准确地反 由于可以任意地对原始变量 进行上述线性变换 , 由不同 映出事物的特征及其发展规律 , 人们往往要考虑与其有关系 的线性变换得 到的 综合变 量 Y 的统计 特性 也不 尽相 同。因 的多个指标 , 一方面人们为了避免遗漏重要的信息而考虑尽 此为了取得较好的效果 , 我们 总是希 望 Yi= ui X 的方差 尽

7、 可能 多的指标 , 而另一方面随着考虑指标的增多增加了问题 可能大且各 Y1 之间相互独立 , 由于 的复杂性 , 由于各指标均是对同一事物的反映 , 不可避免地 v ar ( Y 1) = v ar ( u1 X) = u1 ! u 1 造成信息地大量重叠 , 基于此 , 主成分分析研究通过原来变 而对任给的常数 c, 有 量地少数几个线形组合来结实原来变量绝大多数信息地一种 v ar ( cu1 X) = cu1 u1 c= c2 u1 ! u1 多元统计方法。 因此对 u 1 不加限制时 , 可使 var ( Y1 ) 任 意增大 , 问题 一般地说 , 利用主成分分析得到的主成分与原

8、始变量之 将变得没有意思。我们将线性变 换约束在下面的原则之下 : 2 2 2 间有如下基本关系 : ( 1) 每 一个主成分都是 ; 原始变量的线形组合。 , 1、 u1 u1 = p) ; 1, 即 u i1 + ui2 + + u ip = 1 ( i= 1, 2, ( 2) 收稿日期 : 主 成分的数目大大小于原始变量的数目。 2007 01 20 2、 Y 1 与 Y j 相互无关 ( i j; I, j= 1, 2, , p) ; 作者简介 : 何亮 ( 1982 ) , 男 ( 汉 ) , 山西太原人 , 在读硕士 , 主要从事项目管理与技术评析方面的研究。 何亮 : 主成分分析

9、在 SPSS 中的应用 E xtrac tion Me thod : Pr inc ip al Comp onent A naly sis # 21 # 3、 Y 1 是 X1 , X2 , , Xp 的一切满足 原则 1 的 线性组 表 2 合中方差最大者 ; Y 2 是与 Y 1 不相 关的 X1 , X 2, , X p 所 有线性组合中方差最大者 ; , Y p 是与 Y1 , Y 2 , , Y p- 1 Comp on ent Ini tial Eigenv alues Ext racti on Sums of Squared L oadi ngs 都不相关的 X1 , 者。 X2

10、 , , X p 的 所 有 线性 组 合中 方 差最 大 T otal of Variance% Cumula tive % T otal of Varia nce% Cumula tive % 基于以上三条原则决定的综合变量Y 1 , Y2 , , Y p 分 别称为原始变量的第 一、第二、 、第 p 个主 成分。其 中 , 1 2 12 731 2 304 67 006 12 125 67 006 79 131 12 731 2 304 67 006 12 125 67 006 79 131 各综合变量在总方差中所占的比重依次递减 , 作中 , 通常只挑选前几个方差最大的主成分 , 系统

11、结构、抓住问题实质的目的。 二 、 主成分分析步骤 1、根据研究问题选取初始分析变量 ; 在实际研究工 从而达到简化 3 4 5 6 7 8 9 10 1 077 804 489 447 330 264 174 132 5 667 4 233 2 573 2 353 1 735 1 391 915 692 84 798 89 030 91 603 93 956 95 691 97 082 97 997 98 689 1 077 5 667 84 798 2、根据初始变量特性 判断由 协方差 阵求主 成分还 是由 相关阵求主成分 ; 3、求协方差阵或相关阵的特征根与相应标准特征 向量 ; 4、判

12、断是否存在 明 显的多 重共 线性 , 若 存在 , 则 回到 第一步 ; 5、得到主成分的表 达式并 确定主成 分个 数 , 选取 主成 分 ; 6、结合主成分对研究问题进行分析并深入研究。 三 、 在 SPSS 上实现主成分分析的实例 这里引用的是 2006 年我 国各地 区按行 业分 其他单 位职 工平均工资 ( 年底数 ) 11 12 13 14 15 16 17 18 19 098 087 041 017 005 001 5 77E - 016 1 22E - 016 - 4 21E - 016 515 458 218 089 024 007 3 04E - 015 6 43E -

13、016 - 2 22E - 015 99 204 99 662 99 880 99 969 99 993 100 000 100 000 100 000 100 000 进入 SPSS 软件 , 打开数据集 工资分析 sav。依 次点选 Extraction M et hod : Princip al Component A nalysis 表 3 Analysis Data Reductio n F act or 进 入 F act or A nalysis Component Matrix ( a) ( 因子分析 ) 对话 框。此时 , 数据 集 工资 分 析 sav 中 的变 Com p

14、on ent 量名均以显示在左边的窗口中 , 依次选中变量 ( 除地区和年 份为字符串外 , 其他均加入变量 ) 并点向右的箭头按钮 , 变 1 2 3 量便进入 variables 窗口。点击右侧的 OK 按钮 , 出结果表 1。 表 1 Initial 农林 牧渔业 1 000 采矿业 1 000 制造业 1 000 电力煤气及水的生产供应业 1 000 建筑业 1 000 交通运输、仓储和邮政业 1 000 信息传输、计算机服务和软件业 1 000 批发和零售业 1 000 住宿和餐营业 1 000 金融业 1 000 房地产业 1 000 租赁和商务服务业 1 000 科学研究、技术服

15、务和地质勘查业 1 000 水利环境和公共设施管理业 1 000 则可得到输 E xtrac tion 0 660 0 886 0 954 0 859 0 937 0 730 0 877 0 977 0 947 0 851 0 945 0 775 0 910 0 910 农林牧渔业 采矿业 制造业 电力煤气及水的生产供应业 建筑业 交通运输、仓储和邮政业 信息传输、计算机服务和软件业 批发和零售业 住宿和餐饮业 金融业 房地产业 租赁和商务服务业 科学研究、技术服务和地质勘查业 水利环境和公共设施管理业 居民服务和其他服务业 教育业 卫生、社会保障和社会 i 福利业 文化、体育和娱乐业 公共管

16、理和社会组织 0 759 0 832 0 968 0 855 0 948 0 821 0 882 0 982 0 966 0 743 0 964 0 874 0 932 0 894 0 490 0 269 0 145 0 810 0 802 - 0 280 - 0 372 - 0 129 - 0 044 - 0 154 - 0 102 0 232 0 110 0 012 0 547 0 118 0 036 - 0 204 - 0 306 - 0 005 0 845 0 885 0 131 0 053 - 0 074 - 0 235 - 0 006 - 0 355 - 0 123 - 0 214

17、 0 215 - 0 031 0 113 0 005 - 0 035 - 0 093 0 022 0 128 0 792 0 063 - 0 259 0 031 0 209 居民服务和其他服务业 1 000 0 867 Extraction Meth od: Principal Component Analys is 教育业 卫生、社会保障和社会 i 福利业 文化、体育和娱乐业 公共管理和社会组织 1 000 1 000 1 000 1 000 0 791 0 872 0 674 0 690 a 3 compon ents extracted 其中 Co mmunalities 给出了该 次分

18、析 从每个 原始变量 中 提取的信息 , 表格下 面的注 释表 明该次 分析 是用 Facto r A naly sis 模块默认的信息提取方法即主成分分析完成的。其中 # 22 # 山西农业大学学报 第 6 卷 ( 第 5 期 ) 2007 年 的数据表明了 每个 原 始变 量的 贡 献率 , T otal Var iance Ex A naly sis 对话框并选好 变量后 , 点 击 Ex traction 选项 , 在弹 pla ined 表则显示 了各 主 成分 解 释原 始 变 量总 方 差的 情 况 , 出的对话框有个 Ex tr act 选择框 , 默认是选择 Eig enva

19、lues o SPSS 默认保留特征根 大于 1 的 主成 分 , 这里 显示 保留 了 3 ver 1 也就是保留特 征根大于 1 的主 成分 , 我 们可 以输入 别 个主 成分 , 这三 个主 成 分集 中了 原 始变 量 84 8% 的 信 息。 的数值来改变 SPSS 软件保留特征 根的大 小 ; 另外 , 还 可以 Co mpo nent M at rix 中显示 的是 主成分 对每 个原始 变量 的贡 选择 Number of F actor s 选项直接确定主成分的个数。这里 , 献率。当然 , 由于在上面 的主成 分分 析中 , SP SS 默认 是从 直接将 Number

20、of F actor s 选项选择的主 成分个数 选择为 4, 相关阵出发求解 主成 分 , 且 默认 保留 特征 根大 于 1 的 主成 得到下表 4: 分 , 实际上 , 对 主成 分的 个 数可 以 自己 确 定 , 进 入 Facto r 表 4 C om pon ent 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Total 12 731 2 304 1 077 0 804 0 489 0 447 0 330 0 264 0 174 0 132 0 098 0 087 0 041 0 017 0 005 0 001 5 77E- 0

21、16 1 22E- 016 - 4 21E- 016 Total Variance Explained In itial Eigen valu es Of Variance% Cumu lative % 67 006 67 006 12 125 79 131 5 667 84 798 4 233 89 030 2 573 91 603 2 353 93 956 1 735 95 691 1 391 97 082 0 915 97 997 0 692 98 689 0 515 99 204 0 458 99 662 0 218 99 880 0 089 99 969 0 024 99 993 0

22、 007 100 000 3 04E- 015 100 000 6 43E- 016 100 000 - 2 22E- 015 100 000 Extraction Sum s of S quar ed Loadings Total % of Variance Cumulative % 12 731 67 006 67 006 2 304 12 125 79 131 1 077 5 667 84 798 0 804 4 233 89 030 E xtraction Method: Principal Comp on ent Analysis 四 、 结论 2006 年 , 我国各地区 按行 业 分 , 其 他单 位职 工 平均 工 资中主要的工资成分可由四种变 量代替 , 即可由农林牧渔业 显然 , 这四个主 成分 集中 了原 始变 量 89 03% 的信 息 , 等四主成分评测 05 年各 地区的 单 位职 工工资水 平。四种 变 这样效果就比较好了。 量代表了多种职业工资 水平的大部分信息。 1 何晓群 多元统计分析 M 北京 : 参 中国人民大学出版社 , 考 2004 文 献 2 叶宗裕 . 对主成分综合评价方法若干问题的探讨 J . 浙江师范大学学报 , 2006 ( 6) .

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 期刊短文 > 期刊

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁