《多元统计分析课程设计(共10页).doc》由会员分享,可在线阅读,更多相关《多元统计分析课程设计(共10页).doc(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上多元统计分析课程设计指导书一、 课程设计的目的掌握用统计软件利用主成分分析的方法对涉及众多变量的某一问题进行分析二、 设计名称:用统计软件利用主成分分析法对涉及进行众多变量的问题进行分析三、 设计要求掌握用统计软件利用主成分分析的方法对涉及进行众多变量的问题进行分析的方法掌握利用SPSS软件求初始变量的协方差阵或相关阵的特征根与相应标准特征向量判断是否存在明显的多重共线性掌握利用SPSS软件求得主成分四、 设计过程1、收集数据2、根据研究问题选取初始分析变量3、求协方差阵或相关阵的特征根与相应标准特征向量4、判断是否存在明显的多重共线性,若存在,则回到第一步5、得到主
2、成分的表达式并确定主成分的个数,选取主成分6、对主成分进行分析得出结果,完成设计报告五、设计细则1注意对数据的采集,不要过于繁杂,不要过少2吸取他人的经验,总结自己的教训,有条不紊的进行3上机前先作好准备,上机时积极改进方法六、说明为了培养自己的上机操作方法,所以我尽量运用SPSS软件上的检验方法课程设计任务书姓 名学 号班 级课程名称多元统计分析课程性质专业课设计时间 2010年6月26日2009年7月2日设计名称用统计软件利用主成分分析的方法对涉及多个指标的问题进行分析设计要求掌握用统计软件利用主成分分析的方法对涉及进行众多变量的问题进行分析的方法掌握利用SPSS软件求初始变量的协方差阵或
3、相关阵的特征根与相应标准特征向量判断是否存在明显的多重共线性掌握利用SPSS软件求得主成分设计思路与设计过程1、收集数据2、根据研究问题选取初始分析变量3、求协方差阵或相关阵的特征根与相应标准特征向量4、判断是否存在明显的多重共线性,若存在,则回到第一步5、得到主成分的表达式并确定主成分的个数,选取主成分6、对主成分进行分析得出结果,完成设计报告计划与进度第一周:星期一星期三:查资料选定课程设计数据材料星期四星期五:选中研究方法星期六:1413上机第二周:星期一星期五:针对错误改进星期六:1413上机星期天:设计报告任课教师意 见说 明课程设计报告课程:多元统计分析 学号: 姓名: 班级: 教
4、师: 设计名称:用统计软件利用主成分分析法对涉及进行众多变量的问题进行分析设计内容:在企业经济效益的评价中,设计的指标往往很多。为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,设计9项指标,原始数据见下表样品数n=28,变量数p=9100固定资产原值实现值(%)100元固定资产原值实现利税(%)100元资金实现利税(%)100元工业总产值实现利税(%)100元销售收入实现利税(%)每吨标准煤实现工业产值(元)每千瓦时电力实现工业产值(元)全员劳动生产率(元/人.年)100元流动资金实现产值(元)北京
5、(1)119.2930.9829.9225.9715.4821783.4121006296.7天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(3)94.817.217.9518.149.3711672.0312607322.2山西(4)65.811.0811.0612.1516.848.821.6510166284.7内蒙(5)54.799.249.5416.866.278941.87564225.4辽宁(6)94.5121.1222.8322.3511.2814162.3613.386311.7吉林(7)80.4913.3613.761
6、6.67.1413062.079400274.1黑龙江(8)75.8615.8216.6720.8610.3712672.269830267上海(9)187.7945.939.7724.4415.0943464.1131246418.6江苏(10)205.9627.6522.5813.427.8132024.6923377407.2浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(12)110.7820.720.1218.696.614682.2312578341.1福建(13)122.7622.5219.9318.348.3522002.
7、6312164301.2江西(14)94.9414.714.1815.496.6916692.2410463274.4山东(15)117.5821.9320.8918.659.118202.817829331.1河南(16)85.9817.317.1820.127.6713061.8911247276.5湖北(17)103.9619.518.4818.779.1618292.7515745308.9湖南(18)104.0321.4721.2820.638.7212721.9813161309广东(19)136.4423.6420.8317.337.8529593.7116259334广西(20
8、)100.7222.0420.921.889.6717322.1312441296.4四川(21)84.7314.3514.1716.937.9613102.3411703242.5贵州(22)59.0514.4814.3524.538.0910681.329710206.7云南(23)73.7221.9122.729.729.3814471.9412517295.8陕西(24)78.0213.1312.5716.839.1917312.0811369220.3甘肃(25)59.6214.0716.2423.5911.349261.1313084246.8青海(26)51.668.328.26
9、16.117.0510551.319246176.49宁夏(27)52.958.258.8215.576.588341.1210406245.4新疆(28)60.2911.2613.1418.688.3910412.910983266设计目的与要求:掌握用统计软件利用主成分分析的方法对涉及众多变量的某一问题进行分析设计环境或器材、原理与说明:机房spss软件设是一个维随机向量,有二阶矩存在,记,。考虑它的线性变换: (5.1)易见 (5.2)假如我们希望用来代替原来的个变量,这就要求尽可能地反映原来个变量的信息,这里“信息”用什么来表达?最经典的方法是用的方差来表达。越大,表示包含的信息越多。
10、由(5.2)可以看出,对必须有某种限制,否则可使,常用的限制是 (5.3)故我们希望在约束(5.3)下找,使得达到极大,就称为第一主成分。如果一个主成分不足以代表原个变量,可再考虑采用,为了最有效地代表原变量的信息,已有的信息就不需要出现在中,用数学语言来讲,就是 (5.4)于是,求就是在约束(5.3)和(5.4)下求,使达到极大,所求的称为第二主成分。类似地,我们可以定义第三主成分、第四主成分、。一般地讲,的第个主成分是指:在约束下求,使得达到极大。令表示的特征根,为相应的单位特征向量。若特征根有重根,对应于这个特征根的特征向量组成一个的子空间,子空间的维数等于重根的次数。在子空间中任取一组
11、正交的坐标系,这个坐标系的单位向量就可用来作为它的特征向量。显然,这时特征向量的取法不唯一,有无穷多种取法,在下面的讨论中,我们总假定已选定的某一种取法。设计过程(步骤)或程序代码:1、 将原始数据标准化,标准化的数据见下表0.1.1.1.2.0.0.1.0.0.1.1.0.1.1.1.1.1.-0.14352-0.271-0.10906-0.29487-0.00854-0.57821-0.45763-0.152790.49097-0.81499-0.98577-1.08721-1.811432.-1.79273-0.84655-0.56349-0.15927-1.06992-1.20067-
12、1.303-0.61894-1.14919-0.86449-0.69303-1.00129-1.18752-0.150240.0.0.0.-0.3171-0.11989-2.27170.-0.47486-0.71949-0.7039-0.68477-0.82907-0.43245-0.4167-0.69238-0.34307-0.58206-0.43218-0.290780.393790.-0.47334-0.22224-0.62003-0.466192.3.2.1.2.2.1.2.2.2.0.0.-1.48989-0.582541.2.264781.1.2.1.1.-0.85187-0.04
13、1662.1.1.43671.0.0.0.-0.15562-1.02776-0.26257-0.25294-0.157670.0.0.0.-0.24423-0.383850.0.-0.227320.-0.14028-0.56298-0.64428-0.9658-0.99465-0.05179-0.24271-0.51352-0.337870.0.0.-0.16574-0.107890.0.0.725830.-0.34774-0.25932-0.218380.-0.63406-0.43245-0.60092-0.38161-0.301460.-0.00238-0.03382-0.13536-0.
14、085810.0.279260.375190.0.070190.0.0.-0.24771-0.4681-0.50881-0.059580.0.0.0.-0.49995-0.567831.1.0.0.-0.006450.0.0.0.0.-0.35529-0.180720.-0.37669-0.60386-0.6457-0.60122-0.52735-0.42825-0.14036-0.30489-0.89101-0.97128-0.58868-0.620141.-0.47952-0.68202-1.18429-0.64022-1.51177-0.631610.0.2.-0.00486-0.284
15、59-0.54975-0.167930.-0.53205-0.74635-0.87284-0.62654-0.074770.-0.40646-0.36109-1.27595-0.95809-0.63656-0.351821.084980.71632-0.83093-1.37875-0.07253-0.81645-1.14239-1.30812-1.48472-0.80883-0.86219-0.69566-1.19453-0.71829-2.03561-1.11252-1.3163-1.40522-0.94555-1.03512-0.92741-1.38899-0.52311-0.84073-
16、0.94257-0.96475-0.79192-0.15815-0.36913-0.710340.-0.42603-0.483532、将以上数据导入spss软件,依次点击分析降维因子分析点击 按钮,在弹出的对话框中,在 中选择。回到原对话框点击右侧的确定。即可得到以下输出结果Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %16.15068.33268.
17、3326.15068.33268.33221.47316.36584.6981.47316.36584.6983.6977.74992.4474.3183.53195.9785.1902.11298.0906.1161.28999.3797.029.32499.7038.024.27099.9739.002.027100.000Extraction Method: Principal Component Analysis.由输出结果看到前面两个主成分y1,y2的方差和占全部方差的比例为84.7%。我们就选取y1为第一主成分,y2为第二主成分。且这两个主成分占全部方差的84.7%,即基本上保留了
18、原来指标的信息,这样由原来的9个指标转化为2个新的指标,起到了降维的作用2、 spss软件得到主成分系数矩阵如下:Component MatrixaComponent12X1.931-.315X2.976.163X3.931.322X4.232.863X5.433.596X6.923-.200X7.897-.274X8.871-.064X9.899-.154Undefined error #11401 - Cannot open text file D:Program FilesSPSSIncStatistics17langenspss.ea. 2 components extracted.3
19、、 由以上结果得到前两个主成分的线性组合为y1=0.931x1+0.976x2+0.931x30.232x4+0.433x5+0.923x6+0.897x7+0.871x8+0.899x9y2=-0.315x1+0.163x2+0.322x3+0.863x4+0.596x5-0.2x6-0.274x7-0.064x8-0.154x94、 对所选主成分做经济解释:第一主成分的线性组合中除了100元工业总产值实现利税和100元销售收入实现利税外,其余变量的系数相当所以第一主成分可以看成是x1,x2,x3,x6,x7,x8,x9的综合变量。可以解释为第一主成分反映了工业生产中投入的资金、劳动力所产生
20、的效果,他是投入和产出之比。第一主成分所占信息总量为68.3%,在我国目前的工业企业中,经济效益首先反映在投入与产出之比上,其中固定资产所产生的经济效益更大一些。第二主成分是把工业生产中所得产量(即工业总产值和销售收入)与局部量(即利税)进行比较,反映了产出对国家所做的贡献。这样,在抓企业经济效益活动中,就应注重投入与产出之比和产出对国家所做的贡献,抓住了这两个方面,经济效益一定会提高5、 通常为了分析各样品在主成分所反映的经济意义方面的情况,还将标准化后的原始数据代入主成分表达式计算各样品的主成分得分6.992.949.270.65-1.21-0.12-5.010.47-7.38-0.89-
21、1.041.54-4.00-0.98-2.580.8417.451.679.78-3.4110.83-2.210.18-0.731.27-0.63-2.95-1.522.44-0.44-2.550.120.88-0.36-0.110.474.51-1.600.340.87-3.50-0.74-5.571.60-0.052.91-4.03-0.49-4.082.12-8.45-0.72-7.61-1.02-3.83-0.356、 由各样品的主成分得分就可在二维空间中描述出各样品的分布情况由上图可知,分布在第一象限的是上海、北京、天津、广西4个省区,这四个省区的经济效益在全国来说比较好的,其中,上
22、海的经济效益最好。分布在第四象限的是江苏、浙江、安徽、福建、山东、湖北、广东7个省区。因为第四象限的主要特征是第一主成分,第一主成分占信息总量的比重最大,所以这7个省区的经济效益也算较好。分布在第二和第三象限的地区可属同一类,经济效益较差设计结果与分析(可以加页):设计体会与建议:经过了两周的课程设计,深有感触啊,从本次课程设计的目的来看,收获也是不少的,它使我们对课本以及以前学过的知识有了一个更好的总结与理解,也让我们知道了,光分开使用是不够的,从书本上学到的知识要自己整理归纳形成自己的想法,然后进行构思设计,这很好的训练对对开发一个项目,应该有怎样的思路和准备更清晰。来学校三年了,从最早的实验报告到现在的课程设计,每一个自己都觉得有一个进步,虽然有时有些方面我自己做不出,但可以从老师和其他同学那里学到更好更多的东西,他们从另一个方面透析了我自己的困难,这是很重要的,它让我学会了怎样学习别人的长处并把它变成自己的长处。有这样的机会和收获,要感谢老师的辅导以及同学的帮助,是他们让我对自己有了一个更好的认识,无论是学习还是生活,生活是实在的,要踏实走路,虽然自己走出来的路要崎岖的多,但觉得踏实、放心。最后建议软件应该更完善些,有些检验完成不了,希望我们以后能有更多的机会接触此类型的软件,帮助我们更全面的掌握跟统计有关的知识和具体操作。设计成绩:教师签名:年月日专心-专注-专业