《多元统计分析课程设计.doc》由会员分享,可在线阅读,更多相关《多元统计分析课程设计.doc(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流多元统计分析课程设计.精品文档.课 程 设 计 报 告课程名称 多元统计分析 专 业 统 计 学 班 级 统计学0901 学 号 200910020109 姓 名 李宗藩 指导教师 戴 婷 2011年 12 月 19 日湖南工程学院课 程 设 计 任 务 书课程名称 多元统计分析 课 题 多元统计分析 专业班级 统计学0901 学生姓名 李宗藩 学 号 200910020109 指导老师 戴 婷 审 批 任务书下达日期 2011 年 12 月 19 日任务完成日期 2011年 12 月 30日目录一:课程设计准备3(1) 建立数据库3(2)
2、分析数据库3二:聚类分析和判别分析3(1) 聚类分析的步骤3(2) 判别分析的步骤3(3) 聚类分析的结果4(4) 判别分析的的结果及分析4三:因子分析10(1) 是否可进行因子分析的判断10(2) 因子分析的步骤10(3) 因子分析的结果及其分析11四:参考文献16五:总结17六:评分表18七:附录表19一:课程设计准备(1):建立和打开数据库建立或打开数据文件,数据窗中输入待分析的数据,或利用File菜单中的Open功能打开已经存在的数据文件。2010年各地区按主要行业分的全社会固定资产投资。(2):分析数据库样本数据来自中国2010年各地区按主要行业分的全社会固定资产投资,见附表。在这里
3、选取了我国的三十一个省份作为样本,描述固定资产投资行业的变量有十九个:农、林、牧、副、渔业(x1),采矿业(x2),制造业(x3),电力、燃气及水的生产和供应业(x4),建筑业(x5),交通运输、储蓄和邮政业(x6),信息传输、计算机服务和软件业(x7),批发和零售业(x8),住宿和餐饮业(x9),金融业(x10),房地产业(x11),租赁和商务服务业(x12),科学研究、技术服务、地质勘察(x13),水利、环境、公共设施(x14),居民服务和其他服务业(x15),教育(x16),卫生、社会保障和福利业(x17),文化、体育、娱乐业(x18),公共管理和社会组织(x19)。二:聚类分析和判别分
4、析 (一)聚类分析的步骤1. 按AnalyzeClassifyK-means-cluster顺序单击菜单项,打开聚类分析主对话框。2. 选择分析变量送到右边的Variables栏中。3. 在“Number of Cluster”中选择3,在Method选项中选择“Classify only”4. 单击Save按钮,在对话框栏内选择Cluster membership选项,5. 单击Option按钮,在对话框Statistics栏内选择Initial cluster centers选项,在对话框Missing Values栏内选择Exclude cases listwise选项(二) 判别分析的
5、步骤1. 按AnalyzeClassifyDiscriminant顺序单击菜单项,打开判别分析主对话框。2. 主对话框左边的矩形框中选定分类变量,并用上面一个箭头按钮将其移到“Grouping Variable”框中。然后用其下面的“Define Range” 输入最小变量和最大变量3.选择判别变量送到右边的Independents栏中。在主对话框中选择“Enter independents together”4. 在主对话框中单击“Statistics”按钮可以打开选择输出统计量的对话框,在对话框Description栏内选择Means选项,在对话框Function Coefficints栏
6、内选择Fishers和unstandardized选项,在对话框Matrices栏内选择Within-groups covariance选项。5. 在主对话框中单击“classification”按钮,打开选择分类参数与分类结果对话框,除系统默认之外,在对话框Display栏内选择和Casewise results选项和Summary table选项,在对话框Plots栏内选择三种。6. 在主对话框中单击“Save.”可打开选择将各样品的判别结果保存于数据文件的对话框,选中“Predicted group membership”可保存各样品的预报(判别)分类;选中“Discriminant s
7、cores”可保存各样品的典型判别函数值;选中“Probabilities of group membership”可保存各样品的后验概率。(三)聚类分析的结果快速聚类整理表:类别 地区第一类北京 天津 山西内蒙古 黑龙江 上海 广西海南 重庆 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆第二类河北 辽宁 吉林 浙江 安徽 福建江西 河南 湖北 湖南 广东 四川第三类江苏 山东(四):判别分析的的结果各类的均值:地区第一类均值第二类均值第三类均值农、林、牧、渔业153.8799299.0844344.9445采矿业271.5194289.2842304.3328制造业749.01123381
8、.79678649.0746电力、燃气及水的生产和供应业354.5886571.5384605.5636建筑业40.036568.7633243.34交通运输、储蓄和邮政业470.2504847.42081026.35信息传输、计算机服务和软件业61.2263110.7646109.4647批发和零售业63.6769236.4418606.5013住宿和餐饮业33.4261130.2939246.8029金融业6.890517.4316.9265房地产业859.60592225.91174017.1351租赁和商务、服务业34.325390.568182.916科学研究、技术服务和地质勘查业2
9、3.25245.3526126.5754水利、环境和公共设施管理业366.3587905.9471311.6814居民服务和其他服务业10.086734.8087106.375教育68.6707157.3901232.5481卫生、社会保障和社会福利业30.953792.5174111.1115文化、体育和娱乐业38.15499.1365272.5649公共管理和社会组织109.5961158.9508477.9933Eigenvalues(特征值)FunctionEigenvalue% of VarianceCumulative %Canonical Correlation156.435(a
10、)89.189.1.99126.893(a)10.9100.0.935a First 2 canonical discriminant functions were used in the analysis.两个典型判别分析,特征值(Eigenvalue)分别为56.435和6.89,典型相关系数(Canonical Correlation)分别为0.991和0.935,Wilks LambdaTest of Function(s)Wilks LambdaChi-squaredfSig.1 through 2.002116.21738.0002.12739.25418.003根据Wilks L
11、ambda 表,可知:=0.002和0.127很小,近视分布=116.217和39.254,相伴概率为7.418568558275e-010和0.03,小于0.01,高度显著,所以各类的样本均值向量有显著性差异,因此判别有效。Classification Function Coefficients分类函数系数Cluster Number of Case123农、林、牧、渔业.006-.088-.482采矿业.005.003-.071制造业.001.010.062电力、燃气及水的生产和供应业-.001-.023-.065建筑业.017.061.266交通运输、储蓄和邮政业.012.055.279
12、信息传输、计算机服务和软件业-.021-.013.427批发和零售业-.019.108.807住宿和餐饮业.040.266.443金融业-.022-.248-4.632房地产业.001-.006-.032租赁和商务、服务业.020-.010-.546科学研究、技术服务和地质勘查业-.009-.265-.699水利、环境和公共设施管理业-.009-.058-.278居民服务和其他服务业-.028.1482.607教育.011.1161.310卫生、社会保障和社会福利业-.039.242-2.637文化、体育和娱乐业-.018-.084.096公共管理和社会组织.006.002.084农、林、牧、
13、渔业-3.782-30.072-451.326Fishers linear discriminant functionsStandardized Canonical Discriminant Function CoefficientsFunction12农、林、牧、渔业-2.655.588采矿业-.631-.486制造业1.775.157电力、燃气及水的生产和供应业-.574.608建筑业.574-.064交通运输、储蓄和邮政业2.729-.096信息传输、计算机服务和软件业.829.680批发和零售业2.457.017住宿和餐饮业.446-.959金融业-1.115-.695房地产业-.85
14、8.321租赁和商务、服务业-.872-.523科学研究、技术服务和地质勘查业-.587.697水利、环境和公共设施管理业-2.348.366居民服务和其他服务业1.335.691教育2.5821.113卫生、社会保障和社会福利业-2.159-3.450文化、体育和娱乐业.161.800公共管理和社会组织.315.396判别函数Functions at Group Centroids(各组重心的函数值)Cluster Number of CaseFunction121-3.6831.8632.905-3.124325.8812.909Unstandardized canonical discr
15、iminant functions evaluated at group means Casewise Statistics(各数据统计量)地区Actual GroupHighest GroupSecond Highest GroupDiscriminant ScoresPredicted Group2P(G=g | D=d)Squared Mahalanobis Distance to CentroidGroupP(G=g | D=d)Squared Mahalanobis Distance to CentroidFunction 1Function 2pdf 北 京110.44221.00
16、01.63320.00064.846-4.4992.846 天 津110.61121.0000.98520.00055.535-3.5542.847 河 北220.47121.0001.50810.00063.4861.943-3.779 山 西110.03721.0006.57220.00028.774-1.1201.844 内蒙古110.25921.0002.70620.00065.223-5.3212.021 辽 宁220.17221.0003.52110.00064.3322.768-2.903 吉 林220.10321.0004.54910.00022.193-0.182-1.288
17、 黑龙江110.91621.0000.17620.00047.917-4.0671.693 上 海110.66321.0000.82320.00044.687-4.2391.146 江 苏330.81121.0000.42020.000641.15925.6362.309 浙 江220.84521.0000.33610.00054.0991.323-3.526 安 徽220.29921.0002.41810.00050.309-0.136-4.279 福 建220.07521.0005.16810.00027.7860.835-0.852 江 西220.90421.0000.20110.000
18、50.5561.352-3.157 山 东330.81121.0000.42020.000680.14126.1273.508 河 南220.89021.0000.23410.00052.6901.205-3.503 湖 北220.26221.0002.67810.00036.668-0.707-3.410 湖 南220.49721.0001.39710.00052.0110.308-4.144 广 东220.70021.0000.71310.00057.9531.381-3.821 广 西110.01020.9999.30720.00123.235-3.508-1.183 海 南110.91
19、021.0000.18920.00040.215-3.3821.549 重 庆110.43921.0001.64720.00059.197-3.5633.140 四 川220.94721.0000.10910.00041.7560.764-2.825 贵 州110.98721.0000.02720.00045.991-3.5661.976 云 南110.86721.0000.28420.00051.776-4.2121.936 西 藏110.80921.0000.42420.00044.567-3.1262.198 陕 西110.57221.0001.11620.00035.345-2.651
20、1.641 甘 肃110.31321.0002.32320.00039.717-2.2362.340 青 海110.75721.0000.55620.00056.449-4.2692.325 宁 夏110.87521.0000.26820.00053.157-3.9912.279 新 疆110.19221.0003.29720.00056.296-5.3171.070 根据此图可以大概看出各类的分布,便于粗略的观察。 Classification Results(a)(判别结果) Cluster Number of CasePredicted Group MembershipTotal 1 2
21、3OriginalCount1170017201201230022%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0a 100.0% of original grouped cases correctly classified.预测分组恰好与实际分组是一致的,判对率为100%分析第一类:北京 天津 山西内蒙古 黑龙江 上海 广西海南 重庆 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆在主要行业分的全社会固定资产投资数额比较少,原因有:第一像北京 天津 上海 重庆这些发达的地区,尽管经济较发达,但由于这些区域面积较小,固定投资数额较小,第二:像其它省市
22、都是中国经济落后地区,固定投资额就比较少,但这些地区的矿产资源较丰富采矿业投资数额和其它类差不多。大部分的省市处于中国的西北,西南地区,经济落后,需要加强各个行业的投资。第二类:河北 辽宁 吉林 浙江 安徽 福建江西 河南 湖北 湖南 广东 四川这些省在主要行业分的全社会固定资产投资数额相对比较多,原因有以下三点:第一,这些省大部分处于中部和沿海地区,经济较发达。第二,国家在十一五计划中实施中部崛起战略,促进了中部省的投资数额,第三:国家为保持沿海地区的经济发达,加强了投资。特别是房地产与制造业这两个产业投资数额非常大,主要因为这两个行业与国家的政策和人民的生活密切相关。第三类:江苏 山东属于
23、沿海地区,在主要行业分的全社会固定资产投资数额相当大,总投资额分别为18949.8746亿元和19034.53亿元占全国总投资的比率分别为0.086601和0.086988,大力促进经济的发展。三:因子分析:(1)是否可进行因子分析的判断在进行因子分析前,作KMO and Bartletts Test, KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.778Bartletts Test of SphericityApprox. Chi-Square728.572Df171Sig.000Kaiser-Me
24、yer-Olkin Measure of Sampling Adequacy值为0.778。渐近的x2=728.572较大,适合进行因子分析。(2)因子分析的步骤1. 打开spss软件2. 按AnalyzeData ReductionFactor顺序单击菜单项,打开因子分析主对话框。3. 选择分析变量送到右边的Variables栏中。4. 单击Descriptives按钮,在对话框Statistics栏内选择Initial solution选项,在Correlation Matrix选项选择Coefficients, KMO and Bartletts Test of sphericity选项
25、。5. 在主对话框中单击Extraction按钮,相应的对话框中:a) Method菜单中选择Principle components项,使用主成分分析方法。b) Analyze栏中选择Correlation matrix项,分析相关矩阵。c) Extract栏中选择Number of factors 4。d) Display栏中选择Unrotated factor solution,显示未旋转的因子结果。同样选择Scree plot,要求作出特征值的散点图。e) Maximum iteration convagence 25,结束迭代的判据为到达最大迭代次数25.6. 主对话框中单击Scor
26、e按钮。在相应的对话框中选择Save as variables,并在Method栏中选择Rregression,要求通过回归方法计算因子得分并把因子得分作为变量保存到数据文件中。同时选择Display factor score coefficient matrix显示因子得分系数阵。7. 主对话框中单击Rotation按钮。在相应对话框中选择Method,并在Method栏中选择Varimax,在Display中选择Rotated solution和Loading plots选项。8. 主对话框中单击Options按钮。在相应对话框中选择Missing Values,并在Missing Val
27、ues栏中选择Exclude cases listwise选项。9. 在主对话框中单击OK按钮执行运算。(3)因子分析的结果及其分析总方差分解Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsRotation Sums of Squared Loadings Total% of VarianceCumulative %Total% of VarianceCumulative %Total% of VarianceCumulative %111.23859.14959.14
28、911.23859.14959.1496.35533.44933.44922.31012.15671.3042.31012.15671.3046.25632.92766.37631.6128.48679.7901.6128.48679.7902.54913.41479.7904.8634.54184.330 5.7884.14988.479 6.4932.59491.073 7.4012.11093.183 8.3071.61894.801 9.2741.44096.241 10.187.98297.223 11.160.84298.066 12.094.49698.562 13.089.46
29、899.031 14.067.35599.385 15.051.26699.652 16.033.17199.823 17.019.09899.921 18.008.04299.962 19.007.038100.000 Extraction Method: Principal Component Analysis.为各成分的公因子方差表。在选择提取公因子的数量时,选择了提取前3个公因子的方法。前3公因子可以解释总方差的近79.790%,其余16因子只占20.21%,可以说3因子可以解释总方差的绝大部分。因子载荷阵Component Matrix(a) Component123住宿和餐饮业.9
30、22-.043-.190水利、环境和公共设施管理业.920-.241.076房地产业.911-.238-.106批发和零售业.902.306-.114制造业.899.100-.180卫生、社会保障和社会福利业.894-.040.251居民服务和其他服务业.862.285-.105文化、体育和娱乐业.855.165-.184教育.833-.028.294科学研究、技术服务和地质勘查业.830.191-.234交通运输、储蓄和邮政业.770-.488.184租赁和商务、服务业.730-.326-.344电力、燃气及水的生产和供应业.663-.310.478农、林、牧、渔业.642.421.539金
31、融业.636-.279-.070公共管理和社会组织.632.512-.197建筑业.544.478-.311信息传输、计算机服务和软件业.523-.718.052采矿业.293.489.671Extraction Method: Principal Component Analysis.a 3 components extracted.方差最大正交旋转后因子载荷阵Rotated Component Matrix(a) Component123批发和零售业.838.360.296公共管理和社会组织.803.018.235居民服务和其他服务业.795.350.283科学研究、技术服务和地质勘查业.
32、788.379.123建筑业.781-.033.098文化、体育和娱乐业.767.422.161制造业.761.500.150住宿和餐饮业.706.618.086交通运输、储蓄和邮政业.180.896.169信息传输、计算机服务和软件业-.046.881-.114水利、环境和公共设施管理业.467.800.227房地产业.553.766.071电力、燃气及水的生产和供应业.054.737.467租赁和商务、服务业.501.676-.223卫生、社会保障和社会福利业.468.661.456金融业.325.618.004教育.411.617.481采矿业.124-.066.869农、林、牧、渔业.
33、394.197.828Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.a Rotation converged in 5 iterations.A为因子载荷阵从上表可见,每个因子只有少数几个指标的因子载荷阵较大,因此可根据上表进行分类,将19个指标按高载荷分成三类,列于下表:高载荷指标意义1批发和零售业公共管理和社会组织居民服务和其他服务业科学研究、技术服务和地质勘查业建筑业文化、体育和娱乐业制造业住宿和餐饮业2交通运输、储蓄和邮政业信息传输、
34、计算机服务和软件业水利、环境和公共设施管理业房地产业电力、燃气及水的生产和供应业租赁和商务、服务业卫生、社会保障和社会福利业金融业教育3农、林、牧、渔业采矿业特征值散点图特征值碎石图。可以看出前4特征值间的差异很大,其余的变化很小。从图中可以看出,取前4个因子是正确的。各个因子得分及其排名地 区因 子 得 分F1排名F2排名F3排名北 京-0.41052190.1700912-1.156929 天 津-0.1203913-0.3792621-0.6317823 河 北0.5698350.3175880.947225 山 西-1.0695431-0.16753171.109814 内蒙古-0.6
35、8606250.0169142.320572 辽 宁1.0728230.942095-0.3176818 吉 林-0.074212-0.44501220.2348311 黑龙江-0.3889118-0.30345190.883266 上 海-0.7011270.731476-1.4600131 江 苏1.8407621.486893-1.3050730 浙 江-0.29484151.473254-1.0795628 安 徽0.771644-0.2118618-0.0191713 福 建-0.56599230.673187-0.6412724 江 西0.2302810-0.1672716-0.3
36、555620 山 东4.14731-0.46802230.55619 河 南0.3234590.1736112.649941 湖 北0.5011460.2555710-0.27216 湖 南0.06108110.2865790.0736812 广 东-0.72926283.091821-0.4479721 广 西-0.47822210.1336913-0.2192714 海 南-0.2646214-1.1862927-0.9960327 重 庆-0.3213216-0.3589720-0.2814417 四 川-0.67312241.579621.614553 贵 州-0.7420429-0.
37、6483725-0.2508515 云 南-0.8383530-0.03339150.563028 西 藏-0.3274317-1.4250730-0.970926 陕 西0.475467-0.61438240.574417 甘 肃0.3658-1.4901431-0.330219 青 海-0.4275420-1.3134729-0.7557825 宁 夏-0.5531322-1.2189128-0.5670222 新 疆-0.692226-0.90088260.5310610分析:从第三类农、林、牧、渔业、采矿业来看这些都是原始的基础行业,投资额相对其它行业的投资来说比较居中,既保障了人民生产生活所需要的必要基础物质,又为其它行业做出了很大的贡献,从全国各个地区来看,同等级别的城市投资额的差别不是很大,经济发达地区如北京,上海这些地区投资额相对来说比较少,像河北,山东,四川这些地区在农、林、牧、渔业投资额比较大,在山西,内蒙古