2022年数据分析试题 .pdf-淘文阁

资源描述

《2022年数据分析试题 .pdf》由会员分享，可在线阅读，更多相关《2022年数据分析试题 .pdf（17页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、上海第二工业大学（试卷编号：）20112012 学年第二学期数据分析期末考试卷A 卷姓名: 王赞学号： 094860117 班级： 09 计算 A1 题号一二三得分一、某医院管理工作者希望了解病人对医院工作的满意程度Y和病人的年龄1X 、病情的严重程度2X 和忧虑程度3X 之间的关系，他们随机选取了23 位病人，得到下表所列数据：（本题 40 分，每小题 5 分）i1 2 3 4 5 6 7 8 9 10 11 12 1ix50 36 40 41 28 49 42 45 52 29 29 43 2ix51 46 48 44 43 54 50 48 62 50 48 53 3ix2.3 2.

2、3 2.2 1.8 1.8 2.9 2.2 2.4 2.9 2.1 2.4 2.4 iy48 57 66 89 89 36 46 54 26 77 89 67 i13 14 15 16 17 18 19 20 21 22 23 1ix38 34 53 36 33 29 33 55 29 44 43 2ix55 51 54 49 56 46 49 51 52 58 50 3ix2.2 2.3 2.2 2.0 2.5 1.9 2.1 2.4 2.3 2.9 2.3 iy47 51 57 66 79 88 60 49 77 52 60 (1) 拟合Y关于123,XXX 的线性回归模型，写出回归方程；

3、根据所得的回归模型中回归系数给出初步的分析结果；Anovab模型平方和df 均方F Sig. 1 回归4472.725 3 1490.908 12.072 .000a残差2346.579 19 123.504 总计6819.304 22 a. 预测变量 : (常量 ), Xi3, Xi1, XI2。b. 因变量 : Yi 表一精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页，共 17 页系数a模型非标准化系数标准系数t Sig. B 标准误差试用版1 ( 常量 ) 177.445 27.839 6.374 .000 Xi1 -1.069 .

4、326 -.514 -3.284 .004 XI2 -.839 .887 -.212 -.947 .356 Xi3 -13.193 13.221 -.228 -.998 .331 a. 因变量 : Yi 表二由方差分析看出： F 统计量的值为 12.072，根据 p 值检验法知 F 检验的 p值显然小于 0.0001，因此拒绝原假设，接受对立假设，即因变量与 3 个自变量之间具有高度显著的线性回归关系。由表二可以看出，如果显著水平为 0.05，而t 检验的 3 个 p 值分别为 0.004、0356、0.331 显然小于显著水平，因此拒绝原假设，接受对立假设，则说明因变量和XI1 存在着

5、高度显著的线性回归关系，与XI2、XI3 没有显著的线性关系。并且得到回归方程为：Yi=177.455-1.069Xi1。其意义是在 Xi1 每增加一个单位，则Y减少 1.069 个单位。（2）、设误差项(1,2,16)ii独立同分布于2(0,)N，在=0.01 水平上检验回归关系的显著性； ( 写出原假设、对立假设和检验统计量) 解：由表 1 可以看出 SSR为 4472.725，SSE为 2346.579，SST为 6619.304；设 y 与 X1， X2， X3的观测值之间满足关系iiiixxy22110（ i=1， 218）其中i（ i=1，218）相互独立，均服从正态分布 N（0

6、，2），利用 SPSS可得到下列分析结果。由此表可知，2的估计值2=MSE=123.504，MSR=1490.908 检验假设：H0：0321H1：321,至少有一个非零的，统计量 F=MSEMSR=12.072 检验值 P从表看几乎接近于零 0.6）和从变量的相关系数矩阵可以看出，各变量间的相关性很高，因此变量间所表示的信息量有交叉部分，因此可以进行因子分析。(5) 取公共因子数为 1 时，对123,x x x 进行因子分析，并进行解释；对公共因子1F得分从小到大进行排序，并进行分析解释。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1

7、0 页，共 17 页公因子方差初始提取qtjm 1.000 .989 ncjm 1.000 .979 czjm 1.000 .977 提取方法：主成份分析。选取一个因子，从上表可以看出因子可以解释qtim,ncjm,czjm，因此本因子的提取效果是理想的(6) 取公共因子数为 2 时，采用方差最大正交旋转进行因子分析，对公共因子1F得分从小到大进行排序。再对公共因子12,F F 进行解释。旋转成份矩阵a成份1 2 qtjm .715 .692 ncjm .798 .600 czjm .604 .796 提取方法 : 主成份。旋转法 : 具有 Kaiser 标准化的正交旋转法。a. 旋转在 3

8、次迭代后收敛。因子一只要解释 qtjm,ncjm，因子二主要解释 czjm。(7) 根据第 (5)(6) 小题的结果分析哪种取法更加合理？为什么？解：（5）的方法更合理，因为一个因子就可以解释所有变量了。(8) 简单说明因子分析中采用正交旋转的目的是什么？解：为了使一部分变量仅与第一个因子相关，另一部分变量与第二个因子相关。三、各地区历年电力消费量见附件中数据文件dlxf.sav(单位：亿千瓦小时 )；变量16XX 分别代表 2000 年、20XX 年、20XX 年、20XX 年、20XX 年、20XX年的电力消费： (本大题共 20分，每小题 4 分) (1) 选择三种不同的谱系聚类法聚

9、类，并给出这三种方法分3 类的结果；1、采用最长距离：群集成员精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 11 页，共 17 页案例3 群集1: 北京1 2: 天津1 3: 河北2 4: 山西1 5: 内蒙古1 6: 辽宁2 7: 吉林1 8: 黑龙江1 9: 上海1 10: 江苏3 11: 浙江2 12: 安徽1 13: 福建1 14: 江西1 15: 山东3 16: 河南2 17: 湖北1 18: 湖南1 19: 广东3 20: 广西1 21: 海南1 22: 重庆1 23: 四川1 24: 贵州1 25: 云南1 26: 陕西1 27:

10、甘肃1 28: 青海1 29: 宁夏1 30: 新疆1 分类结果：第 1 类： 1、 2、4、5、7、8、9、12、13、14、 17、18、20、21、22、23、24、25、26、27、28、 29、30. 第 2 类： 3、 6、11、 16。第 3 类： 10、15、 19、2、最短距离：群集成员案例3 群集1: 北京1 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 12 页，共 17 页2: 天津1 3: 河北1 4: 山西1 5: 内蒙古1 6: 辽宁1 7: 吉林1 8: 黑龙江1 9: 上海1 10: 江苏2 11: 浙江1 12

11、: 安徽1 13: 福建1 14: 江西1 15: 山东2 16: 河南1 17: 湖北1 18: 湖南1 19: 广东3 20: 广西1 21: 海南1 22: 重庆1 23: 四川1 24: 贵州1 25: 云南1 26: 陕西1 27: 甘肃1 28: 青海1 29: 宁夏1 30: 新疆1 分类结果：第 1 类： 1， 2，、3、4、5、6、7、 8、9、11、12、 13、14、16、17、18、20、21、 22、23、24、 25、26、27、 28、29、30. 第 2 类： 10、15。第 3 类： 19。3、质新法：群集成员案例3 群集1: 北京1 2: 天津1 3: 河

12、北2 4: 山西1 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 13 页，共 17 页5: 内蒙古1 6: 辽宁1 7: 吉林1 8: 黑龙江1 9: 上海1 10: 江苏2 11: 浙江2 12: 安徽1 13: 福建1 14: 江西1 15: 山东2 16: 河南2 17: 湖北1 18: 湖南1 19: 广东3 20: 广西1 21: 海南1 22: 重庆1 23: 四川1 24: 贵州1 25: 云南1 26: 陕西1 27: 甘肃1 28: 青海1 29: 宁夏1 30: 新疆1 分类结果：第 1 类： 1、 2、4、5、6、 7、8

13、、9、12、13、14、 17、18、20、21、22、23、24、 25、26、27、 28、29、30. 第 2 类： 3、 10、11、15、16。第 3 类： 19。(2) 用快速聚类法进行聚类，分别写出分3 类和 4 类的结果；分为 3 类为：聚类成员案例号地区聚类距离1 北京2 227.373 2 天津2 197.649 3 河北1 600.121 4 山西1 532.452 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 14 页，共 17 页5 内蒙古2 404.109 6 辽宁1 192.567 7 吉林2 180.935 8 黑

14、龙江2 278.295 9 上海1 585.090 10 江苏3 284.503 11 浙江1 859.277 12 安徽2 209.794 13 福建2 568.947 14 江西2 209.294 15 山东3 654.848 16 河南1 307.871 17 湖北2 669.441 18 湖南2 436.859 19 广东3 897.880 20 广西2 81.107 21 海南2 852.741 22 重庆2 264.783 23 四川1 517.956 24 贵州2 67.380 25 云南2 131.648 26 陕西2 83.849 27 甘肃2 43.459 28 青海2 5

15、85.657 29 宁夏2 392.516 30 新疆2 363.615 分类结果：第 1 类： 3、 4、6、9、11、16、23。第 2 类： 1、 2、5、7、8、 12、13、14、17、18、20、21、22、24、25、 26、27、28、29、30. 第 3 类： 10、15、 19。分为四类为：聚类成员案例号地区聚类距离1 北京2 292.729 2 天津2 129.481 3 河北1 613.015 4 山西4 101.261 5 内蒙古2 459.826 6 辽宁4 361.514 7 吉林2 125.071 精选学习资料 - - - - - - - - - 名师归纳总结

16、- - - - - - -第 15 页，共 17 页8 黑龙江2 338.967 9 上海4 129.773 10 江苏1 701.490 11 浙江1 365.168 12 安徽2 278.314 13 福建4 482.198 14 江西2 141.753 15 山东1 286.243 16 河南4 767.213 17 湖北4 381.785 18 湖南2 505.397 19 广东3 .000 20 广西2 148.569 21 海南2 784.164 22 重庆2 202.101 23 四川4 66.532 24 贵州2 131.882 25 云南2 190.955 26 陕西2 15

17、0.720 27 甘肃2 101.191 28 青海2 517.122 29 宁夏2 324.954 30 新疆2 295.056 分类结果：第 1 类： 3、 10、11、15。第 2 类： 1、 2、5、7、8、 12、14、18、20、21、22、24、25、26、27、28、29、30 第 3 类： 19 第四类： 4、 6、9、13、16、17、23。(3) 在(2) 中，通过最终聚类的类间距来分析分3 类和分 4 类哪种更合理？为什么？解：不同的分类方法都是根据不同距离定义得来，所以分类结果不能进行最优比较。本题不能再分成更多的类，四类已经能将类别说明清楚。(4) 利用快速聚类法进

18、行聚类时，能否自行给出一组初始聚点？并说明你所给聚点的方法，以及利用该初始聚点进行快速聚类的结果，将聚类结果和 (2) 进行比较。(5) 简要说明谱系聚类法和快速聚类法的区别是什么？普解：谱系聚类法先视各种样品为一类，然后把相似的样品聚为小类，再将已聚合的小磊按其相似性再聚合，随着相似性的减弱，最后将一切子类都聚合成为一大精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 16 页，共 17 页类，他的特点是样品一旦被归到某个类后就不变了，快速聚类法先将样品粗略的分一下类，然后按照某种原则进行修正，直到分类比较合理为止。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 17 页，共 17 页

展开阅读全文