《《数据分析试题》word版.doc》由会员分享,可在线阅读,更多相关《《数据分析试题》word版.doc(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、上海第二工业大学 (试卷编号: ) 20112012学年第二学期 数据分析 期末考试卷 A卷姓名: 王赞 学号: 094860117 班级: 09计算A1题 号 一 二 三 得 分一、某医院管理工作者希望了解病人对医院工作的满意程度和病人的年龄、病情的严重程度和忧虑程度之间的关系,他们随机选取了23位病人,得到下表所列数据:(本题40分,每小题5分)1234567891011125036404128494245522929435146484443545048625048532.32.32.21.81.82.92.22.42.92.12.42.44857668989364654267789671
2、314151617181920212223383453363329335529444355515449564649515258502.22.32.22.02.51.92.12.42.32.92.34751576679886049775260(1) 拟合关于的线性回归模型,写出回归方程;根据所得的回归模型中回归系数给出初步的分析结果; Anovab模型平方和df均方FSig.1回归4472.72531490.90812.072.000a残差2346.57919123.504总计6819.30422a. 预测变量: (常量), Xi3, Xi1, XI2。b. 因变量: Yi 表一系数a模型非标准
3、化系数标准系数tSig.B标准 误差试用版1(常量)177.44527.8396.374.000Xi1-1.069.326-.514-3.284.004XI2-.839.887-.212-.947.356Xi3-13.19313.221-.228-.998.331a. 因变量: Yi 表二由方差分析看出:F统计量的值为12.072,根据p值检验法知F检验的p值显然小于0.0001,因此拒绝原假设,接受对立假设,即因变量与3个自变量之间具有高度显著的线性回归关系。由表二可以看出,如果显著水平为0.05,而t检验的3个p值分别为0.004、0356、0.331显然小于显著水平,因此拒绝原假设,接受
4、对立假设,则说明因变量和XI1存在着高度显著的线性回归关系,与XI2、XI3没有显著的线性关系。并且得到回归方程为:Yi=177.455-1.069Xi1。其意义是在Xi1每增加一个单位,则减少1.069个单位。(2)、设误差项独立同分布于,在=0.01水平上检验回归关系的显著性;(写出原假设、对立假设和检验统计量) 解:由表1可以看出SSR为4472.725,SSE为2346.579,SST为6619.304; 设y与X1,X2,X3的观测值之间满足关系 ( i=1,218)其中( i=1,218)相互独立,均服从正态分布N(0,),利用SPSS可得到下列分析结果。由此表可知,的估计值2=M
5、SE=123.504,MSR=1490.908 检验假设:H0:H1:至少有一个非零的,统计量F=12.072检验值P从表看几乎接近于零0.6)和从变量的相关系数矩阵可以看出,各变量间的相关性很高,因此变量间所表示的信息量有交叉部分,因此可以进行因子分析。(5)取公共因子数为1时,对进行因子分析,并进行解释;对公共因子得分从小到大进行排序,并进行分析解释。公因子方差初始提取qtjm1.000.989ncjm1.000.979czjm1.000.977提取方法:主成份分析。选取一个因子,从上表可以看出因子可以解释qtim,ncjm,czjm,因此本因子的提取效果是理想的(6)取公共因子数为2时,
6、采用方差最大正交旋转进行因子分析,对公共因子得分从小到大进行排序。再对公共因子进行解释。旋转成份矩阵a成份12qtjm.715.692ncjm.798.600czjm.604.796提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。a. 旋转在 3 次迭代后收敛。因子一只要解释qtjm,ncjm,因子二主要解释czjm。(7)根据第(5)(6)小题的结果分析哪种取法更加合理?为什么? 解: (5)的方法更合理,因为一个因子就可以解释所有变量了。(8)简单说明因子分析中采用正交旋转的目的是什么? 解: 为了使一部分变量仅与第一个因子相关,另一部分变量与第二个因子相关。三、各
7、地区历年电力消费量见附件中数据文件dlxf.sav(单位:亿千瓦小时);变量分别代表2000年、2002年、2003年、2004年、2005年、2006年的电力消费:(本大题共20分,每小题4分)(1) 选择三种不同的谱系聚类法聚类,并给出这三种方法分3类的结果;1、采用最长距离:群集成员案例3 群集1:北京 12:天津 13:河北 24:山西 15:内蒙古 16:辽宁 27:吉林 18:黑龙江 19:上海 110:江苏 311:浙江 212:安徽 113:福建 114:江西 115:山东 316:河南 217:湖北 118:湖南 119:广东 320:广西 121:海南 122:重庆 123
8、:四川 124:贵州 125:云南 126:陕西 127:甘肃 128:青海 129:宁夏 130:新疆 1分类结果:第1类:1、2、4、5、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、27、28、29、30.第2类:3、6、11、16。第3类:10、15、19、2、最短距离:群集成员案例3 群集1:北京 12:天津 13:河北 14:山西 15:内蒙古 16:辽宁 17:吉林 18:黑龙江 19:上海 110:江苏 211:浙江 112:安徽 113:福建 114:江西 115:山东 216:河南 117:湖北 118:湖南 119:广东 320:广西
9、 121:海南 122:重庆 123:四川 124:贵州 125:云南 126:陕西 127:甘肃 128:青海 129:宁夏 130:新疆 1分类结果:第1类:1,2,、3、4、5、6、7、8、9、11、12、13、14、16、17、18、20、21、22、23、24、25、26、27、28、29、30.第2类:10、15。第3类:19。3、质新法:群集成员案例3 群集1:北京 12:天津 13:河北 24:山西 15:内蒙古 16:辽宁 17:吉林 18:黑龙江 19:上海 110:江苏 211:浙江 212:安徽 113:福建 114:江西 115:山东 216:河南 217:湖北 11
10、8:湖南 119:广东 320:广西 121:海南 122:重庆 123:四川 124:贵州 125:云南 126:陕西 127:甘肃 128:青海 129:宁夏 130:新疆 1分类结果:第1类:1、2、4、5、6、7、8、9、12、13、14、17、18、20、21、22、23、24、25、26、27、28、29、30.第2类:3、10、11、15、16。第3类:19。(2) 用快速聚类法进行聚类,分别写出分3类和4类的结果;分为3类为:聚类成员案例号地区聚类距离1北京 2227.3732天津 2197.6493河北 1600.1214山西 1532.4525内蒙古 2404.1096辽宁
11、 1192.5677吉林 2180.9358黑龙江 2278.2959上海 1585.09010江苏 3284.50311浙江 1859.27712安徽 2209.79413福建 2568.94714江西 2209.29415山东 3654.84816河南 1307.87117湖北 2669.44118湖南 2436.85919广东 3897.88020广西 281.10721海南 2852.74122重庆 2264.78323四川 1517.95624贵州 267.38025云南 2131.64826陕西 283.84927甘肃 243.45928青海 2585.65729宁夏 2392.5
12、1630新疆 2363.615分类结果:第1类:3、4、6、9、11、16、23。第2类:1、2、5、7、8、12、13、14、17、18、20、21、22、24、25、26、27、28、29、30.第3类:10、15、19。分为四类为:聚类成员案例号地区聚类距离1北京 2292.7292天津 2129.4813河北 1613.0154山西 4101.2615内蒙古 2459.8266辽宁 4361.5147吉林 2125.0718黑龙江 2338.9679上海 4129.77310江苏 1701.49011浙江 1365.16812安徽 2278.31413福建 4482.19814江西 2
13、141.75315山东 1286.24316河南 4767.21317湖北 4381.78518湖南 2505.39719广东 3.00020广西 2148.56921海南 2784.16422重庆 2202.10123四川 466.53224贵州 2131.88225云南 2190.95526陕西 2150.72027甘肃 2101.19128青海 2517.12229宁夏 2324.95430新疆 2295.056分类结果:第1类:3、10、11、15。第2类:1、2、5、7、8、12、14、18、20、21、22、24、25、26、27、28、29、30第3类:19第四类:4、6、9、1
14、3、16、17、23。(3) 在(2)中,通过最终聚类的类间距来分析分3类和分4类哪种更合理?为什么?解:不同的分类方法都是根据不同距离定义得来,所以分类结果不能进行最优比较。本题不能再分成更多的类,四类已经能将类别说明清楚。(4)利用快速聚类法进行聚类时,能否自行给出一组初始聚点?并说明你所给聚点的方法,以及利用该初始聚点进行快速聚类的结果,将聚类结果和(2)进行比较。(5)简要说明谱系聚类法和快速聚类法的区别是什么?普解:谱系聚类法先视各种样品为一类,然后把相似的样品聚为小类,再将已聚合的小磊按其相似性再聚合,随着相似性的减弱,最后将一切子类都聚合成为一大类,他的特点是样品一旦被归到某个类后就不变了,快速聚类法先将样品粗略的分一下类,然后按照某种原则进行修正,直到分类比较合理为止。