《数据分析算法与模型(一)(共9页).docx》由会员分享,可在线阅读,更多相关《数据分析算法与模型(一)(共9页).docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上数据分析算法与模型模拟题(一) 一、计算题 (共4题,100分) 1、 影响中国人口自然增长率的因素有很多,据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增
2、长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从中国统计年鉴收集到以下数据(见表1):表1 中国人口增长率及相关数据年份人口自然增长率(%。)国民总收入(亿元)居民消费价格指数增长率(CPI)%人均GDP(元)198815.731503718.81366198915.0417001181519199014.39187183.11644199112.98218263.41893199211.6269376.42311199311.453526014.72998199411.214810824.14044199510.555981117.15046199610.42701428
3、.35846199710.06780612.8642019989.1483024-0.8679619998.1888479-1.4715920007.58980000.4785820016.950.7862220026.45-0.8939820036.011.21054220045.873.91233620055.891.81404020065.381.516024 设定的线性回归模型为: (1)求出模型中的各个参数,试从多个角度评价此线性回归模型,并检验模型的经济意义;(2)检验模型中是否存在多重共线性问题(逐步回归),若有,试消除多重共线性。解:(1)首先进行数据预处理,数据经检查,无缺失
4、值,接着将数据导入dataHoop平台中,进行异常值检验等分析,数据基本正常,但是数据存在多重共线性,多重共线性将在第二问中详述。然后对数据进行多元线性回归拟合,以人口自然增长率(Y)作为因变量,国民总收入(X1)、居民消费价格指数增长率(X2)和人均GDP(X3)作为自变量,得到拟合结果为:Y = 14.7236 + 0.0003X1 + 0.0644X2 - 0.0052X3调整R方为0.8831,F检验的p值为0,(常数项)t检验的p值为0,国民总收入t检验的p值为0.0427,居民消费价格指数增长率t检验的p值为0.1359,人均GDPt检验的p值为0.0243。该模型解释为在其他变量
5、不变的情况下,国民收入每增长1亿元,则人口增长率随之增长0.0003%;在其他变量不变的情况下,居民消费价格指数增长率每增长1%,则人口增长率随之增长0.0644%;在其他变量不变的情况下,人均GDP每增长1元,则人口增长率随之降低0.0052%。居民消费价格指数增长率CPI与人口增长率呈正增长与现实情况不符,说明模型反映出的统计学意义与实际情况不完全相符,可能是因为自变量之间存在共线性。(2)发现国民收入与人均GDP相关系数高达0.9996,两个变量间极高度相关,因此得到回归方程存在多重共线性。变量间的多重共性对基于最小二乘法的回归模型模拟结果有非常严重的影响,导致回归结果不准确。采用“逐步
6、回归法”对模型进行优化消除变量间的多重共线性。分别对单个变量进行分析:国民总收入(X1):居民消费价格指数增长率(X2):人均GDP(X3):通过对比,X3的调整R方更高,且均通过检验,所以采用X3为基础变量;人均GDP(X3)和国民总收入(X1):人均GDP(X3)和居民消费价格指数增长率(X2):显然X1和X3的组合的调整R方更大,且均通过了检验。人均GDP(X3)、国民总收入(X1)和居民消费价格指数增长率(X2):当加入X2后,虽然调整R方有了一定的增加,但是X2的假设检验并没有通过,所以采用X1和X3两个变量的方程。方程为:Y = 15.7418 + 0.0004X1 0.0058X
7、32、对近期上映的10部电影进行调查研究,抽取290人对这10部电影的评分(分值010分),结果如下表所示。(1)根据表中数据对这10部电影的评分进行因子分析,并解析各个因子的含义;(2)可否利用电影的评分数据对这290名观影者进行聚类分析?给出你的理由。解:(1)首先计算所有变量的相关系数矩阵,从结果可以看出,大部分的相关系数均大于0.3,所以,此数据适合做因子分析。按因子为4个进行分析,结果得到第四个因子比例仅占比3%左右,所以该数据隐含因子设定为3个。载荷矩阵如下:所以,容易看出,第一因子为动作片,第二因子为爱情片,第三因子为动画片。(2)同观众可能会偏好不同类型的电影,体现在对不同类型
8、电影的评分不同。因此可以利用电影评分数据对观众进行聚类分析。3、某超市为了优化商品摆放结构,对近期顾客购买的商品类型进行了统计,如附表所示。(1)写出所有有效强关联规则(minsupport=10%,minconfidence=50%);(2)结合实际情况分析顾客喜欢的商品搭配,并对该超市提出合理的建议。(1)支持度大于1的均为有效强关联规则。数据无缺失值,几个变量(商品)的值为T/F,在DATEHOOP的关联分析中可被识别,故直接将数据导入datehoop对变量果蔬、鲜肉、奶制品、蔬菜制品、肉制品、冷冻食品、啤酒、红酒、软饮料、鱼类、糖果进行关联分析。设置最小支持度为0.1、最小置信度为0.
9、5,得到的强关联规则中提升度大于1的有效强关联规则如下所示:冷冻食品-蔬菜制品,蔬菜制品-冷冻食品,啤酒-冷冻食品,冷冻食品-啤酒,啤酒-蔬菜制品,蔬菜制品-啤酒,鲜肉-红酒,红酒-鲜肉,冷冻食品,啤酒-蔬菜制品,蔬菜制品,啤酒-冷冻食品,蔬菜制品,冷冻食品-啤酒(2)由(1)可见,蔬菜制品、冷冻食品、啤酒之前存在较高的关联性,故建议将三类商品陈列区域互相临近;另,红酒与鲜肉之前存在较高的关联性,故建议将两类商品陈列区域互相临近。4、某市为调查驾驶员视力情况(“1”表示视力正常,“0”表示有视力缺陷)、年龄、是否有驾驶教育经历(“1”表示有,“0”表示没有),这三个因素对是否曾引起交通事故(“
10、1”表示发生过,“0”表示未发生过)的影响,随机抽样调查了45名驾驶员,得到数据如下:(1)建立模型分析驾驶员视力情况、年龄、是否有驾驶教育经历对是否曾引起交通事故的影响,写出详细的思路过程。(2)若要应用此模型预测某批驾驶员中可能会引起过交通事故的人都有哪些,则还需要进行的研究步骤有哪些?请说明。(1)数据类型是数值型的不需要数值化,而且不存在缺失值。逻辑回归要考虑异常值的影响,以及变量是否存在共线性,因此我们进行异常值分析和相关性分析。异常值分析发现异常值较多,猜测可能是分类的影响,因此不做处理。由相关矩阵可看出变量之间虽然也有相关,但不是很强,因此可以进行逻辑回归。以accident为因变量,视力状况、age、drive为自变量进行逻辑回归分析,分析结果如下:得到逻辑回归方程ln(P(Yi)/(1-P(Yi)=-0.0819+-0.7412 x1+0.032x2-1.4972x3可以看到Accuracy、AUC、准确率召回率等都较大,模型拟合效果较好,训练误差不大。(2)若想用此模型优化成为可以用来预测哪些人可能会引起过交通事故,则一方面需进一步丰富样本量(本题只有45个样本),在大样本量的基本上继续使用训练数据集、测试数据集训练模型的拟合度,直到泛化误差小到可接受的范围内,再进一步应用到预测中来。专心-专注-专业