数据分析课后习题实验一.pdf

上传人:奔*** 文档编号:91496133 上传时间:2023-05-27 格式:PDF 页数:15 大小:1.58MB
返回 下载 相关 举报
数据分析课后习题实验一.pdf_第1页
第1页 / 共15页
数据分析课后习题实验一.pdf_第2页
第2页 / 共15页
点击查看更多>>
资源描述

《数据分析课后习题实验一.pdf》由会员分享,可在线阅读,更多相关《数据分析课后习题实验一.pdf(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、广东金融学院实验报告课程名称:实验编号及实验名称实验一系 另U姓 名张灿龙学 号班 级实验地点实验日期2017年10月8日实验时数2指导教师同组其他成员成绩一、实验目的及要求1.4 2002年11月以及1至I I月全国各省、市、区财政预算收入数据如表L 4所示(单位;亿元).设 m 为 II月预算收入,不为1 至 11月预算收入.分别对5)的观测值计算;(1)均值、方差、标准差、变异系数、偏度、峰度;(2)中位数、上、下四分位数、四分位极差;(3)作出直方图;(4)作出经验分布函数图;(5)的观测值的Pe a r s o n 相关系数与Sp e a r m a n 相关系数.1 7 表 1.6

2、是人体的胸部、腹部、手臂部分皮肤的有关数据,相应指标记为占,4,月.(1)计算观测数据均值向量和中位数向量M ;(2)计算观测数据的Pe a r s o n 相关矩阵R,Sp e a r m a n 相关矩阵Q 及各元素对应的检验p值,并做相关性的显著性检验.2.4 某公司管理人员为了解某化妆品在一个城市的月梢售量y(单位:箱)与该城市中适合使用该化妆品的人数为(单位:千人)以及他们人均月收入Z(单位:元)之间的关系,在某个月中对15个城市作了调查,得上述各量的观测值如表2 J 2 所示.假 设,与X,X1之间满足线性回归关系r.=A+/怎|+,=1.2,15其中(i=1.2,-,15)独立同

3、分布于N(0,1/).(1)求回归系数。,仇,仇的最小一乘估计和误差方差1的估计,写出网归方程并对回归系数作解释;(2)求出方差分析表.解释对线性回归大系显著性检验的结果.求复相关系数的平方出的值并解秆其意义;(3)分别求其和自的置信度为95%的置信区间:(4)对a=0.05,分别检验人数及收入X,对销量丫的影响是否显著,利用与回归系数有关的一般假设检验方法检验X,和X?的交互作用(即乐X?)对丫的影响是否显著;(5)该公司欲在一个适宜使用该化妆品的人数而,=220,人均月收入电=2500的新的城市中销售该化妆品,求其箱集的预测值及其置信度为95%的置信区间;(6)求丫的拟合值,残差及学乍化残

4、差.根据对学生化残差正态性的赧率检验及正态QQ图检验说明模型误差项的正态性假定是否合理,有序学生化残差与相应标准正态分布的分位数的相关系数是多少?作出各种残差图,分析模型有关假定的合理性.2 5 表 2.1 3 中的数据是由某特定模型Y=*)+8 产生的20组模拟数据.表2.13 模 拟 数 据一n(|)首 先 拟 合 丫 关 于 x的线性回归模型,结果如何?通过残差分析(尤其是残差图分析)并参考y与 x的触点图,选择你认为合理的回归函数形式.拟合你所选择的回归模型,再通过残差分析考察所设定的模型的合理性.最后,将你所拟合的回归方程与真实模型(丫=5+(X-I)+,e .v(0,0.625)比

5、较,你是否给出了正确的模型形式.z;实验环境及相关情况(包含使用软件、实验设备、主要仪器及材料等)sas9.2,office2010,windows8三、实验内容的详细代码、清单、步骤及流程习 题 1-4:首先导入数据,然后根据题目要求,先用proc uninvariate命令来求出各个变量xl,x2的各个基本统计量,在第三四问中用proc capability data=exercisel_4 graphics noprint;来作出两个变量的直方图和经验分布图。在第五问中,用 proc corr data=exersicell_4 pearson spearman cov;来求 pears

6、on 和 spearman 的相关系数。习 题 1-7:首先导入数据,也是根据题目要求,先用proc univariate来求出各个变量的基本统计量,然后根据第二问,用了 proc corr data=exersicel_7 pearson spearman cov;去计算 pearson 和 spearman 的相关矩阵。习题2-4:导入数据后,根据第一二问,采用proc re g 过程对数据进行了线性回归分析,根据第三问,求置信区间采用了 tinv函数来求解。第四间检验x l 和 x2的相合作用对于y 的影响,这里我重新构造了一列数据,x l和 x2的乘积,然后再用procreg过程对数据

7、再进行了一次线性回归分析。在第五问中,直接将题目数据带入到之前所得到的回归方程即可得到结果。为了得出残差,学生化残差,我对数据进行了回归分析的时候取了 model y=xl x2/r;以便求出学生化残差。最后利用proc capability和 proc gplot过程对作出正态q q 图和各种残差图。习题2-5(第一问)导入数据后,对数据进行了 proc reg回归线性分析,拟合出丫关于X 的线性回归模型,然后通过procgplot过程作出各种残差图和丫和X 的散点图进行分析。详细的程序代码见附录:四,实验 结 果(包 括 程 序、图 表、结 论 陈 述、数 据 记 录 及 分 析 等)习

8、题 14:(1)运行 p r o c u n i v a r i a t e 程序,UNIVARIATE PROCEDURE变更:XI矩进行简单统计量分析,得到下列结果:UNIVARIATE PROCEDURE费里:X2矩31246.193226232.9720981.915956993507224.1894.6297758317631.9954275.99824.385232711828279.9541.8430239和玄差袋3119.168451619.79976642.5153518323148.8614103.30428831594.16332.030758.2869893911760

9、.92253.55614303和ii差Nn均可以得出x l 和 x 2的均值,方差,标准差,变异系数,偏度和峰度如下表所示:均值方差标准差变异系数偏度峰度xl1 9.1 6 6 4 5 1 63 9 2.0 3 0 7 51 9.7 9 9 7 6 6 41 0 3.3 0 4 2 8 82.5 1 5 3 5 1 8 38.2 6 6 9 8 9 3 9x22 4 6.1 9 3 2 2 65 4 2 7 62 3 2.9 7 2 0 9 89 4.6 2 9 7 7 5 81.9 1 5 9 5 6 9 94.3 8 5 2 3 2 7 1(2)由(1)结果截图有:基本统计刑度 基本统计测

10、度位置 变异性 位置 变异性数均史从18.1664514.77000标方极四19.79 9 773 9 2.03 0759 8.5500014.10000246.19 3 2179.4100H极四23 2.9 7210542761074169.48000差差差护位差极位分位数(定 义5)分位数(定 义5)分位数估计值分位数估计值100%最大值9 9.3 2100%最大值1080.269 9 X9 9.3 29 9 X1080.269 5K49.729 5X656.9 59 0X40.269 0X552.7475%Q320.3 475*03273.295 0%中位数14.775 0 X中位数17

11、9.4125X Q16.2425X Q1103.8110X3.2410%3 9.515X1.215X18.3 0IX0.77IX6.08o x最小值0.770 X最小值6.08可以得出xl的中位数、上、下四分位数、四分位极差为:1 4.7 7 0 0 0、2 0.3 4、6.2 4、1 4.1 0 0 0 0。x2 的中位数、上、下四分位数、四分位极差为:1 7 9.4 1 0、2 7 3.2 9、1 0 3.8 1、1 6 9.4 8 0 0 0。(3)直方图xl的直方图 x2 的直方图Curve-MK M I If Sam0?n*7)1000(4)经验分布图:x l的经验分布图100 x

12、2的经验分布图KM320O2,100808320ii朱 lr|XIX2XI1.000000.9 7625.0001X20.9 7625 lrXIX2XI1.000000.9 2782.0001X20.9 2782|r|x3xlx2xl1.000000.619 3 0.00010.519 520.0001xl1.000000.54551.00010.506880.0002x20.619 3 0.00011.000000.461490.0007x20.54551.00011.000000.529 51.0001x30.519 520.00010.461490.00071.00000 x30.506

13、680.00020.529 51.00011.00000-10.619300.51952-1 0.545510.50668由结果可以看出相关矩阵R=(.0001)0.0001(.0001)(0.0002)0.6193010.46149,Q-0.54551 10.52951(.0001)(0.0007)(.0001).00010.519520.4614910.50668 0.529511(0.0001)(0.0007)(0.0002)(|t|Interc ept13.452612.43 0651.420.1809xl10.49 6000.0060581.9 2.0001x210.009 200.

14、0009 68119.50 FMod elErrorC orrec ted Tota l53 845269 225679.47 FMod el253 845269 225679.47|t|Interc ept13.452612.43 0651.420.1809xl10.49 6000.0060581.9 2.0001x210.009 200.0009 68119.50 FMod el353 845179 483 480.75 片)=(尸(L 1 2)0.0 3 4 4)=0.8 559 6 ,p 0 远大于一般显著性水平,因此认为X i 和 X2的交叉项对于丫的影响不显著的,即模型中没有必塑I

15、 交叉项一(5)该公司欲在一个适宜使用该化妆品的的人数X oi=2 2 O,人均月收入X o2=2 50 0 的新的城市中销售该化妆品,求其销量的预测值及其置信度为9 5%的置信区间。解:点估计可直接根据回归方程y=3.4 52 6 1 +0.4 9 6 x,+0.0 0 9 2 x2 给出,得到估计值yo=l 3 5.57 2 6.而置信度为0.9 5的置信区间为:y0+%9 7 5(1 2 MMS E(1+X oI xT X)-/。)其中 y。=1 3 5.2 7 2 6,t0 9 7 5(1 2)=2.7 1 9,J 标=2.1 7 7 2 2,X 为设计矩阵,解得置信区间为(1 2 8

16、.7 7 0 3,1 4 1,。7 7 4 9)(6)解:根据回归方程,可以得出丫的拟合值,结果如下:Obs yl1161.8972122.6693224.431458131.24267.701169.687779.73489189.673119.833101153.293253.71712228.69313144.98114100.53415210.939用新的数据集进行re g过程,并且输入model y=x l x 2/r得到残差和学生化残差,结果如下:The REG ProcedureModel:M ODEL 1Dependent Variable:yOutput Statistics

17、ObsDependentVariablePredictedValueStd Error Std ErrorMean Predict Residual ResidualStudentResidual-2-112CooksD123456789101112131415162.0000120.0000223.0000131.000067.0000169.000081.0000192.0000116.000055.0000252.0000232.0000144.0000103.0000212.0000181.8957122.6673224.4294131.240667.8998169.684379.73

18、19189.6720119.832053.2905253.7151228.6908144.9793100.5331210.83810.8425 0.10430.8099-2.66730.9393-1.42940.5912-0.24060.9598-0.69930.9180-0.68491.0581 1.26811.0716 2.32800.8814-3.83201.1259 1.70951.1562-1.71511.2953 3.30920.6254-0.97930.8952 2.46691.1591 1.06192.0082.0211.9642.0951.9541.9751.9031.895

19、1.9911.8641.8451.7502.0851.9851.8430.0519-1.320-0.728-0.115-0.358-0.3470.6661.228-1.9250.917-0.9301.891-0.4701.2430.57640K*0.0000.0930.0400.0000.0100.0090.0480.1610.2420.1020.1130.6530.0070.1050.044SIM of ResidualsSUB of Squared ResidualsPredicted Residua1 SS(PRESS)056.8835796.93405做频率检验得到学生化残差中有竺=0

20、.6 6 7(=0.6 8),1 5在区间(-1,1)内,有1 31 5=0.8 6 7(。0.8 7)在 区 间(-1 51.5)内,有 一 =1(0.9 5)在 区 间(-2,2)内,有此可见学生化残差落在上述各区间1 5的频率与N (0,1)分布的相应概率相差均不大,因此对所给数据没有理由拒绝模型误差服从正态分布的假定。调用p r oc c a p a b i l i ty过程,进行正态QQ图检验,得到如下结果:-1o-2-5一P9N一-pu3PMs-2-2.0-1.5-1.0-0.5 0 0.5 1.0 1.5 2.0正态分位数正态线:-30.0255.S.gma=1 0543从上图可

21、以看出点几乎都落在直线上,有调用c or r 过程得到相关系数为0.9 9 3 6 3,非常接近1,因此我们认为模型中误差项正态分布的假定是非常合理的。以下是各种残差图:(a)关于丫的拟合值(c)关于X2的观测值(d)时序残差图(b)关于XI的观测值以上四个残差图的点都是大致在一带状区域内且不呈现任何明显趋势。再一次说明误差项正态分布的合理。()习题2-5:对数据进行了 r e g过程,进行了回归模型分析,得到以下结果:Ana lysis of Va ria nc eSum ofMea nSourc eDFSqua resSqua reF Va luePr FMod el10.00016825

22、0.000168250.000.9 83 2Error186.649 830.3 69 44C orrec ted Tota l196.65000Root MSE0.60781R-Squa re0.0000Depend ent Mea n1.00000Ad j R-Sq-0.0555C oeff Va r60.78117Pa ra meter Estima tesVa ria b leDFPa ra meterEstima teSta nd a rdErrort Va luePr|t|Interc ept10.9 559 12.070660.460.649 9X10.008280.3 8818

23、0.020.9 83 2其中p检验值为0.9 8 3 2,证明明显没有线性回归关系,R 2 0.0 0 0 1也表明x对于y的影响不显著。所以这表明x和y之间不存在线性回归方程。作出x,y的散点图如下:y2.0-1.9-1.8-1.7-1.6-1.5-1.4-1.3-1.2-1.1 -1.0-0.9-0.8-0.7-0.6-0.5-0.4-0.3-0.2-0.1-0.0-4.5 4.6 4.7 4.8 4 9 5.0 5.1 5.2 5.3 5.4 5.5 5 6 5.7 5.8 5.9 6.0 6.1五.实 验 总 结(包 括 对 本 实 验 的 所 有 问 题 的 回 答、实 验 过 程

24、中 发 现 的 问 题 以及你的 改 进 办 法)从这次实验中,我对于数据的描述性分析和线性回归分析的理解更深了一层,发现表面上一些数据看起来是没有联系的,但是当我们用软件或者认真去分析它们的时候,我们就会发现它们之间或许还是存在一定联系的。另外,从这次实验中,我更加清楚地了解到自身的不足和缺点,对 SAS软件操作明显的不熟练,和对于分析方法的不掌握。因为这些不足,我完成这个实验,足足花了假期2 天时间左右,而且由于自己的能力的不足,还有一些还没有完善的题目。我会争取下次实验,一定完成好。还有,有些时候以为自己对于某些知识点已经掌握了。但是当自己做起题目的时候,才发现自己掌握的只是冰山一角。例

25、如,原以为线性回归分析只要求掌握一个回归方程就可以了,但是没想到做的题目中竟然要求用其他回归方程模型去分析,这让我不得不反省自己.六.教师评语评语评语等级优良1 及格不合格1.实验态度认真,实验目的明确2.实验方案、程序设计合理3.实验过程(实验步骤详细,记录完整,数据合理)4.实验结论正确,分析透彻5.实验报告独立完成,无抄袭现象,并按时提交,格式规范,文字叙述流畅,逻辑性强综合评定:附录data exersicel_4;input province$XI X2;cards;北京35.22499.80天津10.41161.37河北17.22273.29山西10.70134.79内蒙古10.2

26、990.92辽宁18.66348.99吉林4.41106.89黑龙江6.24196.44上海49.72656.95江苏47.70580.70浙江36.55518.10安徽14.85179.41福建19.46250.16江西10.93122.06山东40.26552.74河南19.82268.20湖北19.49221.43湖南16.01197.68广东99.32 1080.26广西14.77160.60海南3.9639.51重庆10.49111.76四川21.71250.09贵州13.0695.87云南20.34183.62西藏0.776.08陕西11.38133.50甘肃3.6664.86青海

27、1.2118.30宁夏2.3123.81新疆3.24103.81run;/*求出基本统计量*/proc univariate data=exersicel_4:varXl X2;run;/*画出直方图和经验分布函数图*/proc capability data=exersicel_4 graphics noprint;histogram/normal(mu=est sigma=est)vscale=proportion;cdfplot/normal(mu=est sigma=est);run;/*pearson 和spearman 相关系数*/proc corr data=exersicel_

28、4 pearson spearman cov;run;data exersicel_7;input xl x2 x3;cards;9.0 12.0 3.08.5 15.0 3.013.0 19.0 3.010.0 7.0 4.07.0 13.0 2.515.5 28.5 5.022.5 20.0 4.55.5 8.5 3.025.0 35.0 6.515.0 19.0 4.012.5 20.0 3.017.0 19.5 5.016.0 17.5 6.020.0 20.0 7.512.0 17.0 4.022.0 20.0 6.017.0 28.0 5.516.0 18.0 3.021.0 27

29、.5 6.013.0 14.0 4.021.0 13.0 9.021.0 6.0 3.513.5 6.5 3.55.0 7.5 3.516.0 20.0 5.514.5 14.5 4.010.0 23.0 6.011.0 13.0 6.010.5 12.0 3.515.0 15.5 3.09.0 12.5 5.023.0 24.0 6.514.0 21.0 6.516.0 11.0 3.016.5 17.0 4.016.0 15.0 3.012.0 15.5 3.59.0 4.0 2.012.0 6.0 5.05.0 14.0 3.017.0 15.0 4.516.0 11.0 3.017.5

30、 18.0 3.011.5 15.0 3.04.0 3.0 2.017.5 15.0 4.59.5 11.5 2.526.0 38.0 4.015.0 13.0 4.519.0 12.0 3.0run;/*计算基本统计量*/proc univariate data=exersicel_7;var xl x2 x3;run;/*计算pearson相关矩阵R,speamian相关矩阵Q和显著性检验*/proc corr data=exersicel_7 pearson spearman cov;run;data sale;input y xl x2;cards;162 2742450120 180

31、3254223 3753802131 205283867 862347169 265378281 983008192 3302450116 195213755 532560252 4304020232 3724427144 2362660103 1572088212 3702605/*第一二问,回归模型求解,求最小二乘估计和误差方差的估计,方差分析*/proc reg data=sale;model y=xl x2;run;/*第三问,求95%置信区间*/data get_p;y=tinv(0.975J2);run;proc print data=get_p;run;/*第四问,检验x l和x

32、 2,对y的影响,和xlx2对y的影响*/data add_sale;set sale;sumX=xl*x2;run;proc reg data=add_sale;model y=xl x2 sumX;run;/*第六问,y的拟合值,残差和学生化残差*/data y_sale;set sale;y 1=3.45261+0.496*x 1 +0.0092*x2;run;proc print data=y_sale;var y 1;run;/*残差和学生化残差*/proc reg data二 sale;model y=x 1 x2/r;output out=a p=fittedy r=residu

33、als student=sresiduals;run;/*学生化误差的正态qq图*/proc capability data=a graphics noprint;qqplot sresiduals/nonnal(mu=est sigma=est);run;/*输出a数据集,包含残差和学生化残差*/proc print data=a;run;data a;set a;rank_num=_n_;run;/*各种残差图*/proc gplot data=a;plot residuals*fittedy residuals*xl residuals*x2 residuals*rank_num;sym

34、bol v=dot i=none;run;data excise2_5;input y x;cards;0.05 5.94210.15 5.46910.25 5.87240.35 5.18150.45 5.19550.55 5.24870.65 5.13560.75 5.22600.85 5.08130.95 5.22361.05 4.73491.15 4.59491.25 5.15431.35 5.28441.45 5.34481.55 5.14621.65 5.40911.75 5.65001.85 6.02561.95 5.5350run;/*回归分析,回归模型求解*/proc reg data=excise2_5;model y=x;output out=a p=fittedy r=residual;run;proc print data=a;run;proc gplot data=a;plot y*x residual*fittedy residuaPx;symbol v=dot i=none;run;

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁