《回归分析实验课实验8.doc》由会员分享,可在线阅读,更多相关《回归分析实验课实验8.doc(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、.-实验报告八 实验课程: 回归分析实验课 专业: 统计学 年级: 姓名: 学号: 指导教师: 完成时间: 得分: 教师评语:学生收获与思考:实验八含定性变量的回归模型(4学时)一、实验目的 1掌握含定性变量的回归模型的建模步骤3运用SAS计算含定性变量的各种回归模型的各参数估计及相关检验统计量二、实验理论与方法在实际问题的研究中,经常会遇到一些非数量型的变量。如品质变量;性别;战争与和平。我们把这些品质变量也称为定性变量,在建立回归模型的时候我们需要考虑到这些定性变量。定性变量的回归模型分为自变量含定性变量的回归模型和因变量是定性变量的回归模型。自变量含有定性变量的时候,我们一般引进虚拟变量
2、,将这些定性变量数量化。例如研究粮食产量问题,y为粮食产量,x为施肥量,另外考虑气候问题,分为正常年份和干旱年份两种情况,这个问题数量化方法就是引入一个0-1型变量D,令Di=1表示正常年份,Di=0表示干旱年份,粮食产量的回归模型为:yi=0+1xi+2Di+i。因变量是定性变量时,一般用logistic回归模型(分组数据的logistic回归模型,未分组数据的logistic回归模型,多类别的logistic回归模型),probit回归模型等。三. 实验内容1用DATA步建立一个永久SAS数据集,数据集名为xt103,数据见表21;对数据集xt103,建立y对公司规模和公司类型的回归,并对
3、所得到的模型进行解释。2研制一种新型玻璃,对其做耐冲实验。用一个小球从不同的高度h对玻璃做自由落体撞击,玻璃破碎记为y=1,玻璃未破碎记y=0.数据见表22.是对表中数据建立玻璃耐冲性对高度h的logistic回归,并解释回归方程的含义。3某学校对本科毕业生的去向做了一个调查,分析影响毕业去向的相关因素,结果见表23.其中毕业去向“1”=工作,“2”=读研,“3”=出国留学。性别“1”=男生,“0”=女生。用多类别的Logisitic回归分析影响毕业去向的因素。四实验仪器计算机和SAS软件5. 实验步骤和结果分析1用DATA步建立一个永久SAS数据集,数据集名为xt103,数据见表21;对数据
4、集xt103,建立y对公司规模和公司类型的回归,并对所得到的模型进行解释。R检验中R方为0.8951,可以认为回归拟合效果较好。回归方程通过F检验,说明模型是显著成立的。由参数估计表,可以看出,全部变量都是显著的,回归方程为:其中,x2是虚拟变量,当公司类型为“互助”时,x2为0,为“股份”时,x2为1。由方程可知,x2为1,即股份制公司的保险革新措施速度y会更大。股份制公司采取保险革新措施的积极性比互助型公司高,股份制公司建立在共同承担风险上,更愿意革新。公司规模越大,采取保险革新措施的倾向越大:大规模公司保险制度的更新对公司的影响程度比小规模公司大。SAS程序:data xt103;inp
5、ut y x1 x2 ;/*引入虚拟变量,将公司类型的互助设为0,股份设为1*/cards;171510269202117503031022104002770122100191200429001623802816411527211129513868131851212241201661133051301241142461;run;proc reg data=xt103;model y=x1 x2;run;2 研制一种新型玻璃,对其做耐冲实验。用一个小球从不同的高度h对玻璃做自由落体撞击,玻璃破碎记为y=1,玻璃未破碎记y=0.数据见表22.是对表中数据建立玻璃耐冲性对高度h的logistic回归
6、,并解释回归方程的含义。模型信息:模型解出的是y=0的概率。由三个检验中,统计量的P值都小于0.05,可以认为模型是显著的。由Wald检验的显著性概率及其P值,可以看出,h变量对方程的影响是显著的。由极大似然估计,各个参数系数也通过检验。因此模型有效。二元logit模型为模型意义为,小球掉落高度为h,则玻璃未破碎的概率为p,而y=0表示玻璃未破碎。也就是说,该种新型的玻璃,用小球对其撞击,当小球的掉落高度为h时,玻璃未破碎的概率就是,那么,玻璃会破碎的概率就为1-p(y=0),这也可以看成是一种比例,就是大量实验中,同个高度h,玻璃会被击破的比例。SAS程序:data wjz;input h
7、y ;/*引入虚拟变量,将公司类型的互助设为0,股份设为1*/cards;1.5001.5201.5401.5601.5811.6001.6201.6401.6601.6811.7001.7201.7401.7611.7801.8011.8201.8401.8611.8811.9001.9211.9401.9611.9812.001;run;proc logistic data=wjz;model y=h;run;proc logistic data=wjz;class h;model y=h/link=glogit aggregate scale=none;run;3 某学校对本科毕业生的去
8、向做了一个调查,分析影响毕业去向的相关因素,结果见表23.其中毕业去向“1”=工作,“2”=读研,“3”=出国留学。性别“1”=男生,“0”=女生。用多类别的Logisitic回归分析影响毕业去向的因素。专业课x1英语x2性别x3月生活费x4毕业去向y两个统计量的P值均大于0.05,说明模型拟合的较好。检验全局零假设: BETA=0 无效假设检验结果(似然比,评分)的结果P值均小于0.01,具有显著统计学意义。三个变量中,有两个是不显著的变量,x3,x2,剔除x3:两个统计量的P值均大于0.05,说明模型拟合的较好。检验全局零假设: BETA=0 无效假设检验结果(似然比,评分,wald)的结
9、果P值均小于0.01,具有显著统计学意义。三个变量都是显著的。以x4=“1”,即参加工作,为参照。由模型可以看出:从参数估计表中,与参加工作的同学相比,读研的(y=2)的同学相比,读研的同学其专业课成绩更好(x1的P值=0.003),而外语成绩(x2的p值=0.356)和经济状况(x4的P值=0.184)没有显著差异;出国留学的(y=3)学生其专业课成绩和参加工作的没有显著差异,外语成绩和经济状况则更好。Sas程序:data a;input x1 x2 x3 x4 y;cards;9565.0160026362.0085018253.0070026088.0085037265.01750185
10、85.00100039595.00120029292.0195026363.0085017875.0190019078.0050018283.0175028065.0185038375.0060026090.0065037590.0180026383.0170018575.0075027386.0095028666.01150039363.00130027372.0085018660.0195027663.00110019686.0075027175.01100016372.0185026088.0065016795.0150018693.0055016376.0065018686.00750
11、27685.0165018292.0195037360.0080018285.0175027575.0075017263.0165018188.0085039296.019502;run;proc print;run;proc logistic;class x3;model y(ref=3)=x1 x2 x3 x4/link=glogit aggregate scale=none ;run;proc logistic;class x3;model y(ref=3)=x1 x2 x4/link=glogit aggregate scale=none ;run;proc logistic;clas
12、s x3;model y(ref=1)=x1 x2 x4/link=glogit aggregate scale=none ;run;六收获与思考七. 思考题 当自变量是定性变量的时候,我们需要引进虚拟变量进行数量化,当定性变量有n个水平的时候,我们该引进多少的虚拟变量,否则会怎样?不妨试试在sas中试试会出现什么问题。答:当定性变量有n个水平时应该引进n-1个虚拟变量。否则最后一个虚拟变量无法用最小二乘估计计算出来。例:X1-X3为虚拟变量。Data a;input x1 x2 x3 x y;cards;1 0 0 1.26 75 1 0 0 1.35 77 1 0 0 1.40 78 1
13、0 0 1.58 820 1 0 1.71 65 0 1 0 1.76 66 0 1 0 1.80 68 0 1 0 1.85 700 0 1 1.22 68 0 0 1 1.35 69 0 0 1 1.46 70 0 0 1 1.44 72;proc reg data=a;model y=x1-x3 x;run;X3没有参数估计结果。因为x1 x2 x3出现完全共线性,x1 x2均为0时即代表了x3为1.表21iyx1公司类型117151互助22692互助321175互助43031互助522104互助60277互助712210互助819120互助94290互助1016238互助1128164
14、股份1215272股份1311295股份143868股份153185股份1621224股份1720166股份1813305股份1930124股份2014246股份表22序号h(m)y序号h(m)y11.500141.76121.520151.78031.540161.80141.560171.82051.581181.84061.600191.86171.620201.88181.640211.90091.660221.921101.681231.940111.700241.961121.720251.981131.740262.001表23序号专业课x1英语x2性别x3月生活费x4毕业去向y
15、19565.01600226362.00850138253.00700246088.00850357265.01750168585.001000379595.001200289292.01950296363.008501107875.019001119078.005001128283.017502138065.018503148375.006002156090.006503167590.018002176383.017001188575.007502197386.009502208666.0115003219363.0013002227372.008501238660.019502247663.0011001259686.007502267175.0110001276372.018502286088.006501296795.015001308693.005501316376.006501328686.007502337685.016501348292.019503357360.008001368285.017502377575.007501387263.016501398188.008503409296.019502