第九章回归分析.pptx-淘文阁

资源描述

《第九章回归分析.pptx》由会员分享，可在线阅读，更多相关《第九章回归分析.pptx（126页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、1一.回归模型第一节一元线性回归分析回归模型建立的直观思想如果对于自变量 x 的一个观测值 xi,因变量y有一个相应的观察值yi与之对应,则称(xi,yi)组成一对观察值.现假定x与y有n对观察值(x1,y1),(x2,y2),(xn,yn),把这n个点(xi,yi)画在平面直角坐标系上,得到如图81所示的散点图.y=a+bxy 图81 观测值(xi,yi)散点图第1页/共126页2 从散点图可以看出,随着自变量x的增加,因变量y也呈现上升的趋势,图中的点大致分布在一条向右方倾斜的直线附近,因而可以用一条直线方程来近似的逼近即 yi=b b0+b b1xi+e ei i=1 ,2,n

2、其中e ei N(0,s s 2),e ei 是相互独立的随机变量序列且它们的方差相同(方差齐性),称为回归直线(方程).对于一元线性回归模型，我们要解决以下问题：(1)参数估计:给出参数b b0,b b1,s s 2 的估计值.(2)显著性检验:检验线性函数 yi=b b0+b b1xi 用来描述因变量 y 与自变量 x 的关系是否合适,包括回归模型的显著性检验和参数的显著性检验.(3)模型检查:检查对模型所做的假设是否成立,包括 e ei 是相互独立的随机变量序列的检查和方差齐性的检查.(4)预测或控制.第2页/共126页3对对b b0,b b1的估计实际上就是在平面直角坐标系中估计

3、一条的估计实际上就是在平面直角坐标系中估计一条直线直线二二回归模型建立的方法回归模型建立的方法最小二乘估计最小二乘估计使它尽可能地接近回归直线使它尽可能地接近回归直线直观的说来就是使理论值和观测值的所有偏差和最小直观的说来就是使理论值和观测值的所有偏差和最小.为了为了避免正负偏差项互相抵消避免正负偏差项互相抵消,因而要求所有偏差平方和最小因而要求所有偏差平方和最小,即求即求参数参数 b b0,b b1 ,使函数使函数达到最小达到最小.第3页/共126页4根据二元函数的极值理论,分别求关于两个变量解方程组得的一阶偏导数,并令它们等于零解联立方程组即可.将以上两式展开,得方程组:第4页/共

4、126页5称观测值与理论值的差称观测值与理论值的差为残差为残差.以上用数学方法以上用数学方法对参对参数数进行估计的方法进行估计的方法,称为最小二乘估计法称为最小二乘估计法.SAS SAS程序直接调用程序直接调用regreg过程过程.一般格式如下：一般格式如下：poc reg data=poc reg data=数据集名称；数据集名称；model model 因变量集因变量集=自变量集自变量集;(;(如如model y=x;)model y=x;)三三一元线性回归模型的检验一元线性回归模型的检验1 1方差分析与方差分析与F F检验检验1 1）统计假设）统计假设原假设原假设备择假设备择假

5、设2 2）平方和与自由度分解）平方和与自由度分解即总平方和分解为误差平方和与回归平方和即总平方和分解为误差平方和与回归平方和,同时总自由同时总自由度也度也分解为误差自由度加上回归自由度分解为误差自由度加上回归自由度,即即第5页/共126页63 3）F统计量统计量若若 ,则拒绝则拒绝接受接受说明用函数说明用函数来描述因变量来描述因变量 y与自变量与自变量 x 的关的关系是系是合适的合适的,即回归模型是显著性的。即回归模型是显著性的。4 4）方差分析表）方差分析表方差来源方差来源平方和平方和自由度自由度均方均方 F值值回归回归残差残差总计总计SSRSSESST 1n-2n-1MSR=SS

6、R/1MSE=SSE/n-2F=MSR/MSE2 2可决定系数可决定系数R2(判定系数）判定系数）作为一个相对指标作为一个相对指标,测度了拟合的回归直线所导致离差平方和占样本的总离差平测度了拟合的回归直线所导致离差平方和占样本的总离差平方和的百分比方和的百分比,因此它也是对回归方程拟合优度的一种测度因此它也是对回归方程拟合优度的一种测度.R2越接近于越接近于1,1,则说明则说明回归方程对样本点的拟合得越好回归方程对样本点的拟合得越好.第6页/共126页73t 检验 t 检验是对回归参数显著性的检验,可以证明以下两个结论:结论1：在零假设对于一元线性回归来说成立的条件下有:拒绝域为:结论2：在

7、零假设成立的条件下有:拒绝域为:的F检验值和t检验中的t值的概率值 p 相等.实际上,对于一元线性回归模型来说,上述两个检验是等价的,即都有相同的拒绝域.第7页/共126页81.1.残差图四一元线性回归模型的残差分析(回归诊断)称观测值与理论值的差为残差.而称为标准化残差.残差图以x为坐标横轴,残差e为坐标纵轴,由所有点(xi ,ei)构成.残差图可用于检验随机变量序列的独立性,正态性和方差整齐性.从理论上可以证明e1,e2,en相互独立且近似的服从N N(0,1).(0,1).故关于预测值残差图中的点应随机分布在-2-2到+2+2之间的带子形里,这样的残差图称为正常的残差图.另一种残差图

8、是用横轴表示因变量的预测值而用纵轴表示残差值ei,即点的坐标为(yi,ei).).第8页/共126页91正常的残差图2直线回归模型不合适3.方差齐性不成立4.误差项不独立图82为几种常见的残差图第9页/共126页102.方差齐性的诊断及修正方法对于一元线性回归来说,关于 x 的残差图和关于预测值的残差图提供了同样的信息.对于多元线性回归分析,由于有一个以上的自变量,所以一般采用关于预测值的残差图.误差方差非齐性时,残差图不正常.可通过对因变量作适当的变换,令z=f(y)使得关于因变量的回归分析中误差的方差接近于齐性.实用上常选用一些变换,变换后重新做回归及残差图,如残残差图有改善或已属正常

9、,则该变换是合适的.否则改变变换函数计算直到找到合适的变换为止,常用的方差稳定性变换有:第10页/共126页11 在许多回归分析中,所利用的数据是按时间顺序采集的,即时间序列数据,用yt表示y在时刻t的值,而y的值又常常依赖于y在以前时刻的值.此时,称数据存在自相关(序列相关),),从而违背了回归模型的假设,误差项已不再是独立的.检验方法为DurbinWatson统计量：3 3DurbinWatson 检验 DurbinWatson DurbinWatson统计量的取值介于0 0和4 4之间,一个粗略的判断是:若D值在2附近(1.6D2.4),),则没有充分的证据证明存在序列相关；若D2.4

10、,则存在负的自相关.具体可通过SAS程序来完成,只需在reg过程后增加选项DW即可，如：proc reg DW;第11页/共126页12五、一元线性回归模型的SAS实施一元线性回归模型的建立可通过国际通用软件SAS实施.具体可直接调用reg过程，一般格式如下：poc reg data=数据集名称；(data=数据集名称可以省略，此时所用的数据集为最近的数据集)model 因变量集=自变量集；(如model y=x;)六、应用实例例8.1 海南省国营大岭农场橡胶树大型系比二组无性系,1960年刺检干胶量(x:毫克)与1965年正式割胶产量(y:克)如下表82,求正式割胶量关于剌检干胶量的回归

11、方程.第12页/共126页13表82 正式割胶产量与刺检干胶量编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14xy77 64 62 72 71 83 79 94 104 96 61 90 81 1228.8 7.9 8.9 7.7 8.6 8.1 9.1 5.6 8.5 7.6 4.9 8.1 12.0 15.7编号15 16 17 18 19 20 21 22 23 24 25 26xy65 130 111 160 188 81 92 80 63 105 89 7311.9 11.1 6.5 15.3 17.7 5.9 10.6 8.3 6.0 8.5 10.1 3.5

12、1建立回归方程由所给的数据得于是得第13页/共126页14于是得回归方程为 2.回归方程显著性检验总平方和回归平方和剩余平方和方差分析结果列于表83.第14页/共126页15表83 回归方程的方差分析变异来源平方和(SS)自由度(df)均方(MS)F值回归剩余 1 24137.81138.90137.81 5.7923.81*总变异 25276.71SAS程序与输出结果 data han81；input x y；cards；77 8.8 64 7.9 62 8.9 72 7.7 71 8.6 83 8.1 79 9.1 97 5.6 104 8.5 96 7.6 61 4.9 90

13、 8.1 81 12.0 122 15.7 65 11.9 130 11.1 111 6.5 160 15.3 188 17.7 81 5.9 92 10.6 80 8.3 63 6.0 105 8.5 89 10.1 73 3.5;第15页/共126页16proc gplot；plot y*x=*；proc reg；model y=x/p clm cli;plot residual.*x=*；run；主要的输出结果:(1)因变量y关于变量x的散点图第16页/共126页17 由散点图可以看出,图中的点大致呈现直线上升的趋势,因而可以用线性模型来刻画因变量y与自变量x的关系.(2)模型拟合与检

14、验 Dependent Variable:y Analysis of Variance Sum of MeanSource DF Squares Square F Value Pr FModel 1 137.80902 137.80902 23.81|t|Intercept 1 2.00746 1.53037 1.31 0.2020 x 1 0.07709 0.01580 4.88 .0001输出结果的给出了F=23.81,Pr0,x0)4.S形曲线函数 y=1/(a+be-x)5.负指数函数 y=ae-b/x 先取对数,得 lny=lna+blnx ,作变换,令 lny=z,lnx=t,ln

15、a=k 则有 z=k+bt ,显然 z是t 的线性函数.作变换,令 1/y=z ,t=1/ex则有 z=a+bt ,显然z是t的线性函数.先取对数得 lny=lna-b/x令 lny=z,lna=k,-1/x=t 则有 z=k+bt ,显然 z是t的线性函数.第20页/共126页21 对回归方程选择一种合适的函数形式,必须对散点图进行认真的分析.有时,对同一种散点图所呈现的因变量与自变量的关系,可以选择不同的函数形式来描述回归方程,那么如何判断并比较不同回归方程的拟合优度呢?通常使用的比较准则.有下面两个:二.曲线回归的选择准则 1.1.相关指数 R 作为一个相对指标,测度了拟合的回归直线所导

16、致离差平方和占样本的总离差平方和的百分比,因此它也是对回归方程拟合优度的一种测度.R2越接近于1,1,则回归方程对样本点的拟合得越好.因此,对于用不同的曲线拟合的回归方程,通常选择R2较大的一个为好.第21页/共126页22 2.2.剩余标准差S 它反映了样本偏离回归曲线的平均大小,当然S越小越好.事实上,上述两个准则是一致的.R越大,则S越小,反之也然.例1 1 以下为一组观测值 1)1)绘制y对x的散点图 2)2)假定y与x的关系为(1)(1)双曲线1/y=a+b/x(2)(2)对数曲线函数y=a+blnx(3)负指数函数y=ae-b/x(4)(4)幂函数试作变量变换化非线性回归为线性回

17、归,并建立回归方程.x2345781011y106.42 108.20 109.58 109.50 110.00109.93 110.49 110.59x1415161819y110.60110.90 110.76110.00 111.20第22页/共126页23data han2;input x y;z1=1/y;t1=1/x;t2=log(x);z2=log(y);t3=-1/x;t4=sqrt(x);cards;2 106.42 3 108.20 4 109.58 5 109.50 7 110.00 8 109.93 10 110.49 11 110.59 14 110.60 15 11

18、0.90 16 110.76 18 110.00 19 111.20 ;proc gplot data=han2;plot y*x=*;proc reg data=han2;model z1=t1;proc reg data=han2;model y=t2;proc reg data=han2;model z2=t3;proc reg data=han2;model y=t4;run;第23页/共126页24因变量y y关于自变量x x的散点图:第24页/共126页25主要的输出结果主要的输出结果:模型模型1 1 双曲线函数双曲线函数作变换作变换 z1=1/y t1=1/xModel:MOD

19、EL1 Dependent Variable:Z1 Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 1.3335153E-7 1.3335153E-7 158.655 0.0001 Error 11 9.2456216E-9 8.405111E-10C Total 12 1.4259715E-7 Root MSE 0.00003 R-square 0.9352 Dep Mean 0.00910 Adj R-sq 0.9293 C.V.0.31846 Parameter Estimat

20、es Parameter Standard T for H0:Variable DF Estimate Error Parameter=0 Prob|T|INTERCEP 1 0.008979 0.00001275 704.256 0.0001 T1 1 0.000790 0.00006272 12.596 0.0001第25页/共126页26 模型模型2 2 对数曲线函数对数曲线函数说明说明:已作变换已作变换 t2=lnx Model:MODEL1Dependent Variable:Y Analysis of Variance Sum of Mean Source DF Squares

21、Square F Value ProbF Model 1 16.03862 16.03862 44.470 0.0001 Error 11 3.96727 0.36066 C Total 12 20.00589 Root MSE 0.60055 R-square 0.8017 Dep Mean 109.85923 Adj R-sq 0.7837 C.V.0.54665 Parameter Estimates Parameter Standard T for H0:Variable DF Estimate Error Parameter=0 Prob|T|INTERCEP 1 106.49708

22、7 0.53097742 200.568 0.0001 T2 1 1.591238 0.23861707 6.669 0.0001第26页/共126页27 模型模型3 3 负指数函数负指数函数已作变换已作变换 z2=lny t3=-1/x Model:MODEL1 Dependent Variable:Z2 Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 0.00158 0.00158 158.189 0.0001 Error 11 0.000109794 9.9812743E-6

23、 C Total 12 0.00169 Root MSE 0.00316 R-square 0.9350 Dep Mean 4.69914 Adj R-sq 0.9291 C.V.0.06723 Parameter Estimates Parameter Standard T for H0:Variable DF Estimate Error Parameter=0 Prob|T|INTERCEP 1 4.712697 0.00138939 3391.917 0.0001 T3 1 0.085962 0.00683472 12.577 0.0001 第27页/共126页28 模型模型4 4 幂

24、函数幂函数Model:MODEL1Dependent Variable:Y Analysis of Variance Sum of MeanSource DF Squares Square F Value ProbFModel 1 13.90887 13.90887 25.094 0.0004Error 11 6.09702 0.55427C Total 12 20.00589 Root MSE 0.74450 R-square 0.6952 Dep Mean 109.85923 Adj R-sq 0.6675 C.V.0.67768 Parameter Estimates Parameter

25、 Standard T for H0:Variable DF Estimate Error Parameter=0 Prob|T|INTERCEP 1 106.537333 0.69454059 153.393 0.0001 T4 1 1.091857 0.21796278 5.009 0.0004 第28页/共126页29 从以上的输出结果可得模型1和模型3的R2较大,分别为0.9352和0.9350,因此选择模型1和模型3较为合适.模型 1:z1=0.008979+0.00079t1,即 1/y=0.008979+0.00079/x模型 3:z2=4.712697+0.085962t3 ,

26、即 lny=4.712697-1/x于是【返回】第29页/共126页30第三节多元线性回归分析 1 1回归模型回归模型设影响因变量设影响因变量y的自变量有的自变量有p个个,并分别记为并分别记为x1,x2,xp,所谓所谓多元线性回归模型是指这些自变量对因变量的影响是线性的，多元线性回归模型是指这些自变量对因变量的影响是线性的，即即其中其中称为称为p个自变量个自变量 x1,x2,xp,的线性回归函数的线性回归函数.记记n n组样本分别是组样本分别是那么那么,由上式可得到由上式可得到其中其中这样一来这样一来,多元线性回归分析的主要问题就是基于模型对未多元线性回归分析的主要问题就是基于模

27、型对未知知参数参数b b0,b b1,b bp 和和s s2进行估计、检验并利用得到的回归模进行估计、检验并利用得到的回归模型型进行预测进行预测.一.多元线性回归模型第30页/共126页31第31页/共126页32 上述回归模型的矩阵表示上述回归模型的矩阵表示Y=Xb b+e e,其中其中Y=(y1,y2,yn)T,是是n阶单位矩阵阶单位矩阵.称矩阵称矩阵为资料矩阵或设计矩为资料矩阵或设计矩阵阵.利用最小二乘法可估计回归系数利用最小二乘法可估计回归系数,即求解一组参数即求解一组参数使得如下定义的平方和使得如下定义的平方和Q达到最小：达到最小：由多元函数的极值理论由多元函数的极值理论,分别求分

28、别求Q关于各个参数的偏导数关于各个参数的偏导数,并并令它令它们等于零们等于零,于是得到如下的方程组于是得到如下的方程组,解方程组便得到所求的参解方程组便得到所求的参数数.2.2.回归模型的矩阵表示回归模型的矩阵表示二二.回归系数的最小二乘估计回归系数的最小二乘估计第32页/共126页33如果如果可逆可逆,则方程组的则方程组的(参数的参数的)解为解为三三.回归方程的显著性检验回归方程的显著性检验 1 1统计假设统计假设由最小二乘准则求回归系数的计算过程中由最小二乘准则求回归系数的计算过程中,并不一定知道因变量并不一定知道因变量与自变量是否存在线性关系与自变量是否存在线性关系.如果不存在线性关

29、系如果不存在线性关系,那么得到的回那么得到的回归方程是毫无意义的归方程是毫无意义的.在一元回归分析中在一元回归分析中,若若 b b1=0 则平均地说因则平均地说因变量变量y y并没有随自变量并没有随自变量x x的变化而线性地变化的变化而线性地变化.因此对回归方程的因此对回归方程的显著性检验就是检验以下的假设是否成立：显著性检验就是检验以下的假设是否成立：第33页/共126页342平方和与自由度分解对统计假设所作的检验方法仍采用方差分析法.从分析引起 yi(i=1,2,n)变化的总方差的原因入手.自由度为 dfT=dfE+dfR,其中dfT=n-1,dfR=p,dfE=(n-1)-p 3.F统

30、计量拒绝域为变异来源平方和自由度均方F值回归SSRpMSR=SSR/pF=MSR/MSE残差SSEn-p-1MSE=SSE/n-p-1总变异SSTn-14.方差分析表第34页/共126页351统计假设对回归方程的显著性检验,若否定H0,仅表示不全为0但并不排除有某个为0,若 ,说明自变量 xi 对因变量y的影响不明显,应从回归模型中删除.因此对回归系数是否为0进行逐个检验是很必要的.四.回归系数的显著性检验即检验2t 统计量拒绝域为第35页/共126页36六、应用实例例8.3 肖陈保等同志应用三元线性回归,由橡胶树白粉病的始病期(x1)、嫩叶期(x2)、发病期雨天数(x3)预测最终病

31、情指数y,18个观测值如下表86.五.多元回归分析的SAS书写格式:proc reg;model 因变量串=自变量串/选项串;data 数据集名称；input x1 x2xp y；cards;；proc reg;model y=x1 x2xp/选项；run；例如第36页/共126页37表86 橡胶树白粉病最终病情指数级值表观测值始病期(x1)嫩叶期(x2)发病期雨天数(x3)最终病情指数(y)121222222232233411115111163223733338111191111第37页/共126页38101111113333121211132232142111151322163233172

32、332181233SAS编程如下:第38页/共126页39data han83；input x1 x2 x3 y；cards；2 1 2 2 2 2 2 2 2 2 3 3 1 1 1 1 1 1 1 1 3 2 2 3 3 3 3 3 1 1 1 1 1 1 1 1 1 1 1 1 3 3 3 3 1 2 1 1 2 2 3 2 2 1 1 1 1 3 2 2 3 2 3 3 2 3 3 2 1 2 3 3 ；proc reg；model y=x1 x2 x3/p cli clm；plot residual.*y=*；(画写残差分析图)run；第39页/共126页401回归方程显著性检验 D

33、ependent Variable:y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 10.85063 3.61688 24.18 F|t|Intercept 1 0.03660 0.26297 0.14 0.8913 x1 1 0.29330 0.15132 1.94 0.0730 x2 1 0.01340 0.17822 0.08 0.9411 x3 1 0.68093 0.17494 3.89 0.0016 回归方程为从输出结果可见,变量x1,x2 对响应变量 y 的影响不显

34、著,而x3对y的影响是显著的.第41页/共126页42残差图残差图【返回】第42页/共126页43第四节逐步回归分析在多元线性回归分析中,影响因变量的自变量有很多,例如甘蔗的糖份与降雨量、相对湿度以及最低温度有关;某作物的产量与单位面积穗数、每穗粒数、千粒重、播种期、密度、施肥量、温度、雨量和光照等因素有关.人们希望从诸多自变量中挑选出有显著影响的自变量来建立回归方程,这就涉及到自变量的选择问题.在回归方程建立的过程中，若漏掉对因变量影响显著的自变量,那么建立的回归方程用于实际预测时会产生较大的偏差.同样,若建立的回归方程中包括了对因变量影响不显著的自变量,那么这样的回归方程也会影响到预测

35、的精度.由此可见,选择适当的自变量用于建立最优的回归方程是十分重要的.第43页/共126页44 一一.自变量的选择问题自变量的选择问题在实际问题中在实际问题中,影响因变量的因素影响因变量的因素(自变量自变量)可能很多可能很多,人人们希望从中挑选出影响显著的自变量来建立回归关系式们希望从中挑选出影响显著的自变量来建立回归关系式,这这就就涉及到自变量的选择问题涉及到自变量的选择问题.在回归方程中若漏掉对因变量影响显著的自变量在回归方程中若漏掉对因变量影响显著的自变量,那么建那么建立立的回归式用于预测时会产生大的偏差的回归式用于预测时会产生大的偏差,但回归式中若包括的但回归式中若包括的变变量太多量

36、太多,且其中有些对因变量的影响不大且其中有些对因变量的影响不大,显然这样的回归式显然这样的回归式不不仅使用不方便仅使用不方便.而且反而影响预测的精度而且反而影响预测的精度.因此适当选择变量因此适当选择变量用用于建立一个于建立一个“最优最优”的回归方程是一个十分重要的问题的回归方程是一个十分重要的问题.什么是什么是“最优最优”回归方程回归方程?直观考虑应该是方程中包括的直观考虑应该是方程中包括的所有变所有变量对因变量的影响都是显著的量对因变量的影响都是显著的;而不包括在方程中的变量对而不包括在方程中的变量对因变因变量的影响是不显著的量的影响是不显著的(可忽略可忽略).).也就是从自变量集也就是从

37、自变量集中选出适当的子集中选出适当的子集使得建立因变量使得建立因变量 y 与与子集的回归方程就是子集的回归方程就是“最优最优”的回归方程的回归方程.这就是回归变量这就是回归变量的选择的选择问题问题.第44页/共126页45 回归变量的选择问题在实用上和理论上都是十分重要的回归变量的选择问题在实用上和理论上都是十分重要的.这这个问题最大的困难就是如何比较不同选择个问题最大的困难就是如何比较不同选择(即不同子集即不同子集)的优的优劣劣,即最优选择的标准即最优选择的标准.从不同的角度出发从不同的角度出发,可以有不同的比较准可以有不同的比较准则则,在不同的准则下在不同的准则下,“最优最优”回归方程也

38、可能不同。回归方程也可能不同。比较不同子集优劣的标准常见的有以下几种比较不同子集优劣的标准常见的有以下几种(记记为观测个为观测个数数,为子集模型中自变量的个数为子集模型中自变量的个数)：(1)(1)均方误差均方误差S2最小最小选择子集选择子集 ,使均方差使均方差达最小达最小,其中其中SSE(A)是是y与回归模型的误差平方和与回归模型的误差平方和,l是子集是子集中自中自变量的个数变量的个数.(2)(2)预测均方误差最小预测均方误差最小选择子集选择子集使得使得达最小达最小.二二、最优选择的标准最优选择的标准第45页/共126页46(3)(3)Cp 统计量最小准则统计量最小准则选择子集

39、选择子集A,使得使得达最达最小小,其其中中SSE是包括所有是包括所有p个自变量的回归模型中误差平方和。个自变量的回归模型中误差平方和。(4)AIC或或BIC准则准则选择子集选择子集A,使得使得AIC(A)=lnSSE(A)+2l lnn/n 或或 BIC(A)=lnSSE(A)+l lnn/n 达最小达最小.(5)(5)修正的修正的R2准则准则选择子集选择子集A,使得修正使得修正 ,(,(当模型含有当模型含有截矩截矩项时项时 i=1,否则否则 i=0)达最大达最大.2.选择选择“最优最优”子集回归的方法子集回归的方法SAS软件的软件的REG过程中过程中,选择变量子集的方法有选择变量子集

40、的方法有8种种,可分为可分为三类三类:(1)(1)选择选择“最优最优”子集的简便方法子集的简便方法:包括逐步筛选包括逐步筛选(STEPWISE),),向前引入法向前引入法(FORWARD)和向后剔除法和向后剔除法(BACKWARD)(2)(2)计算量最大的全子集法计算量最大的全子集法:通过计算所有可能回归子集后通过计算所有可能回归子集后,按最按最优选择的标准选择最优回归方程优选择的标准选择最优回归方程.包括选择法包括选择法R2 (RSQUARE),第46页/共126页47 选择法选择法Cp(CP)和修正选择法和修正选择法R2(ADJRSQ).(ADJRSQ).(3)(3)计算量适中的选择法：

41、没有计算所有可能回归子集计算量适中的选择法：没有计算所有可能回归子集,但比但比较较的子集个数多于的子集个数多于(1)(1)中提到的逐步筛选等一些选择法中提到的逐步筛选等一些选择法,如如最小最小 R2增量法增量法(MINR)(MINR)和最大和最大R2增量法增量法(MAXR).(MAXR).逐步回归分析的逐步回归分析的SASSAS书写格式书写格式:proc reg proc reg;model model 因变量串因变量串=自变量串自变量串/selection=/selection=最优子集选最优子集选项串项串;如如:proc reg:proc reg;model y=x1-x8/select

42、ion=stepwise(forward model y=x1-x8/selection=stepwise(forward backward)backward);又如:proc reg proc reg;model y=x1 x2 x3 x4/selection=rsquare model y=x1 x2 x3 x4/selection=rsquare best=2 cp aic rmse adjrsq best=2 cp aic rmse adjrsq;第47页/共126页48 例8.4 由于环境作用对光合速率的影响很大,要得到能反映环境对光合作用影响的数据,必须在不同的天气下测定光合作用各

43、种指标.下表87中的数据使用Li6400光合测量仪测定,其中因变量y 光合速率;x1气孔导度;x2胞间二氧化碳浓度;x3蒸腾速率;x4叶片水汽压亏损;x5叶片的温度;x6相对湿度;试对数据作回归分析.表表87 环境对光合作用影响数据表环境对光合作用影响数据表观测号观测号yx1x2x3x4x5x6123456789108.378.198.038.328.388.167.447.286.507.850.09960.09870.10300.10400.09900.10100.09790.09650.08930.09882042022081991922002082082052032.802.793.1

44、13.443.483.783.883.903.853.452.782.792.993.273.453.653.883.954.203.4434.8135.0635.8136.7637.4637.8738.3938.7239.6146.681063106911141162121912311288130012951193第48页/共126页49SAS程序及主要输出结果 data han84；input y x1 x2 x3 x4 x5 x6；cards；8.37 0.0996 204 2.80 2.78 34.81 1063 8.19 0.0987 202 2.79 2.79 35.06 1069

45、 8.03 0.1030 208 3.11 2.99 35.81 1114 8.32 0.1040 199 3.44 3.27 36.76 1162 8.38 0.0990 192 3.48 3.45 37.46 1219 8.16 0.1010 200 3.78 3.65 37.87 1231 7.44 0.0979 208 3.88 3.88 38.39 1288 7.28 0.0965 208 3.9 3.95 38.72 1300 6.50 0.0893 205 3.85 4.20 39.61 1295 7.85 0.0988 203 3.45 3.44 46.68 1193 ；pro

46、c reg；model y=x1 x2 x3 x4 x5 x6/selection=stepwise；model y=x1 x2 x3 x4 x5 x6/selection=rsquare best=2 cp aic rmse adjrsq；run；第49页/共126页50(1)逐步回归分析结果Model:MODEL1Dependent Variable:y Stepwise Selection:Step 1Variable x1 Entered:R-Square=0.7297 and C(p)=73.2633 Analysis of Variance Sum of MeanSource DF

47、 Squares Square F Value Pr FModel 1 2.43102 2.43102 21.59 0.0017Error 8 0.90074 0.11259Corrected total 9 3.33176 Parameter Standard Variable Estimate Error Type II SS F Value Pr F Intercept -4.87018 2.73998 0.35572 3.16 0.1134 x1 128.79309 27.71741 2.43102 21.59 0.0017 第50页/共126页51 Stepwise Selectio

48、n:Step 4Variable x3 Entered:R-Square=0.9894 and C(p)=3.1073 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 4 3.29645 0.82411 116.69 F Intercept 29.71125 5.11187 0.23857 33.78 0.0021 x1 -119.93351 51.21109 0.03873 5.48 0.0662 x2 -0.03769 0.00594 0.28392 40.20 0.0014 x3 5

49、.20692 1.33904 0.10679 15.12 0.0115 x4 -5.90674 1.39021 0.12749 18.05 0.0081第51页/共126页52 Summary of Stepwise Selection Variable Variable Number Partial ModelStep Entered Removed Vars In R-Square R-Square C(p)F Value Pr F1 x1 1 0.7297 0.7297 73.2633 21.59 0.00172 x2 2 0.1305 0.8601 37.0035 6.53 0.037

50、83 x4 3 0.0972 0.9574 10.5042 13.68 0.01014 x3 4 0.0321 0.9894 3.1073 15.12 0.0115(2)最优子集准则用全子集法计算所有可能回归,从中选出最优的回归方程.在以上的SAS程序中,model语句斜杠后的选项指出用R2选择法,要求对每种变量个数输出二个最佳的回归子集,并输出均方根误差、CP、AIC和修正R2统计量,产生的结果如下:由以下输出结果可得,最佳的回归自变量子集为x1,x2,x3,x4.即用这四个自变量建立的关于y的回归方程为最优的回归方程.第52页/共126页53 R-Square Selection Met

展开阅读全文