《第九章-----回归分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《第九章-----回归分析ppt课件.ppt(127页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1第八章第八章 回归分析回归分析第一节第一节 一元线性回归分析一元线性回归分析第二节第二节 可线性化的一元非线性回归问题可线性化的一元非线性回归问题第三节第三节 多元线性回归分析多元线性回归分析第四节第四节 逐步回归分析逐步回归分析第五节第五节 处理多元线性回归中自变量共线性的几种方法处理多元线性回归中自变量共线性的几种方法第七节第七节 含有定性变量的回归分析含有定性变量的回归分析第八节第八节 通径分析通径分析第六节第六节 多元非线性回归分析多元非线性回归分析2 回归分析(regression analysis)是指由自变量的变异来估计因变量的变异问题,具体可通过建立回归方程来实现. 在热带作
2、物栽培和加工试验以及作物病虫害预测预报的研究中, 回归分析有着极其广泛的应用.如在橡胶树产量研究中, 应用回归分析可由蓬距、幼苗期刺检干胶量、叶脉角度等估测产胶量;在橡胶树白粉病研究中,用越冬菌量、温度、湿度及橡胶物候等因子可预测白粉病的流行强度等等. 按自变量个数的多少可将回归分析分为一元回归分析和多元回归分析.只考虑一个自变量的回归问题称为一元回归分析,含有两个或两个以上自变量的回归问题称为多元回归分析.以自变量和因变量之间内在联系特征的不同,又可将回归问题分为线性回归和非线性回归分析. 本章着重介绍应用国际通用统计软件SAS进行线性和非线性回归分析的方法3一一. . 回归模型回归模型 第
3、一节第一节 一元线性回归分析一元线性回归分析回归模型建立的直观思想回归模型建立的直观思想 如果对于自变量 x 的一个观测值 xi ,因变量y有一个相应的观察值yi与之对应,则称 (xi , yi)组成一对观察值. 现假定x与y有n对观察值(x1, y1), (x2 , y2) , (xn , yn),把这n个点(xi , yi) 画在平面直角坐标系上,得到如图81所示的散点图. y=a+bxyx 图81 观测值 (xi ,yi)散点图 4 从散点图可以看出从散点图可以看出,随着自变量随着自变量x的增加的增加,因变量因变量y也呈现上也呈现上升的趋势升的趋势,图中的点大致分布在一条向右方倾斜的直线
4、附近图中的点大致分布在一条向右方倾斜的直线附近,因因而可以用一条直线方程来近似的逼近而可以用一条直线方程来近似的逼近 即即 yi=b b0+b b1xi+e ei i=1 , 2, , n 其中其中e ei N(0 ,s s 2), e ei 是相互独立的随机变量序列且它们的方差是相互独立的随机变量序列且它们的方差相同相同(方差齐性方差齐性),称为回归直线称为回归直线(方程方程).对于一元线性回归模型,我们要解决以下问题:对于一元线性回归模型,我们要解决以下问题:(1)参数估计参数估计:给出参数给出参数b b0 , b b1 , s s 2 的估计值的估计值.(2)显著性检验显著性检验:检验线
5、性函数检验线性函数 yi=b b0+b b1xi 用来描述因变量用来描述因变量 y 与自变量与自变量 x 的关系是否合适的关系是否合适,包括回归模型的显著性检验和包括回归模型的显著性检验和 参数的显著性检验参数的显著性检验.(3)模型检查模型检查:检查对模型所做的假设是否成立检查对模型所做的假设是否成立,包括包括 e ei 是相互独是相互独 立的随机变量序列的检查和方差齐性的检查立的随机变量序列的检查和方差齐性的检查.(4)预测或控制预测或控制.5对对b b0 , b b1的估计实际上就是在平面直角坐标系中估计一条直线的估计实际上就是在平面直角坐标系中估计一条直线 xy10bbxy10bbni
6、niiiixyeQ11210210)(),(bbbb二二 回归模型建立的方法回归模型建立的方法最小二乘估计最小二乘估计 使它尽可能地接近回归直线使它尽可能地接近回归直线 直观的说来就是使理论值和观测值的所有偏差和最小直观的说来就是使理论值和观测值的所有偏差和最小.为了为了避免正负偏差项互相抵消避免正负偏差项互相抵消,因而要求所有偏差平方和最小因而要求所有偏差平方和最小,即求即求参数参数 b b0 , b b1 , 使函数使函数达到最小达到最小. .6根据二元函数的极值理论,分别求关于两个变量10,bbniniiiixyeQ11210210)(),(bbbb011001100,1,0bbbbbb
7、bbbbQQ解方程组得的一阶偏导数,并令它们等于零解联立方程组即可.将以上两式展开,得方程组:niiiiniiixxyxy1101100)(0)(bbbbxxyxLLxy110bbb7称观测值与理论值的差称观测值与理论值的差 为残差为残差. .以上用数学方法对参以上用数学方法对参数数 进行估计的方法进行估计的方法, ,称为最小二乘估计法称为最小二乘估计法. . SAS SAS程序直接调用程序直接调用regreg过程过程. .一般格式如下:一般格式如下: poc regpoc reg data= data=数据集名称;数据集名称; model model 因变量集因变量集= =自变量集自变量集;
8、 (; (如如model y=x;)model y=x;)三三 一元线性回归模型的检验一元线性回归模型的检验1 1方差分析与方差分析与F F检验检验1 1)统计假设)统计假设 原假设原假设 备择假设备择假设2 2)平方和与自由度分解)平方和与自由度分解 即总平方和分解为误差平方和与回归平方和即总平方和分解为误差平方和与回归平方和, ,同时总自由度也同时总自由度也分解为误差自由度加上回归自由度分解为误差自由度加上回归自由度, ,即即 niiniixxxnxxxL12212)(niiiiniiyxyxnyxyyxxL11)( )(iiiyy10,bb0:11bH; 0:10bHSSRSSEyyyy
9、yySSTniiniiinii121212)()()(RETfdfdfd83 3)F统计量统计量若若 , ,则拒绝则拒绝 接受接受 说明用函数说明用函数 来描述因变量来描述因变量 y与自变量与自变量 x 的关系是的关系是合适的合适的, ,即回归模型是显著性的。即回归模型是显著性的。4 4)方差分析表)方差分析表21nSSESSRdfSSEdfSSRFER)2, 1 (nFF0:11bH;0:10bHiixy10bb方差来源方差来源平方和平方和自由度自由度均方均方 F值值回归回归残差残差总计总计SSRSSESST 1n- -2n- -1MSR= SSR/ 1MSE= SSE/n- -2F=MSR
10、/MSESSTSSESSTSSRR122 2可决定系数可决定系数R2( (判定系数)判定系数) 作为一个相对指标作为一个相对指标, ,测度了拟合的回归直线所导致离差平方测度了拟合的回归直线所导致离差平方和占样本的总离差平方和的百分比和占样本的总离差平方和的百分比, ,因此它也是对回归方程拟因此它也是对回归方程拟合优度的一种测度合优度的一种测度. .R2越接近于越接近于1,1,则说明回归方程对样本点的则说明回归方程对样本点的拟合得越好拟合得越好. .93t 检验检验 0:10bH)2(111nttbsb) 1(2/1ntt0:00bH)2(000nttbsb) 1(2/0ntt0:10bHt 检
11、验是对回归参数显著性的检验检验是对回归参数显著性的检验,可以证明以下两个结论可以证明以下两个结论:结论结论1:在零假设:在零假设 对于一元线性回归来说对于一元线性回归来说成立的条件下有成立的条件下有: 拒绝域为拒绝域为:结论结论2:在零假设:在零假设成立的条件下有成立的条件下有:拒绝域为拒绝域为: 的的F检验值和检验值和t检验中的检验中的t值的概率值值的概率值 p 相等相等.实际上实际上,对于一元线性回归模型来说对于一元线性回归模型来说,上述上述两个检验是等价的两个检验是等价的,即都有相同的拒绝域即都有相同的拒绝域. 101.1.残差图残差图四四 一元线性回归模型的残差分析一元线性回归模型的残
12、差分析( (回归诊断回归诊断) ) 称观测值与理论值的差称观测值与理论值的差为残差为残差. .而称而称iiiyy)(iiiDe为标准化残差为标准化残差. .残差图以残差图以x为坐标横轴为坐标横轴, ,残差残差e为坐标纵轴为坐标纵轴, ,由所有点由所有点( (xi , ei) )构成构成. . 残差图可用于检验随机变量序列残差图可用于检验随机变量序列 的独立性的独立性, ,正态性和方差整正态性和方差整齐性齐性. .从理论上可以证明从理论上可以证明e1,e2, en相互独立且近似的服从相互独立且近似的服从N N(0,1).(0,1).故关于预测值残差图中的点应随机分布在故关于预测值残差图中的点应随
13、机分布在-2-2到到+2+2之间的带子形之间的带子形里里, ,这样的残差图称为正常的残差图这样的残差图称为正常的残差图. .ie另一种残差图是用横轴表示因变量的预测值而用纵轴表示残差另一种残差图是用横轴表示因变量的预测值而用纵轴表示残差值值ei, ,即点的坐标为即点的坐标为( (yi,ei).).111正常的残差图2直线回归模型不合适3.方差齐性不成立4.误差项不独立图82为几种常见的残差图 122. .方差齐性的诊断及修正方法方差齐性的诊断及修正方法 对于一元线性回归来说对于一元线性回归来说, ,关于关于 x 的残差图和关于预测值的残的残差图和关于预测值的残差图提供了同样的信息差图提供了同样
14、的信息. . 对于多元线性回归分析对于多元线性回归分析, ,由于有一个以上的自变量由于有一个以上的自变量, ,所以所以一般采用关于预测值的残差图一般采用关于预测值的残差图. . 误差方差非齐性时误差方差非齐性时, ,残差图不正常残差图不正常. .可通过对因变量作适当的可通过对因变量作适当的变换变换, ,令令z=f ( y ) 使得关于因变量的回归分析中误差的方差接近使得关于因变量的回归分析中误差的方差接近于齐性于齐性. .实用上常选用一些变换实用上常选用一些变换, ,变换后重新做回归及残差图变换后重新做回归及残差图, ,如如残残差图有改善或已属正常残残差图有改善或已属正常, ,则该变换是合适的
15、则该变换是合适的. .否则改变变换否则改变变换函数计算直到找到合适的变换为止函数计算直到找到合适的变换为止, ,常用的方差稳定性变换有常用的方差稳定性变换有: :)ln(YZ )0(YYZ)0(1YYZ13 在许多回归分析中在许多回归分析中, ,所利用的数据是按时间顺序采集的所利用的数据是按时间顺序采集的, ,即即时间序列数据时间序列数据, ,用用yt表示表示y在时刻在时刻t的值的值, ,而而y的值又常常依赖于的值又常常依赖于y在以前时刻的值在以前时刻的值. .此时此时, ,称数据存在自相关称数据存在自相关( (序列相关序列相关),),从而违从而违背了回归模型的假设背了回归模型的假设, ,误差
16、项误差项 已不再是独立的已不再是独立的. . neee,21nttnttteeeD12221)(检验方法为检验方法为DurbinWatson统计量:统计量:3 3DurbinWatson 检验检验 DurbinWatson DurbinWatson统计量的取值统计量的取值介于介于0 0和和4 4之间之间, ,一个粗略的判断是一个粗略的判断是: : 若若D值在值在2附近附近( (1.6D2.4),),则没有充分的证据证明存在序列相则没有充分的证据证明存在序列相关;若关;若D2.4, ,则存在负的自相关则存在负的自相关. .具体可通过具体可通过SAS程序来完成程序来完成, ,只需在只需在reg过程
17、后增加选项过程后增加选项DW即可,即可,如如:proc reg DW; 14五、一元线性回归模型的五、一元线性回归模型的SAS实施实施 一元线性回归模型的建立可通过国际通用软件SAS实施.具体可直接调用reg过程,一般格式如下: poc reg data=数据集名称;(data=数据集名称可以省略,此时所用的数据集为最近的数据集) model 因变量集=自变量集;(如model y=x;)六、应用实例六、应用实例 例8.1 海南省国营大岭农场橡胶树大型系比二组无性系,1960年刺检干胶量(x:毫克)与1965年正式割胶产量(y:克)如下表82,求正式割胶量关于剌检干胶量的回归方程.15表82
18、正式割胶产量与刺检干胶量编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14xy77 64 62 72 71 83 79 94 104 96 61 90 81 1228.8 7.9 8.9 7.7 8.6 8.1 9.1 5.6 8.5 7.6 4.9 8.1 12.0 15.7编号15 16 17 18 19 20 21 22 23 24 25 26xy65 130 111 160 188 81 92 80 63 105 89 7311.9 11.1 6.5 15.3 17.7 5.9 10.6 8.3 6.0 8.5 10.1 3.51建立回归方程 由所给的数据得 239
19、6ix15.92x9 .236iy11.9y2439902ix23.24352iy9 .23618iiyx于是得 0771. 026/)2396(24399026/9 .23623969 .23618/)(/ )(222nxxnyxyxbiiiiii1601. 215.920771. 011. 9xbya于是得回归方程为 xy0771.001.22. 回归方程显著性检验 71.27626/)9 .236(23.2435/)()(2222nyyyySSiiiT总平方和/)()()(222222nxxbxxbyySSiiiiR回归平方和81.13726/)2396(243990)0771. 0(2
20、290.13852.13971.276RTESSSSSS剩余平方和方差分析结果列于表83. 17表83 回归方程的方差分析变异来源平方和(SS)自由度( df )均方(MS )F值回 归剩 余 1 24137.81138.90137.81 5.7923.81*总变异 25276.71SAS程序与输出结果程序与输出结果 data han81; input x y;cards; 77 8.8 64 7.9 62 8.9 72 7.7 71 8.6 83 8.1 79 9.1 97 5.6 104 8.5 96 7.6 61 4.9 90 8.1 81 12.0 122 15.7 65 11.9 1
21、30 11.1 111 6.5 160 15.3 188 17.7 81 5.9 92 10.6 80 8.3 63 6.0 105 8.5 89 10.1 73 3.5; 18proc gplot; plot y*x=*; proc reg; model y=x/p clm cli; plot residual.*x=*;run; 主要的输出结果主要的输出结果:(1)因变量y关于变量x的散点图 19 由散点图可以看出,图中的点大致呈现直线上升的趋势,因而可以用线性模型来刻画因变量y与自变量x的关系. (2)模型拟合与检验 Dependent Variable: y Analysis of V
22、ariance Sum of MeanSource DF Squares Square F Value Pr FModel 1 137.80902 137.80902 23.81 |t| Intercept 1 2.00746 1.53037 1.31 0.2020 x 1 0.07709 0.01580 4.88 .0001输出结果的给出了F=23.81, Pr0 , x0) 4. S形曲线函数形曲线函数 y=1/(a+be- -x) 5. 负指数函数负指数函数 y=ae- -b/x 先取对数先取对数,得得 lny=lna+blnx ,作变换作变换,令令 lny=z , lnx=t , ln
23、a=k 则有则有 z=k+bt ,显然显然 z是是t 的线性函数的线性函数.作变换作变换,令令 1/y = z , t=1/ex则有则有 z=a+bt ,显然显然z是是t的线性函数的线性函数.先取对数得先取对数得 lny=lna- -b/x令令 lny=z , lna=k , -1/x=t 则有则有 z=k+bt ,显然显然 z是是t的线性函数的线性函数. 23 对回归方程选择一种合适的函数形式对回归方程选择一种合适的函数形式, ,必须对散点图进行认必须对散点图进行认真的分析真的分析. .有时有时, ,对同一种散点图所呈现的因变量与自变量的关对同一种散点图所呈现的因变量与自变量的关系系, ,可
24、以选择不同的函数形式来描述回归方程可以选择不同的函数形式来描述回归方程, ,那么如何判断并那么如何判断并比较不同回归方程的拟合优度呢比较不同回归方程的拟合优度呢? ?通常使用的比较准则通常使用的比较准则. . 有下面两个有下面两个: :SSTSSESSTSSRR12二二. . 曲线回归的选择准则曲线回归的选择准则 1. 1. 相关指数相关指数 R 作为一个相对指标作为一个相对指标, ,测度了拟合的回归直线所导致离差平方测度了拟合的回归直线所导致离差平方和占样本的总离差平方和的百分比和占样本的总离差平方和的百分比, ,因此它也是对回归方程拟合因此它也是对回归方程拟合优度的一种测度优度的一种测度.
25、 .R2越接近于越接近于1,1,则回归方程对样本点的拟合得越则回归方程对样本点的拟合得越好好. .因此因此, ,对于用不同的曲线拟合的回归方程对于用不同的曲线拟合的回归方程, ,通常选择通常选择R2较大的较大的一个为好一个为好. .24 2. 2.剩余标准差剩余标准差S 它反映了样本偏离回归曲线的平均大小它反映了样本偏离回归曲线的平均大小, ,当然当然S越小越好越小越好. .事实上事实上, ,上述两个准则是一致的上述两个准则是一致的. .R越大越大, ,则则S越小越小, ,反之也然反之也然. .例例1 1 以下为一组观测值以下为一组观测值 1) 1) 绘制绘制y对对x的散点图的散点图 2) 2
26、) 假定假定y与与x的关系为的关系为(1)(1)双曲线双曲线1/y=a+b/x(2)(2)对数曲线函数对数曲线函数y=a+blnx (3)负指数函数负指数函数y=ae- -b/x(4)(4)幂函数幂函数 试作变量变换化非线性回归为线性回归试作变量变换化非线性回归为线性回归, ,并建立回归方程并建立回归方程. . )2/()(12nyySniiix2345781011y106.42 108.20 109.58 109.50 110.00109.93 110.49 110.59x1415161819y110.60110.90 110.76110.00 111.20 xbay25data han2;
27、 input x y; z1=1/y; t1=1/x; t2=log(x); z2=log(y); t3=- -1/x; t4=sqrt(x); cards; 2 106.42 3 108.20 4 109.58 5 109.50 7 110.00 8 109.93 10 110.49 11 110.59 14 110.60 15 110.90 16 110.76 18 110.00 19 111.20 ; proc gplot data=han2; plot y*x=*; proc reg data=han2; model z1=t1; proc reg data=han2; model y
28、=t2; proc reg data=han2; model z2=t3; proc reg data=han2; model y=t4; run;26因变量因变量y y关于自变量关于自变量x x的散点图的散点图: :27主要的输出结果主要的输出结果: : 模型模型1 1 双曲线函数双曲线函数 作变换作变换 z1=1/y t1=1/xModel: MODEL1 Dependent Variable: Z1 Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 1.3335153E-7 1.
29、3335153E-7 158.655 0.0001 Error 11 9.2456216E-9 8.405111E-10C Total 12 1.4259715E-7 Root MSE 0.00003 R-square 0.9352 Dep Mean 0.00910 Adj R-sq 0.9293 C.V. 0.31846 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 0.008979 0.00001275 704.256 0
30、.0001 T1 1 0.000790 0.00006272 12.596 0.0001xbay/128 模型模型2 2 对数曲线函数对数曲线函数 说明说明: : 已作变换已作变换 t2=lnx Model: MODEL1Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 16.03862 16.03862 44.470 0.0001 Error 11 3.96727 0.36066 C Total 12 20.00589 Root MSE 0
31、.60055 R-square 0.8017 Dep Mean 109.85923 Adj R-sq 0.7837 C.V. 0.54665 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 106.497087 0.53097742 200.568 0.0001 T2 1 1.591238 0.23861707 6.669 0.0001xbayln29 模型模型3 3 负指数函数负指数函数 已作变换已作变换 z2=lny t3=
32、-1/x Model: MODEL1 Dependent Variable: Z2 Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 0.00158 0.00158 158.189 0.0001 Error 11 0.000109794 9.9812743E-6 C Total 12 0.00169 Root MSE 0.00316 R-square 0.9350 Dep Mean 4.69914 Adj R-sq 0.9291 C.V. 0.06723 Parameter Estim
33、ates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 4.712697 0.00138939 3391.917 0.0001 T3 1 0.085962 0.00683472 12.577 0.0001 xbeay/30 模型模型4 4 幂函数幂函数Model: MODEL1Dependent Variable: Y Analysis of Variance Sum of MeanSource DF Squares Square F Value ProbFMode
34、l 1 13.90887 13.90887 25.094 0.0004Error 11 6.09702 0.55427C Total 12 20.00589 Root MSE 0.74450 R-square 0.6952 Dep Mean 109.85923 Adj R-sq 0.6675 C.V. 0.67768 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 106.537333 0.69454059 153.393 0.
35、0001 T4 1 1.091857 0.21796278 5.009 0.0004 xbay31 从以上的输出结果可得模型从以上的输出结果可得模型1和模型和模型3的的R2较大较大, ,分别为分别为0.9352和和0.9350 , ,因此选择模型因此选择模型1和模型和模型3较为合适较为合适. . xeey1172697. 4模型 1: z1=0.008979+0.00079t1 ,即 1/y=0.008979+0.00079/x模型 3: z2=4.712697+0.085962t3 , 即 lny = 4.712697-1/x于是 【返回】32第三节第三节 多元线性回归分析多元线性回归分析
36、1 1回归模型回归模型 设影响因变量设影响因变量y的自变量有的自变量有p个个, ,并分别记为并分别记为x1, x2, ,xp , ,所谓所谓多元线性回归模型是指这些自变量对因变量的影响是线性的,多元线性回归模型是指这些自变量对因变量的影响是线性的,即即 其中其中 称为称为p个自变量个自变量 x1, x2, ,xp , , 的线性回归函数的线性回归函数. . 记记n n组样本分别是组样本分别是 那么那么, ,由上式可得到由上式可得到 其中其中 这样一来这样一来, ,多元线性回归分析的主要问题就是基于模型对未知多元线性回归分析的主要问题就是基于模型对未知参数参数b b0 ,b b1, , b bp
37、 和和s s2进行估计、检验并利用得到的回归模型进行估计、检验并利用得到的回归模型进行预测进行预测. . ebbbbppxxxy22110pppxxxxxxfbbbb2211021),(), 2 , 1( );,(21niyxxxiipiinixxxyiippiii, 2 , 1,22110ebbbbjiNjii , 0),cov(, ), 0(2eese一一. . 多元线性回归模型多元线性回归模型331112211101ebbbbppxxxy2222221102ebbbbppxxxynnppnnnxxxyebbbb22110121nnyyy)1(212222111211111pnnpnnpp
38、xxxxxxxxx1) 1(210ppbbbbneee2134 上述回归模型的矩阵表示上述回归模型的矩阵表示Y=Xb b +e e, ,其中其中Y = (y1 , y2 , ,yn )T , , 是是n阶单位矩阵阶单位矩阵. . 称矩阵称矩阵 为资料矩阵或设计矩阵为资料矩阵或设计矩阵. . 利用最小二乘法可估计回归系数利用最小二乘法可估计回归系数, ,即求解一组参数即求解一组参数使得如下定义的平方和使得如下定义的平方和Q达到最小:达到最小:由多元函数的极值理论由多元函数的极值理论, ,分别求分别求Q关于各个参数的偏导数关于各个参数的偏导数, ,并令它并令它们等于零们等于零, ,于是得到如下的方
39、程组于是得到如下的方程组, ,解方程组便得到所求的参数解方程组便得到所求的参数. .), 0(2nINse,),(210TpbbbbbnI,),(21TneeeenpnppxxxxxxX1221111111pbbb,10niippiipxxyQ1211010)(),(bbbbbb2.2.回归模型的矩阵表示回归模型的矩阵表示二二. . 回归系数的最小二乘估计回归系数的最小二乘估计35如果如果 可逆可逆, ,则方程组的则方程组的( (参数的参数的) )解为解为niipippiiniiippiiniippiixxxyxxxyxxy11101111011100)(20)(20)(2bbbbbbbbbY
40、XXXTTb)(用矩阵表示为XXTYXXXTT1)(b0:;0:1210ipHHbbbb三三. . 回归方程的显著性检验回归方程的显著性检验 1 1统计假设统计假设 由最小二乘准则求回归系数的计算过程中由最小二乘准则求回归系数的计算过程中, ,并不一定知道因变量并不一定知道因变量与自变量是否存在线性关系与自变量是否存在线性关系. .如果不存在线性关系如果不存在线性关系, ,那么得到的回那么得到的回归方程是毫无意义的归方程是毫无意义的. .在一元回归分析中在一元回归分析中, ,若若 b b1=0 则平均地说因则平均地说因变量变量y y并没有随自变量并没有随自变量x x的变化而线性地变化的变化而线
41、性地变化. .因此对回归方程的因此对回归方程的显著性检验就是检验以下的假设是否成立:显著性检验就是检验以下的假设是否成立: 362平方和与自由度分解 对统计假设所作的检验方法仍采用方差分析法.从分析引起 yi (i=1 ,2 , , n )变化的总方差的原因入手. 自由度为 dfT=dfE+dfR, 其中dfT=n-1, dfR=p ,dfE=(n-1)-p 3.F统计量 拒绝域为SSRSSEyyyyyySSTniniiiiinii112212)()()() 1,() 1/(/pnpFpnSSEpSSRF) 1,(pnpFF变异来源平方和自由度均方F值回归SSRpMSR= SSR / pF=
42、MSR/ MSE残差SSEn-p-1MSE= SSE / n-p-1总变异SSTn-14.方差分析表371统计假设统计假设 对回归方程的显著性检验对回归方程的显著性检验,若否定若否定H0 ,仅表示仅表示 不全为不全为0但并不排除有某个但并不排除有某个 为为0,若若 ,说明自变量说明自变量 xi 对因对因变量变量y的影响不明显的影响不明显,应从回归模型中删除应从回归模型中删除.因此对回归系数是否因此对回归系数是否为为0进行逐个检验是很必要的进行逐个检验是很必要的.pbbb,21ib0ib四.回归系数的显著性检验即检验即检验; ),2, 1(0:;0:)(1)(0piHHiiiibb2t 统计量统
43、计量) 1() 1/(/pntpnSSEltiiiib拒绝域为拒绝域为)1(pntt38六、应用实例六、应用实例 例8.3 肖陈保等同志应用三元线性回归,由橡胶树白粉病的始病期(x1) 、嫩叶期(x2) 、发病期雨天数(x3)预测最终病情指数y ,18个观测值如下表86. 五五. 多元回归分析的多元回归分析的SAS书写格式书写格式:proc reg; model 因变量串=自变量串/ 选项串;data 数据集名称; input x1 x2xp y;cards; ; proc reg; model y=x1 x2xp/选项;run; 例如39表86 橡胶树白粉病最终病情指数级值表观测值始病期(x
44、1)嫩叶期(x2)发病期雨天数(x3)最终病情指数(y)12122222223223341111511116322373333811119111140101111113333121211132232142111151322163233172332181233SAS编程如下编程如下:41data han83; input x1 x2 x3 y;cards; 2 1 2 2 2 2 2 2 2 2 3 3 1 1 1 1 1 1 1 1 3 2 2 3 3 3 3 3 1 1 1 1 1 1 1 1 1 1 1 1 3 3 3 3 1 2 1 1 2 2 3 2 2 1 1 1 1 3 2 2 3
45、 2 3 3 2 3 3 2 1 2 3 3 ;proc reg; model y=x1 x2 x3/p cli clm; plot residual.*y=*; (画写残差分析图画写残差分析图)run;421回归方程显著性检验 Dependent Variable: y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 10.85063 3.61688 24.18 F |t|Intercept 1 0.03660 0.26297 0.14 0.8913 x1 1 0.29330 0.1
46、5132 1.94 0.0730 x2 1 0.01340 0.17822 0.08 0.9411 x3 1 0.68093 0.17494 3.89 0.0016 回归方程为 32168093. 00134. 02933. 00366. 0 xxxy 从输出结果可见,变量x1, x2 对响应变量 y 的影响不显著,而x3对y的影响是显著的. 44残差图残差图【返回】45第四节第四节 逐步回归分析逐步回归分析 在多元线性回归分析中,影响因变量的自变量有很多,例如甘蔗的糖份与降雨量、相对湿度以及最低温度有关;某作物的产量与单位面积穗数、每穗粒数、千粒重、播种期、密度、施肥量、温度、雨量和光照等因
47、素有关.人们希望从诸多自变量中挑选出有显著影响的自变量来建立回归方程,这就涉及到自变量的选择问题.在回归方程建立的过程中,若漏掉对因变量影响显著的自变量,那么建立的回归方程用于实际预测时会产生较大的偏差.同样,若建立的回归方程中包括了对因变量影响不显著的自变量,那么这样的回归方程也会影响到预测的精度.由此可见,选择适当的自变量用于建立最优的回归方程是十分重要的.46 一一. . 自变量的选择问题自变量的选择问题 在实际问题中在实际问题中, ,影响因变量的因素影响因变量的因素( (自变量自变量) )可能很多可能很多, ,人人们希望从中挑选出影响显著的自变量来建立回归关系式们希望从中挑选出影响显著
48、的自变量来建立回归关系式, ,这就这就涉及到自变量的选择问题涉及到自变量的选择问题. . 在回归方程中若漏掉对因变量影响显著的自变量在回归方程中若漏掉对因变量影响显著的自变量, ,那么建立那么建立的回归式用于预测时会产生大的偏差的回归式用于预测时会产生大的偏差, ,但回归式中若包括的变但回归式中若包括的变量太多量太多, ,且其中有些对因变量的影响不大且其中有些对因变量的影响不大, ,显然这样的回归式不显然这样的回归式不仅使用不方便仅使用不方便. .而且反而影响预测的精度而且反而影响预测的精度. .因此适当选择变量用因此适当选择变量用于建立一个于建立一个“最优最优”的回归方程是一个十分重要的问题
49、的回归方程是一个十分重要的问题. . 什么是什么是“最优最优”回归方程回归方程? ?直观考虑应该是方程中包括的所有直观考虑应该是方程中包括的所有变变量对因变量的影响都是显著的量对因变量的影响都是显著的; ;而不包括在方程中的变量对因变而不包括在方程中的变量对因变量的影响是不显著的量的影响是不显著的( (可忽略可忽略).).也就是从自变量集也就是从自变量集中选出适当的子集中选出适当的子集 使得建立因变量使得建立因变量 y 与与子集的回归方程就是子集的回归方程就是“最优最优”的回归方程的回归方程. .这就是回归变量的选这就是回归变量的选择择问题问题. .,21pxxx)( ,21plxxxliii
50、47 回归变量的选择问题在实用上和理论上都是十分重要的回归变量的选择问题在实用上和理论上都是十分重要的. .这这个问题最大的困难就是如何比较不同选择个问题最大的困难就是如何比较不同选择( (即不同子集即不同子集) )的优劣的优劣, ,即最优选择的标准即最优选择的标准. .从不同的角度出发从不同的角度出发, ,可以有不同的比较准则可以有不同的比较准则, , 在不同的准则下在不同的准则下,“,“最优最优”回归方程也可能不同。回归方程也可能不同。 比较不同子集优劣的标准常见的有以下几种比较不同子集优劣的标准常见的有以下几种( (记记 为观测个数为观测个数, , 为子集模型中自变量的个数为子集模型中自