多元线性回归预测法.ppt

上传人:小** 文档编号:3751925 上传时间:2020-10-24 格式:PPT 页数:43 大小:455.52KB
返回 下载 相关 举报
多元线性回归预测法.ppt_第1页
第1页 / 共43页
多元线性回归预测法.ppt_第2页
第2页 / 共43页
点击查看更多>>
资源描述

《多元线性回归预测法.ppt》由会员分享,可在线阅读,更多相关《多元线性回归预测法.ppt(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、多元线性回归预测法,多元线性回归模型 估计回归参数 多元线性回归模型的检验 预测区间 标准化回归系数,一、多元线性回归模型,设随机变量y与x1,x2,xp一般变量的线性回归模型为,(4-20),其中, 是p+1个未知参数, 称为回归常数, 称为回归系数。y称为因变量,而x1,x2,xp是p个可以精确测量并可控制的一般变量,称为自变量。 是随机误差,对随机误差项假定,对一个实际问题,如果我们获得n组观测数据(xi1,xi2,xip;yi), i=1,2,n,则线性回归模型式(4-20)可表示为,写成矩阵形式为,(4-21),其中,(4-22),二、估计回归参数,回归系数B的估计 采用最小二乘法估

2、计,设观察值与模型估计值的残差为E,则,其中,(4-23),根据最小平方法要求,应有,即,由极值原理,根据矩阵求导法则,对B求导,并令其等于零,则得,整理得回归系数向量B的估计值,(4-24),2. 二元线性回归方程回归系数的估计,二元线性回归方程为,此时,得出 的计算公式如下:,(4-25),(4-28),(4-27),(4-26),以上计算公式较繁,较易算的计算公式为,(4-30),(4-29),(4-31),三、多元回归模型的检验,1. 复相关系数检验 检验线性关系密切程度的指标称为相关系数,在多元回归模型中,由于自变量在两个以上,所以称为复相关系数.,样本复相关系数的计算公式是,(4-

3、32),复相关系数检验的步骤为:,第一步,计算复相关系数 二元回归方程复相关系数的计算常用其简捷公式,(4-33),三元回归方程R计算常用其简捷公式,(4-34),第二步,根据回归模型的自由度n-p和给定的显著性水平值 查相关系数临界表,得 值,第三步,判断。若 ,表明变量之间线性相关显著,检验通过,这时回归模型可用来进行预测。若 ,表明变量之间线性相关关系不显著,检验通不过,这时的回归模型不能用来预测,应分析原因,对回归模型重新加以处理。,2. 拟合优度检验,拟合优度用于检验回归方程对样本观测值的拟合程度。 定义复可决系数R2,(4-35),复可决系数R2是检验多元线性回归模型拟合优度的度量

4、指标,R2越接近1,表示拟合得越好;反之,则拟合得不好。,定义一个校正R2,记为,(4-36),这里,n-p是残差平方和 的自由度,n-1是总离差平方和 的自由度。 根据式(4-35)和(4-36)可得与之间关系如下,(4-37),(1)当 时, 。说明中包含了自变量个数的影响,随着自变量个数的增加, 总小于 . (2) 尽管 总是非负的,但 都可能为负。若 为负, 取值为0。,3. 回归方程的显著性检验F检验,原假设,如果H0被接受,则表明随机变量y与x1,x2,xp之间的关系由线性回归模型表示不合适。 F检验程序如下: 第一步,计算统计量F的值。,(4-38),第二步,对给定的显著性水平

5、,查F分布表,得临界值,第三步,判断。若 ,则认为回归方程有显著意义,也就是p1=p2=pp=0不成立;反之,则认为回归方程不显著.,F统计量与可决系数,相关系数有以下关系:,(4-39),(4-40),回归系数的显著性检验t检验 检验假设,如果接受原假设 H0j ,则 xj 不显著;如果拒绝原假设 H0j ,则 xj是显著的。 t检验的具体步骤如下: 第一步,计算估计标准误差 其中二元和三元估计标准误差的简捷公式分别为,(4-41),第二步,计算样本标准差 式中 Cjj 为矩阵 (XX)-1 对角线上第j个元素。 第三步,计算 t 统计量,(4-43),(4-42),(4-44),(4-45

6、),第四步,对给定的显著水平 ,查自由度为n-p的t 分 布表,得 。 第五步,判断。若 ,则回归系数 与零 有显著差异,必须保留 在原回归方程中,否则应 去掉 重新建立回归方程。,5.自相关检验DW检验 (1)DW检验,(4-46),其中 : ,是 的估计值。 因 的最初序号也必须是1,所以分子求和公式必须从2开始。将式(4-46)展开,得,(4-47),在大样本情况下,即n30,可以认为 所以上式可以写成 (4-48) R1是 与 的相关系数 的估计量。当 与 正自相关时, R1 1,DW 0;当 与 负相关时, R1 -1,DW 4;若不存在自相关或相关程度很小时, R1 0,DW 2

7、。从式(4-48)可以看出,DW值在04之间。,根据DW统计量,检验模型是否存在自相关,其步骤如下: 第一步,利用最小平方法求回归模型及残差 ; 第二步,利用式(4-46)、(4-47)或(4-48)可以计算DW 统计量; 第三步,确立假设 ,即假定回归模型不存在自相关; 第四步,根据给定的检验水平及自变量个数p从DW检验表中查得相应临界值 。 第五步,判断。DW的取值域在04之间。 在 DW小于等于2时, DW检验法则规定: 如DW ,认为 无自相关; 如 DW ,不能确定 是否存有自相关,在DW大于2时, DW检验法则规定: 如4- DW ,认为 无自相关; 如 4 - DW ,不能确定

8、是否有自相关。 由图4-2可以看出, 值等于2时为最好。根据经验, DW统计量在1.52.5之间时表示没有显著自相关问题。,从图4-2可看出,DW检验的最大弊端是存在着无结论区域。无结论区域的大小与样本容量n和自变量个数p有关。当n一定时,p愈大,无结论区域也愈大;当p一定时,n愈大,无结论区就愈小。如果计算的DW统计量落到了无结论区域,那么,决策者就不能做出回归模型是否存在自相关现象的结论。,(2) 产生自相关的原因及补救办法,当检验结果出现 和 情况时,说明随机误差项相互独立的假设不能成立,回归模型存在相关。 在实际预测中,产生自相关的原因可能是: (i)忽略了某些重要的影响要素。 (ii

9、)错误地选用了回归模型的数学形式。 (iii)随机误差项 本身的确是相关的。 合适的补救办法是: (i)把略去的重要影响因素引入回归模型中来。 (ii)重新选择合适的回归模型形式。 (iii)增加样本容量,改变数据的准确性。,6. 多重共线性检验,多重共线性检验的步骤如下: 第一步,计算任何两个自变量和间的相关系数为,第二步,对自变量作中心标准化,则XX=(rij) 为自变量的相关阵。记 C=(cij)=(XX)-1 称其主对角线元素VIFj=cjj为自变量xj的方差扩大因子(VIF). 经验表明,当 时,就说明自变量xj与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小

10、二乘估计值。,(4-49),(4-50),四、预测区间,多元回归模型的预测值和预测区间计算步骤如下: (1)计算估计标准误差,(2)记预测点为X0=(X01,X02,X0P),则预测值为,(4-51),预测误差 的样本方差为,(4-52),(3)当预测值 的显著性水平为 时,多元线性回归模型的预测区间为,(4-52),(4-53),由于这里X0的是一个影响因素数据向量,按公式(4-52)计算S0较复杂,故在实际预测中,一般运用SY代替S0近似地估计预测区间.,五、标准化回归系数,如果先将所有的变量xj和因变量进行标准化,取得标准化变量 和 ,再进行回归便可以得到标准化回归方程,因为z变量是无量

11、纲变量,所以它们的回归系数称为标准化回归系数,它表示当其它变量不变时,xj变化一个标准单位,y的标准差的平均变化 。由于标准化消除了原来自变量不同的测量单位,于是 之间可以互相比较,它们绝对值的大小就代表了各自对y作用的大小。,计算 的另一种计算方法为,其中sy和sj分别为原变量y和原自变量sj的标准差。一般统计软件都能够同时输出回归系数 和标准化回归系数 .,案例,承上例,该饮料公司的许多零售点设在体育比 赛场地,该公司明白,当比赛一边倒时,观众会 比往常喝得多一些,因为这时观众就有时间注意 到口渴,而不是把注意力完全集中在比赛场上。 因此,可以利用比赛结束时的比分差作为第 二个自变量,其预

12、测模型就成为: 饮料销售量=b0+b1气温+ b2比分差,表4-5 二元回归分析计算表,解 (1)设饮料销售量为y,气温为x1,比分差为x2,则二元回归模型为 (2)计算回归系数。,所求回归预测模型为:,(3)R检验,当显著水平 =0.05, =10-3=7时, =0.666, 因 ,说明相关关系显著。,(4) 拟合优度检验,由此可见,此回归模型解释了饮料销售变差的94.9%,而一元线性回归模型只解释了饮料销售量变差的74%。,(5) F检验,当显著水平 =0.05时,F0.05(3-1,10-3)=4.74 ,说明回归效果非常显著。,(6) t检验,这个数据与一元线性回归获得的标准误差65相

13、比,多元回归的标准误差缩小了一半多,在对标准性要求更高的预测中,就能表现出这种误差缩小的好处。,当显著水平 =0.05时,t0.05/2(10-3)=2.365 因为 和 均大于t0.05/2(7)=2.365, 故拒绝假设b1=0和b2=0。因此可以断言,气温和比分差对饮料销售量有显著影响。,(7) DW检验,当显著水平 =0.05,p=3,n=10时,查DW检验表,因DW检验表中样本容量n最低为15,故取dL=0.82和dU=1.75, 即DW统计量在dU=1.75 DW=2.19 4- Du=2.25之间。检验结果表明回归模型不存在自相关。,(8) 多重共线性检验,自变量x1和x2之间的相关系数,说明本题没有多重共线性的问题。,(9) 预测,(i)当气温 ,比分差x2=8时,代入回归模型得的点估计值为,(ii)当显著性水平 =0.10,自由度n-p=7时,查t分布表得 t0.05(7)=1.895 预测区间 这是一个很大的改进,因为对一元线性回归模型而言,概率为90%的置信区间为458+130,而对于二元线性回归模型,当气温为 ,比分差为8时,其预测的近似置信范围在375491箱之间,其概率保证程度为90%。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁