《多元线性回归预测.docx》由会员分享,可在线阅读,更多相关《多元线性回归预测.docx(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、在预测中,当预测对象 y 受到多个因素 x1 , x2 ,L, x2 x2i + L+ bm x其中b0 、b2 x2i + L+ b多元线性回归预测影响时,如果各个影响因m素 x j ( j = 1,2,L, m )与 y 的相关关系可以同时近似地线性表示,这时则可以建立多元线性回归模型来进行分析和预测。假定因变量 y 与自变量 x j ( j = 1,2,L, m) 之间的关系可表示为yi= b0+ b1 x1i+ bmi+ ei(2-22)i = 1,2,L, n (样本序号)j ( j = 1,2,L, m) 模型回归系数;e i 为除自变量 x j ( j = 1,2,L, m) 的
2、影响之外对 y 产生影响的随机变量,即随机误差。该结论基于以下的假设:i随机误差e i 的期望值为零, E(e i ) = 0 (i = 1,2,L, n) ;方差的期望值为一常数s 2 , E(e 2 ) = s 2 (i = 1,2,L, n) ;i各随机误差项是互不相关的,即协方差的数学期望值为零, E(e,e) = 0ij(i, j = 1,2,L, n, i j)当以上假设得到满足时,式(2-22)便称为多元线性回归预测模型,这时可写成yi= b0+ b1 x1i+ bm xmi(i = 1,2,L, n)(2-23)和一元线性回归预测模型一样,多元线性回归预测模型建立时也采用最小二
3、二乘法估计模型参数,但具体估计时有二种算法,分述如下。一、多元线性回归预测模型的一般算法1建立模型改写式(2-22)得ei= yi- yi(i = 1,2,L, n)方差和 Q 为m x2 x2i - L- bm x2 x2i - L- bm x2 x2i - L- bm x+ b1 x+ b2 x0 x+ b1 x+ b2 x1i x1i x1i yb0 x+ b1 xmi x+ b2 xmi xmi y= n= 1Q = e 2= ( y01 x1i1i1 x1i0= (x= (x= (nii=1n-y )2ii=i=2n( yi- b0- b1 x1i- b2 x2i -L- bmi)2
4、i=1根据最小二乘法原理,欲估计参数bi (i = 1,2,L, m) ,要满足条件: Qb0 Qb1= -2 ( y - b - b- bi= -2x ( y - b - b- bimi) = 0) = 0 mi M Qbm整理上式可得到:= -2xmi ( yi- b0M- b1 x1i- bmi) = 0nb 0b1i1,iM21t2i+ L+ b xmmi+ L+ b2im= xyimi= ximi1i2i+ L+ bm x 2mi= xi而对于各变量的样本平均值,其误差平方和为:sssjkjyyy= snkjjii=1= snyjjii=1ny - y)2ii=1- x- xjj)(
5、xki)( yi- xk- y)(2-25)( j, k = 1,2,L, k )式中x1 nxjjii=1ynni=1yi利用(2-24)式,将方程组(2-25)可改写为2 s12 + L+ bm sb2 s2 s22 + L+ bm s+ L+ bm s2 x2 - L- bm x= s1y s2 y s= s2 y s1y ss b + b b = sb1 s1121 Mb 1 sm1+ b+ b+ b2 sm 2= s1m1 y= s2m2 y= smmmy(2-26)以及b0= y - b1 x1- bm(2-17)方程组(2-26)叫正规方程组或规范方程式,解该方程组,则得到回归系
6、数b 0,b1,b2,bm。即为用最小二乘法原理估计的多元线性预测模型(2-23)的回归系数。从原理上讲,按上述解法,对任意多个自变量的线性回归模型都可估计参数,但由于变量较多时计算工作量大,当自变量大于 3 个时,手工计算已很困难,宜用矩阵解法在计算机上计算。如二元线性回归预测模型。有正规方程为s11b + s12 b2 = s1 y 21 122 22 y解该方程组,有b1=s1 ys2 ys11s21s12s22s12s2222s11s22- s12- s21 s12(2-28)同理b211s11s22- s21- s21s12(2-29)b0= y - b1 x1- b2 x2(2-3
7、0)式中- x1 ) (x- x1 )( y- x2 )( y2i y= bs = s= (x- x2 )R = 1 - ( y1s = (x - x )2 = x 2 -( x )2111i11in1i 12211i2i1= x-( x )( x )1i x2in1i2i1s= (x - x )2 = x 2 -( x )2 222i22in2is= (x- y) 1y1ii= x y - 1 ( x )( y )1ii1ini= (x- y)s2 y2ii1= x-( x )( y )in2ii(2-31)2统计检验(1)剩余标准差计算s = ( y - y )2iin - m - 1(2
8、-32)m 自变量个数为了方便统计检验,先计算离差计算表。(2)相关系数检验 ( y2ii- y )2i- y)2(2-33)(3)F 检验F =S( y - y) 2im s 2(2-34)(4)t 检验t 检验是通过对回归系数bi(i = 1,2,L, m) 的逐一检验,以判断 xi(i = 1,2,L, m)是否因系数b 为零而必须予以删除。itbiisi(2-35)然后设定显著性水平a ,查t 分布表,取自由度v = n - m -1,得到t 检验值ta / 2 。当tbi ta / 2 时,检验通过。 ta / 2 时,说明所选自变量 x= | s | - s s s - s s s
9、 s - s s当t对 y 影响不显著,或者自变量间存在多重bii共线性,应该予以剔除或作某种处理。设s 为回归系数的标准差bis 按下列公式计算:bis = c s(2-36)biii式中:c 正规方程系数矩阵e 的逆矩阵c 中的i 行i 列元素。ii按照伴随矩阵求逆矩阵的方法,其逆矩阵c = s-11 s2221- s12s11因为所以有| s |= s11 s22- s21 s22s- s2212s s - s sc = 11 2221 1211 2221 12 - ss2111s s - s s11 1221 1211 2221 12(2-37)在多元线性回归预测中,F 检验是判断全部
10、自变量的整体作用与因变量的线性关系是否显著,而t 检验则是检验每一个自变量与因变量的线性关系是否显著。所以,在多元线性回归预测中,t 检验比 F 检验更有必要。因为根据t 检验的结果,可以判断那些对因变量线性关系不显著的自变量,从而予以剔除,重新建立回归模型。(5) DW 检验多元线性回归 DW 检验和一元线性回归预测一样按(2-18)式计算(6)预测区间的确定按照正态分布理论,当置信度为 95%时,预测区间为上限下限y yHL= y0= y0+ 2s- 2s(2-38)对于某组自变量的取值为 x10 , x20 , xm0 ,代入上式,则可求得该预测区间为( y , y )。LH二、多元线性
11、回归方程的矩阵解法1建立预测模型 y 1 x b e b 当已知n 组自变量 x j ( j = 1,2,L, m) 和因变量 y 的观测值时,(2-22)式可用矩阵形式写成Y = XB + U(2-39)式中 y 1Y = 2 M y nb 0 1 B = b 2 M b m1 x11X = 12MM1 x1ne 1U = 2 M e nx21x 22Mx2nLx m1Lx m2MLxmnY 为因变量列向量,即y 的n 个数,X 为自变量矩阵,即m 个自变量与 y 对应的n 组数据,B 为回归系数向量,而U 为随机误差向量。取随机误差向量U = 0 ,有Y = XB因为在 X 矩阵中,一般n
12、 m ,因而 X 无法求逆,为了求解 B ,两边同时左乘 X的转置矩阵 X T 得X T Y = X T XB而 X T X 为方阵,可求逆,这时可得B = ( X T X ) -1 X T Y即有多元线性回归预测模型系数估计公式b 0 1 B = b = ( X T X )-1 X T Y 2 M b m2多元线性回归模型的统计检验(1)标准误差检验(2-40)多元线性回归预测模型标准差检验有因变量标准差s 检验和各回归系数标准差s 检验。bi(a )因变量标准差s 检验计算公式为1i y2i yY Y - ny 2s =Y T Y - BT X T Y n - m - 1Sy 2 - (b
13、 Sy + b Sxi0i1n - m - 1i+ b2Sxi)(2-41)式中,m 为自变量个数,n 为样本数。(b )各个回归系数标准差sbi(i = 1,2,L, m) 检验计算公式为sbi= cii s ( y = 0,1,2,L, m)(2-42)式中:c ii为( X T X ) -1 矩阵中主对角线上的第i 项。(2)相关系数检验多元线性回归预测模型的相关系数计算公式为R =BT X T Y - ny 2T(2-43)(3) F 检验多元线性回归预测模型的总体效果检验采用 F 检验,计算公式为F =BT X T Yms 2(2-44)式中m 为自变量个数。在利用(2-44)式计算
14、出 F 值后,确定显著性水平a ,查F 检验表,得a 显著水平下,当自由度v = n - m -1时的 F 检验值 Fa。当F Fa时,检验通过,模型有效,反之则模型无效。(4)t 检验(5) DW 检验:按式(2-18)(6)预测区间经过对回归预测模型进行检验,判断为有显著的线性关系后,在预测模型中代入预先确定的自变量值,即可求得因变量在对应点上的预测值。三、多重共线性多重共线性是指自变量之间又存在线性关系,或接近线性关系。应用最小二乘法估计参数的一个重要条件就是自变量之间为这完全的线性相关。如果完全相关,则( X T X )-1 不存在,最小二乘法就失效了。在一般情况下,自变量之间都有某种
15、程度的相关。如经济系统中的工业产值、农业产值、运输、建筑业产值、固定资产、职工人数等。如果相关程度比较低,则其影响可以忽略。但当存在高度的相关性,即有严重的多重共线性时,会产生如下后果:(1)参数估计的精度降低,某些回归系数的标准偏差s 很大,不能正确反bi映自变量与因变量之间的关联程度,使参数估计值很不可靠。y = f (x1 , x2 ,L, x(x1 , x2 ,L, x j -1 , x j +1 ,L, x x(2)回归系数的估计值可能对某几组观察值特别敏感,这些观察值一旦变动,对参数估计值影响很大。(3)回归系数可能出现与事理意义不符的符号。(4)可能将有用的变量排除掉。由于多重共
16、线性的影响,可能会导致预测失败,因而要想办法消除。消除时,首先要进行判断,是否在自变量之间存在较严重的相关性。如果存在,然后采用一定的方法进行处理。判断的方法有二种。一种是通过计算自变量之间的相关系数来判断。根据自变量 x 、 x 的观察值,计算二者之间的相关系数rijijrij=nni=1xx2it xititn2jt(2-45)t =1t =1显然,当r = 1时,x 与 x 完全相关,即会出现完全的多重共线性;当r = 0ijijij时,x 与 x 完全不相关;一般0 r R2 ( R 2为回归模型复相关系数)时,共线性才是严重的,应予以消ij除。第二种判断方法是利用不包含某个变量的复相
17、关系数r2 来判断。复相关系j数按式(2-33)计算。设共有m 个自变量,有回归方程)m为了判断多重共线性,分别构造不含某个变量 x 的m 个回归方程,jy = f)jjm( j = 1,2,L, m)并对每个方程估计出复相关系数 r 2 , r 2 ,L, r 212m。r 2 越大,则所对应的自变量 xjj与其它解释变量发生多重共线性越严重。以上二种方法前者是用相关系数来判断,可判断在一定置信水平下的多重共线性,但当变量较多时,判断不可靠。后者意义明确,但计算工作量大。多重共线性可以采用以下方法消除。(1)剔除不必要的解释变量。即从一组高度相关的自变量中剔除某个变量,该变量可以是回归系数最小的,或t 检验值最小的,或系数符号与经济意义不符的,然后重新估计参数,建立预测模型,这是最常用的方法;(2)改变自变量的定义形式。如将观察值累加生成,或将二个自变量合并形成一个新的变量,或用新的变量代替具有多重共线性的变量。(3)增加观察值,避免或减少多重共线性;(4)寻找新的解释变量;(5)采用逐步回归法估计参数,减少多重共线性的影响。