《一元线性回归模型.doc》由会员分享,可在线阅读,更多相关《一元线性回归模型.doc(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、如有侵权,请联系网站删除,仅供学习与交流一元线性回归模型【精品文档】第 16 页一元线性回归模型 1一元线性回归模型 有一元线性回归模型(统计模型)如下, yt = b0 + b1 xt + ut 上式表示变量yt 和xt之间的真实关系。其中yt 称被解释变量(因变量),xt称解释变量(自变量),ut称随机误差项,b0称常数项,b1称回归系数(通常未知)。上模型可以分为两部分。(1)回归函数部分,E(yt) = b0 + b1 xt,(2)随机部分,ut 。图2.1 真实的回归直线 这种模型可以赋予各种实际意义,收入与支出的关系;如脉搏与血压的关系;商品价格与供给量的关系;文件容量与保存时间的
2、关系;林区木材采伐量与木材剩余物的关系;身高与体重的关系等。以收入与支出的关系为例。假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。但实际上数据来自各个家庭,来自各个不同收入水平,使其他条件不变成为不可能,所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。随机误差项ut中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。所以在经济问题上“控制其他因素不变”是不可能的。回归模型的随机误差项中一般包括如下几项内容,(1)非重要解释变量的省略,(2)人的随机行为,(3)数学模型形式欠妥,(4)归并误差
3、(粮食的归并)(5)测量误差等。回归模型存在两个特点。(1)建立在某些假定条件不变前提下抽象出来的回归函数不能百分之百地再现所研究的经济过程。(2)也正是由于这些假定与抽象,才使我们能够透过复杂的经济现象,深刻认识到该经济过程的本质。通常线性回归函数E(yt) = b0 + b1 xt 是观察不到的,利用样本得到的只是对E(yt) = b0 + b1 xt 的估计,即对b0和b1的估计。在对回归函数进行估计之前应该对随机误差项ut做出如下假定。(1) ut 是一个随机变量,ut 的取值服从概率分布。(2) E(ut) = 0。(3) D(ut) = Eut - E(ut) 2 = E(ut)2
4、 = s 2。称ui 具有同方差性。(4) ut 为正态分布(根据中心极限定理)。以上四个假定可作如下表达。ut N (0, s 2 )。 (5) Cov(ui, uj) = E(ui - E(ui) ) ( uj - E(uj) ) = E(ui, uj) = 0, (i j )。含义是不同观测值所对应的随机项相互独立。称为ui 的非自相关性。(6) xi是非随机的。(7) Cov(ui, xi) = E(ui - E(ui) ) (xi - E(xi) ) = Eui (xi - E(xi) = Eui xi - ui E(xi) = E(ui xi) = 0.ui 与xi 相互独立。否则
5、,分不清是谁对yt的贡献。 (8) 对于多元线性回归模型,解释变量之间不能完全相关或高度相关(非多重共线性)。在假定(1),(2)成立条件下有E(yt) = E(b0 + b1 xt + ut ) = b0 + b1 xt 。2最小二乘估计(OLS)对于所研究的经济问题,通常真实的回归直线是观测不到的。收集样本的目的就是要对这条真实的回归直线做出估计。怎样估计这条直线呢?显然综合起来看,这条直线处于样本数据的中心位置最合理。怎样用数学语言描述“处于样本数据的中心位置”?设估计的直线用 =+ xt表示。其中称yt的拟合值(fitted value),和分别是 b0 和b1的估计量。观测值到这条直
6、线的纵向距离用表示,称为残差。 yt =+=+ xt +称为估计的模型。假定样本容量为T。(1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。(2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。(这种方法对异常值非常敏感)设残差平方和用Q表示, Q = = = ,则通过Q最小确定这条直线,即确定和的估计值。以和为变量,把Q看作是和的函数,这是一个求极值的问题。求Q对和的偏导数并令其为零,得正规方程, = 2(-1)
7、 = 0 (1) = 2(- xt) = 0 (2)下面用代数和矩阵两种形式推导计算结果。首先用代数形式推导。由(1)、(2)式得, = 0 (3) xt = 0 (4)(3)式两侧用除T,并整理得,= (5)把(5)式代入(4)式并整理,得,xt = 0 (6)= 0 (7)= (8)因为= 0,= 0,分别在(8)式的分子和分母上减和得,= (9)= (10)下面用矩阵形式推导 T + () = 这种形式在单位根检验的理论分析中非常有用。3最小二乘估计量和的特性(1) 线性特性 这里指和分别是yt的线性函数。令 kt = ,代入上式得 = kt yt可见是yt的线性函数,是b1的线性估计量
8、。同理b0也具有线性特性。(2) 无偏性利用上式E() = E( kt yt) = E kt (b0 + b1 xt + ut) = E ( b0 kt + b1 kt xt + kt ut) = Eb1 kt (xt-) + kt ut = b1 + E( kt ut ) = b1 (3) 有效性 b0, b1的OLS估计量的方差比其他估计量的方差小。 Gauss-Marcov定理:若ut满足E(ut) = 0,D(ut) = s 2,那么用OLS法得到的估计量就具有最佳线性无偏性。估计量称最佳线性无偏估计量。最佳线性无偏估计特性保证估计值最大限度的集中在真值周围,估计值的置信区间最小。上面
9、的评价是对小样本而言,若是对大样本而言还应讨论估计量的渐近无偏性,一致性和渐近有效性。先给出渐近分布的概念。渐近分布。用T1 T2 TN 表示连续递增样本容量。设在每个样本容量Ti下重复抽样。则每个xTi 都应有自己的均值E(xTi) 与方差Var (xTi)。利用递增样本可以求得随机变量序列,xT = xT1, xT2, , xTN其中每个元素都是相应样本容量下的一个随机变量。当TN 趋于无穷大时,这些分布收敛于某一分布。则称该分布为渐近分布或极限分布。渐近期望。对于期望值序列,E(xT ) = E(xT1), E(xT2), , E(xTN) 如随着T ,期望值E(xT )收敛于某一常数m
10、,则称m 为xT的渐近期望。记为 = m (与期望概念不同)与期望值序列相对应,也可以写出方差序列。 Var(xT) = E(xT -E(xT)2 =ExT1 - E(xT1) 2, ExT2 - E(xT2) 2, ExTN - E(xTN ) 2但在许多情形下,(xT -E(xT)2 = 0,即xT的分布退化为一点。例如,已知的分布是 N (m, )。当T ,Var()0。为防止分布发生退化,可以用T乘Var()。当T ,T Var()s 2。渐近方差。若上述随机变量序列有渐近期望,同时有新序列,ET(xT - E(xT) ) 2 = ET xT1 - E(xT1)2, ET xT2 -
11、E(xT2) 2 , ET xTN - E(xTN ) 2 满足 T (xT -E(xT)2 = v则定义xT的渐近方差为 T (xT -E(xT)2 = v 渐近无偏性。若的渐近期望为b,则为 b 的渐近无偏估计量,即 一致性 若满足(1)渐近无偏性,(2)= 0,则具有一致性,为 b 的一致估计量。 渐近有效性。若满足(1)具有一致性,(2)与其他估计量的方差相比,的渐进方差较小,Var() ta (T-2) ,则 b1 0; 若 | t | 2.15落在了H0的拒绝域,所以结论是b1不为零。输出格式的最下部分给出了评价估计的回归函数的若干个统计量的值。依纵向顺序,这些统计量依次是可决系数
12、R2、调整的可决系数(第3章介绍)、回归函数的标准差(s.e.,即均方误差的算术根)、残差平方和、对数极大似然函数值(第2章介绍)、DW统计量的值、被解释变量的平均数()、被解释变量的标准差()、赤池(Akaike)信息准则(是一个选择变量最优滞后期的统计量)、施瓦茨(Schwatz)准则(是一个选择变量最优滞后期的统计量)、F统计量(第3章介绍)的值以及F统计量取值大于该值的概率。注意:S.D.和s.e.的区别。s.e.和SSE的关系。根据EViews输出结果(图2.15),写出OLS估计式如下:= -0.7629 + 0.4043 xt (2.64) (-0.6) (12.1) R2 =
13、0.91, s. e. = 2.04其中括号内数字是相应t统计量的值。s.e.是回归函数的标准误差,即=。R2是可决系数。R 2 = 0.91说明上式的拟合情况较好。yt变差的91%由变量xt解释。检验回归系数显著性的原假设和备择假设是(给定a = 0.05)H0:b1 = 0; H1:b1 0图2.16 残差图因为t = 12.1 t0.05 (14) = 2.15,所以检验结果是拒绝b1 = 0,即认为年木材剩余物和年木材采伐量之间存在回归关系。上述模型的经济解释是,对于伊春林区每采伐1 m3木材,将平均产生0.4 m3的剩余物。图2.16给出相应的残差图。Actual表示yt的实际观测值
14、,Fitted表示yt的拟合值,Residual表示残差。残差图中的两条虚线与中心线的距离表示残差的一个标准差,即s.e.。通过残差图可以看到,大部分残差值都落在了正、负一个标准差之内。 估计b1的置信区间。由t = P t0.05 (14) = 0.95得 t0.05 (14) b1的置信区间是- t0.05 (14) , + t0.05 (14) 0.4043 - 2.15 0.0334, 0.4043 + 2.15 0.0334 0.3325, 0.4761 (2.65)以95%的置信度认为,b1的真值范围应在0.3325, 0.4761 范围中。下面求yt的点预测和平均木材剩余物产出量
15、的置信区间预测。假设乌伊岭林业局2000年计划采伐木材20万m3,求木材剩余物的点预测值。2000 = - 0.7629 + 0.4043 x2000 = -0.7629 + 0.4043 20 = 7.3231万m3 (2.66)s2(2000) = (+ )= 4.1453 (+) = 0.4546s(2000) = 0.6742因为E(2000) = E(+x2000 ) = b0 + b1 x2000 = E(y2000)t = t (T-2)则置信度为0.95的2000年平均木材剩余物E(y2000)的置信区间是2000 t0.05 (14) s(2000) = 7.3231 2.1
16、5 0.6742 = 5.8736, 8.7726 (2.67)从而得出预测结果,2000年若采伐木材20万m3,产生木材剩余物的点估计值是7.3231万m3。平均木材剩余物产出量的置信区间估计是在 5.8736, 8.7726 万m3之间。从而为恰当安排2000年木材剩余物的加工生产提供依据。问题:估计结果中没有显著性,去掉截距项 b0可以吗? 答:依据实际意义可知,没有木材采伐量就没有木材剩余物,所以理论上b0是可以取零的。而有些问题就不可以。例如家庭消费和收入的关系。即使家庭收入为零,消费仍然非零。一般来说,截距项的估计量没有显著性时,也不做剔出处理。 本案例剔出截距项后的估计结果是=
17、0.3853 xt (28.3) R2 = 0.91, s. e. = 2.0点预测值是2000 = 0.3853 x2000 = 0.3853 20 = 7.7060万m3 附录1:怎样用EViews通过键盘输入数据建立新工作文件的方法是从EViews主菜单中单击File键,选择New, Workfile。则打开一个数据范围选择框(Workfile Range)如图1。需要做出3项选择。选择数据性质。数据性质分为:启始期(Start date)。终止期(End date)。3项选择完毕后,点击“OK” 键。这时,会建立起一个尚未命名的工作文件(Workfile),且处于打开状态。当打开新工作
18、文件或现有工作文件后,可以通过键盘输入数据和追加数据。具体操作如下:从EViews主菜单中点击Quick键,选择Empty Group功能。这时会打开一个空白表格数据窗口(Group)如图3所示。每一个空格代表一个观测值位置。按列依次输入每一个变量(或序列)的观测值。键入每一个观测值后,可通过按回车键(Enter键)或方向指示键()进行确认。按方向指示键()的好处是在确认了当前输入的观测值的同时,还把光标移到了下一个待输入位置。每一列数据上方的灰色空格是用于输入变量名的。给变量命名时,字符不得超过16个。注意:下列名字具有特殊意义,给变量命名时,应避免使用。它们是:ABS,ACOS ,AR,A
19、SIN,C,CON,CNORM,COEF,COS,D,DLOG,DNORM,ELSE,ENDIF,EXP,LOG,LOGIT,LPT1,LPT2,MA,NA,NRND,PDL,RESID,RND,SAR,SIN,SMA,SQR,THEN。附录2:怎样用EViews预测。 以案例1为例,给定xt = 20,求=?EViews预测步骤如下。(1)点击Procs键选Change workfile range功能。在弹出的对话框的End data选择框处改为17。点击OK键。(2)双击工作文件的Sample:1 17区域,在弹出的对话框的Sample range pairs选择框处把16改为1 17。
20、(3)双击工作文件窗口中的x序列,打开x数据窗口。点击Edit+/-键,使x数据窗口处于可编辑状态。在t =17的x的观测值位置输入20。相当于给定x=20。(4)打开估计式eq01窗口,点击Forecast键。在S.E. 选择框处填入yfse,表示要yt的预测值(用YF表示)也要yt的预测标准差(用yfse表示)。点击OK键,工作文件窗口中已经出现一个yf序列。双击yf序列,可以看到。y17 = 7.322668。11相关理论相关分析是研究变量间相互关系的最基本方法。从相关分析中引出的相关系数是回归分析的一个基本统计量。掌握它有助于对经济问题和经济计量模型的分析与理解。11.1 相关的定义与
21、分类定义:相关(correlation)指两个或两个以上变量间相互关系的程度或强度。分类:按强度分 完全相关:变量间存在函数关系。例,圆的周长,L = 2r。 高度相关(强相关):变量间近似存在函数关系。例,我国家庭收入与支出的关系。 弱相关:变量间有关系但不明显。例,近年来我国耕种面积与产量。 零相关:变量间不存在任何关系。例,某班学生的学习成绩与年龄。 完全相关 高度相关、线性相关、正相关 弱相关 按变量个数分 按形式分:线性相关, 非线性相关 简单相关:指两个变量间相关 按符号分:正相关, 负相关, 零相关 复相关(多重相关和偏相关):指三个或三个以上变量间的相关。 非线性相关 负相关
22、零相关因非线性相关可以转化为线性相关处理,而复相关又可看作是简单相关基础上的拓展,所以后面重点介绍简单线性相关。11.2 简单线性相关的度量用简单线性相关系数,简称相关系数(correlation coefficient)度量两个变量间的线性相关强度,用 r 表示。r 的随机变量表达式是r 的统计表达式是其中T,总体容量;xt, yt,变量的观测值;mx,my,变量观测值的均值。下面解释 r 为什么能对变量间的线性相关强度进行定量度量。因为 r 表达式的分子是协方差,Cov (xt , yt);分母是xi和yt的标准差之积。而xt和yt的标准差不会为零,所以Cov (xt , yt) 是否为零
23、,就决定了r 是否为零,即标志着变量xt, yt间是否存在线性相关关系。但Cov(xt , yt) 有两个缺点:它是一个有量纲的量,取值容易受测量单位的影响;取值范围宽,相关性越强,Cov(xt , yt) 取值越大。为克服上述缺点,用xt, yt的标准差除Cov(xt , yt),于是就得到相关系数 r 的统计表达式。它是一个无量纲量。相关系数 r 是对总体而言。当研究某个问题时,所得数据常是一个样本。对样本来说,相关系数常用r表示,即r是总体相关系数 r 的估计值。r = = 其中T,样本容量;xt, yt,变量的观测值;,,变量观测值的均值。 11.3 相关系数的取值范围(1) 当两个变
24、量严格服从线性关系时,r= 1。 证:设直线斜率为k, 即y = a + k x。则有r = 1(2) 当两个变量不存在线性关系时,| r | = 0。(3)上述是两种极端情形,所以相关系数的取值范围是 -1,1。当Cov (xt , yt) 0时,则 r 0 (正相关);当Cov (xt , yt) 0时,则 r ra (T-2) (临界值),则xt和yt相关; 若 | r | ta (T-2) ,则xt和yt相关; 若 | t | ta (T-2) ,则xt和yt不相关。附录: 相关系数临界值表f a0.100.050.020.010.00110.987690.996920.9995070
25、.9998770.999998820.900000.950000.980000.990000.9990030.80540.87830.934330.958730.9911640.72930.81140.88220.917200.9740650.66940.75450.83290.87450.9507460.62150.70670.78870.83430.9249370.58220.66640.74980.79770.898280.54940.63190.71550.76460.872190.52140.60210.68510.73480.8471100.49330.57600.65810.70
26、790.8233110.47620.55290.63390.68350.8010120.45750.53240.61200.66140.7800130.44090.51390.59230.64110.7603140.42590.49730.57420.62260.7420150.41240.48210.55770.60550.7246160.40000.46830.54250.58970.7084170.38870.45550.52850.57510.6932180.37830.44380.51550.56140.6787190.36870.43290.50340.54870.6652200.
27、35980.42270.49210.53680.6524250.32330.38090.44510.48690.5974300.29600.34940.40930.44870.5541350.27460.32460.38100.41820.5189400.25730.30440.35780.39320.4896450.24280.28750.33840.37210.4648500.23060.27320.32180.35410.4433600.21080.25000.29480.32480.4078700.19540.23190.27370.30170.3799800.18290.21720.25650.28300.3568900.17260.20500.24220.26730.33751000.1638