《一元线性回归模型.pdf》由会员分享,可在线阅读,更多相关《一元线性回归模型.pdf(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-一元线性回归模型1一元线性回归模型有一元线性回归模型(统计模型)如下,yt=0+1xt+ut上式表示变量 yt和 xt之间的真实关系。其中yt称被解释变量(因变量),xt称解释变量(自变量),ut称随机误差项,0称常数项,1称回归系数(通常未知)。上模型可以分为两部分。(1)回归函数部分,E(yt)=0+1xt,(2)随机部分,ut。图 2.1真实的回归直线这种模型可以赋予各种实际意义,收入与支出的关系;如脉搏与血压的关系;商品价格与供给量的关系;文件容量与保存时间的关系;林区木材采伐量与木材剩余物的关系;身高与体重的关系等。以收入与支出的关系为例。假设固定对一个家庭进行观察,随着收入水平的
2、不同,与支出呈线性函数关系。但实际上数据来自各个家庭,来自各个不同收入水平,使其他条件不变成为不可能,所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。随机误差项 ut中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。所以在经济问题上“控制其他因素不变”是不可能的。回归模型的随机误差项中一般包括如下几项内容,(1)非重要解释变量的省略,(2)人的随机行为,(3)数学模型形式欠妥,(4)归并误差(粮食的归并)(5)测量误差等。回归模型存在两个特点。(1)建立在某些假定条件不变前提下抽象出来的回归函数不能百分之百地再现
3、所研究的经济过程。(2)也正是由于这些假定与抽象,才使我们能够透过复杂的经济现象,深刻认识到该经济过程的本质。通常线性回归函数 E(yt)=0+1xt是观察不到的,利用样本得到的只是对E(yt)=0+1xt的估计,即对0和1的估计。在对回归函数进行估计之前应该对随机误差项ut做出如下假定。(1)ut是一个随机变量,ut的取值服从概率分布。(2)E(ut)=0。(3)D(ut)=Eut-E(ut)2=E(ut)2=2。称 ui具有同方差性。(4)ut为正态分布(根据中心极限定理)。以上四个假定可作如下表达。utN(0,)。(5)Cov(ui,uj)=E(ui-E(ui)(uj-E(uj)=E(u
4、i,uj)=0,(i j)。含义是不同观测值所对应的随机项相互独立。称为ui的非自相关性。(6)xi是非随机的。(7)Cov(ui,xi)=E(ui-E(ui)(xi-E(xi)=Eui(xi-E(xi)=Euixi-ui E(xi)=E(uixi)=0.ui与 xi相互独立。否则,分不清是谁对yt的贡献。-(8)对于多元线性回归模型,解释变量之间不能完全相关或高度相关(非多重共线性)。在假定(1),(2)成立条件下有 E(yt)=E(0+1xt+ut)=0+1xt。2最小二乘估计(OLS)对于所研究的经济问题,通常真实的回归直线是观测不到的。收集样本的目的就是要对这条真实的回归直线做出估计。
5、怎样估计这条直线呢?显然综合起来看,这条直线处于样本数据的中心位置最合理。怎样用数学语言描述“处于样本数据的中心位置”?设估计的直线用+xtt=y01和分别是t称 yt的拟合值(fitted value)表示。其中y,010和1的估计量。观测值到t表示,称为残差。这条直线的纵向距离用u+xt+ut=tt+uyt=y01称为估计的模型。假定样本容量为T。(1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。(2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算
6、比较方便外,得到的估计量还具有优良特性。(这种方法对异常值非常敏感)设残差平方和用Q 表示,Q=ui1T2t=t)(yt yi1T2=(yt01xt)2,i1T和的估计值。以和为变量,把 Q 看作是则通过 Q 最小确定这条直线,即确定00011的函数,这是一个求极值的问题。求Q 对和的偏导数并令其为零,得正规方程,和011TQx)(-1)=0(1)=2(yt01ti10TQx)(-xt)=0(2)=2(yt01ti11下面用代数和矩阵两种形式推导计算结果。首先用代数形式推导。由(1)、(2)式得,(yt01xt)=0(3)i1T(yt01xt)xt=0(4)i1T-(3)式两侧用除 T,并整理
7、得,=y x(5)01把(5)式代入(4)式并整理,得,(yi1TTt(x x)xt=0(6)y)1tTi1(yt y)xt1(xi1t x)xt=0(7)=1Tx(y y)(8)(x x)xtttt因为x(yi1tt y)=0,x(xi1Tt x)=0,分别在(8)式的分子和分母上减x(yi1Tt y)和x(xi1T x)得,=1xt(yt y)t(xt x)xttx(yx(x2t y)x)(9)t(x x)(y y)=(10)(x x)t下面用矩阵形式推导T+(01xt)=yti1i1TT0i1T(xt+1xti1T2)=xtyti1T Txtytxt02=x yxt1tt T0=1xtx
8、txt21xt21yt=22x yTx(x)ttttxtxtTytx ytt这种形式在单位根检验的理论分析中非常有用。和的特性3最小二乘估计量01(1)线性特性和分别是 yt的线性函数。这里指01-=1(x x)(y y)=(x x)y y(x(x x)(x x)tttt22ttt x)=(x x)y(x x)ttt2令 kt=(xt x)(xt x)2,代入上式得=1ktyt1的线性估计量。同理0也具有线性特性。是 yt的线性函数,是可见1(2)无偏性利用上式)=E(E(1ktyt)=Ekt(0+1xt+ut)=E(0kt+1kt xt+kt ut)=E1kt(xt-x)+kt ut =1+
9、E(kt ut)=1(3)有效性0,1的 OLS 估计量的方差比其他估计量的方差小。Gauss-Marcov 定理:若 ut满足 E(ut)=0,D(ut)=2,那么用 OLS 法得到的估计量就具有最佳线性无偏性。估计量称最佳线性无偏估计量。最佳线性无偏估计特性保证估计值最大限度的集中在真值周围,估计值的置信区间最小。上面的评价是对小样本而言,若是对大样本而言还应讨论估计量的渐近无偏性,一致性和渐近有效性。先给出渐近分布的概念。渐近分布。用 T1 T2 TN表示连续递增样本容量。设在每个样本容量Ti下重复抽样。则每个 xTi都应有自己的均值 E(xTi)与方差 Var(xTi)。利用递增样本可
10、以求得随机变量序列,xT=xT1,xT2,xTN其中每个元素都是相应样本容量下的一个随机变量。当TN趋于无穷大时,这些分布收敛于某一分布。则称该分布为渐近分布或极限分布。渐近期望。对于期望值序列,E(xT)=E(xT1),E(xT2),E(xTN)如随着 T ,期望值 E(xT)收敛于某一常数,则称为 xT的渐近期望。记为Lim E(xT)=T(与期望概念不同)与期望值序列相对应,也可以写出方差序列。Var(xT)=E(xT-E(xT)2=ExT1-E(xT1)2,ExT2-E(xT2)2,ExTN-E(xTN)2但在许多情形下,Lim E(xT-E(xT)2=0,即 xT的分布退化为一点。例
11、如,已知x的分布是xT)。当 T ,Var(x)0。为防止分布发生退化,可以用 T 乘 Var(x)。当 T T,T Var(x)2。渐近方差。若上述随机变量序列有渐近期望,同时有新序列,ET(xT-E(xT)2=ET xT1-E(xT1)2,ET xT2-E(xT2)2,ET xTN-E(xTN)2 N(,2-满足Lim ET(xT-E(xT)2=vT则定义 xT的渐近方差为11Lim ET(xT-E(xT)2=vTTT的渐近期望为,则为渐近无偏性。若的渐近无偏估计量,即)=Lim E(TT满足(1)渐近无偏性,具有一致性,为)=0,则一致性 若(2)Lim Var(TT的一致估计量。满足(
12、1)具有一致性,的渐进方渐近有效性。若(2)与其他估计量的方差相比,)t2.15 落在了 H0的拒绝域,所以结论是1不为零。输出格式的最下部分给出了评价估计的回归函数的若干个统计量的值。依纵向顺序,这些统计量依次是可决系数 R2、调整的可决系数R2(第 3 章介绍)、回归函)数的标准差(s.e.,即均方误差的算术根、残差平方和、对数极大似然函数值(第2 章介绍)、DW统计量的值、被解释变量的平均数(y)、被解释变量的标准差(s(yt))、赤池(Akaike)信息准则(是一个选择变量最优滞后期的统计量)、施瓦茨(Schwatz)准则(是一个选择变量最优滞后期的统计量)、F 统计量(第 3 章介绍
13、)的值以及 F 统计量取值大于该值的概率。注意:S.D.和 s.e.的区别。s.e.和 SSE 的关系。根据 EViews输出结果(图 2.15),写出 OLS 估计式如下:t=-0.7629+0.4043 xt(2.64)y(-0.6)(12.1)R2=0.91,s.e.=2.04t2(162)。=u其中括号内数字是相应 t 统计量的值。s.e.是回归函数的标准误差,即R2是可决系数。R2=0.91 说明上式的拟合情况较好。yt变差的 91%由变量 xt解释。检验回归系数显著性的原假设和备择假设是(给定=0.05)H0:1=0;H1:10-图 2.16残差图因为 t=12.1 t0.05(1
14、4)=2.15,所以检验结果是拒绝1=0,即认为年木材剩余物和年木材采伐量之间存在回归关系。上述模型的经济解释是,对于伊春林区每采伐1 m3木材,将平均产生 0.4 m3的剩余物。t,图 2.16 给出相应的残差图。Actual 表示 yt的实际观测值,Fitted 表示 yt的拟合值yt。Residual 表示残差u残差图中的两条虚线与中心线的距离表示残差的一个标准差,即 s.e.。通过残差图可以看到,大部分残差值都落在了正、负一个标准差之内。估计1的置信区间。由t=P 得)t0.05(14)s(1111的置信区间是11s(1 t0.05(14)=0.95)-t0.05(14)s(),+t0
15、.05(14)s()11110.4043-2.15 0.0334,0.4043+2.15 0.03340.3325,0.4761(2.65)以 95%的置信度认为,1的真值范围应在0.3325,0.4761 范围中。下面求 yt的点预测和平均木材剩余物产出量的置信区间预测。假设乌伊岭林业局 2000年计划采伐木材 20 万 m3,求木材剩余物的点预测值。2000=-0.7629+0.4043 x2000y=-0.7629+0.4043 20=7.3231 万 m3(2.66)s2(xF x)21(+2000)=)y2(x x)T21(2033.25)2=4.1453(+)=0.45463722
16、.260616-因为2000)=0.4546=0.6742s(y+x2000)=0+1x2000=E(y2000)2000)=E(E(y01t=2000 E(y2000)y t(T-2)2000)s(y则置信度为 0.95 的 2000 年平均木材剩余物 E(y2000)的置信区间是2000 t0.05(14)s(y 2000)=7.3231 2.15 0.6742y=5.8736,8.7726(2.67)从而得出预测结果,2000 年若采伐木材 20 万 m3,产生木材剩余物的点估计值是 7.3231 万m3。平均木材剩余物产出量的置信区间估计是在 5.8736,8.7726 万 m3之间。
17、从而为恰当安排 2000 年木材剩余物的加工生产提供依据。没有显著性,去掉截距项问题:估计结果中00可以吗?答:依据实际意义可知,没有木材采伐量就没有木材剩余物,所以理论上0是可以取零的。而有些问题就不可以。例如家庭消费和收入的关系。即使家庭收入为零,消费仍然非零。一般来说,截距项的估计量没有显著性时,也不做剔出处理。本案例剔出截距项后的估计结果是t=0.3853 xty(28.3)R2=0.91,s.e.=2.0点预测值是2000=0.3853 x2000=0.3853 20=7.7060 万 m3y附录 1:怎样用 EViews通过键盘输入数据建立新工作文件的方法是从EViews主菜单中单
18、击 File 键,选择 New,Workfile。则打开一个数据范围选择框(Workfile Range)如图 1。需要做出 3 项选择。选择数据性质。数据性质分为:启始期(Start date)。终止期(End date)。3 项选择完毕后,点击“OK”键。这时,会建立起一个尚未命名的工作文件(Workfile),且处于打开状态。当打开新工作文件或现有工作文件后,可以通过键盘输入数据和追加数据。具体操作如下:从 EViews主菜单中点击 Quick 键,选择 Empty Group 功能。这时会打开一个空白表格数据窗口(Group)如图 3 所示。每一个空格代表一个观测值位置。按列依次输入每
19、一个变量(或序列)的观测值。键入每一个观测值后,可通过按回车键(Enter 键)或方向指示键()进行确认。按方向指示键()的好处是在确认了当前输入的观测值的同时,还把光标移到了下一个待输入位置。每一列数据上方的灰色空格是用于输入变量名的。给变量命名时,字符不得超过 16 个。注意:下列名字具有特殊意义,给变量命名时,应避免使用。它们是:ABS,ACOS,AR,ASIN,C,CON,CNORM,COEF,COS,D,DLOG,DNORM,ELSE,ENDIF,EXP,LOG,LOGIT,LPT1,LPT2,MA,NA,NRND,PDL,RESID,RND,SAR,SIN,SMA,SQR,THEN
20、。-附录 2:怎样用 EViews预测。t=?EViews预测步骤如下。以案例 1 为例,给定 xt=20,求y(1)点击 Procs 键选 Change workfile range 功能。在弹出的对话框的 End data 选择框处改为 17。点击 OK 键。(2)双击工作文件的 Sample:1 17 区域,在弹出的对话框的Sample range pairs 选择框处把 16 改为 1 17。(3)双击工作文件窗口中的x 序列,打开 x 数据窗口。点击 Edit+/-键,使 x 数据窗口处于可编辑状态。在 t=17 的 x 的观测值位置输入 20。相当于给定 x=20。(4)打开估计式
21、 eq01 窗口,点击 Forecast 键。在 S.E.选择框处填入 yfse,表示要 yt的预测值(用 YF 表示)也要 yt的预测标准差(用 yfse 表示)。点击 OK 键,工作文件窗口中已经出现一个 yf 序列。双击 yf 序列,可以看到。y17=7.322668。11相关理论相关分析是研究变量间相互关系的最基本方法。从相关分析中引出的相关系数是回归分析的一个基本统计量。掌握它有助于对经济问题和经济计量模型的分析与理解。11.1 相关的定义与分类定义:相关(correlation)指两个或两个以上变量间相互关系的程度或强度。分类:按强度分完全相关:变量间存在函数关系。例,圆的周长,L
22、=2r。高度相关(强相关):变量间近似存在函数关系。例,我国家庭收入与支出的关系。弱相关:变量间有关系但不明显。例,近年来我国耕种面积与产量。零相关:变量间不存在任何关系。例,某班学生的学习成绩与年龄。800Y60022.03.0Y2.5Y4001.5200X010203040501X010203040501.0X2.53.03.54.04.500.52.0完全相关高度相关、线性相关、正相关弱相关按变量个数分按形式分:线性相关,非线性相关简单相关:指两个变量间相关按符号分:正相关,负相关,零相关复相关(多重相关和偏相关):指三个或三个以上变量间的相关。2004YY1502Y21001050-2
23、0050100150200X250010203040X50-4X-4-2024非线性相关负相关零相关-因非线性相关可以转化为线性相关处理,而复相关又可看作是简单相关基础上的拓展,所以后面重点介绍简单线性相关。11.2 简单线性相关的度量用简单线性相关系数,简称相关系数(correlation coefficient)度量两个变量间的线性相关强度,用表示。的随机变量表达式是=Cov(xt,yt)D(xt)D(yt)。的统计表达式是=1T1TTt1(xtx)(yty)1TT=t1(xtx)2t1(yty)2Tt1(xtx)(yty)TTt1(xtx)2t1(yty)2T其中T,总体容量;xt,yt
24、,变量的观测值;x,y,变量观测值的均值。下面解释为什么能对变量间的线性相关强度进行定量度量。因为表达式的分子是协方差,Cov(xt,yt);分母是 xi和 yt的标准差之积。而 xt和 yt的标准差不会为零,所以 Cov(xt,yt)是否为零,就决定了是否为零,即标志着变量 xt,yt间是否存在线性相关关系。但 Cov(xt,yt)有两个缺点:它是一个有量纲的量,取值容易受测量单位的影响;取值范围宽,相关性越强,Cov(xt,yt)取值越大。为克服上述缺点,用 xt,yt的标准差除 Cov(xt,yt),于是就得到相关系数的统计表达式。它是一个无量纲量。相关系数是对总体而言。当研究某个问题时
25、,所得数据常是一个样本。对样本来说,相关系数常用 r 表示,即 r 是总体相关系数的估计值。1T(x x)(yt y)t1tT-1=r=1T1T(xt x)2(yt y)2t1t1T-1T-1t1(xt x)(yt y)TT2(x x)t1tt1(yt y)2T其中T,样本容量;xt,yt,变量的观测值;x,y,变量观测值的均值。11.3 相关系数的取值范围(1)当两个变量严格服从线性关系时,=1。证:设直线斜率为 k,即 y=a+k x。则有=(xt x)(yt y)(xt x)(yt y)22=(xt x)k(xt x)(xt x)k(xt x)222=1(2)当两个变量不存在线性关系时,
26、=0。(3)上述是两种极端情形,所以相关系数的取值范围是-1,1。当 Cov(xt,yt)0 时,则 0(正相关);当 Cov(xt,yt)0 时,则 r t(T-2),则 xt和 yt相关;若t r(f)=,其中表示显著性水平,f 表示自由度,r(f)为临界值。f11.6 偏相关系数以上介绍了简单线性相关系数,但是当两个变量xt,yt同时受其它变量z1t,z2t,影响时,-有必要研究当控制其它变量z1t,z2t,不变时,该两个变量 xt,yt之间的相关关系。称这种相关关系为偏相关关系。以3 个变量 xt,yt,zt,为例(多于 3 个变量的情形与此相似。),假定控制 zt不变,测度 xt,y
27、t偏相关关系的偏相关系数定义如下。xtyt,zt=控制 zt不变条件下的 xt,yt的简单相关系数。因为 zt也是随机变量,一般不容易得到控制 zt为一个常数条件下的 xt和 yt的值。实际计算方法是,从 xt,yt中分别剔除 zt的影响,然后计算相关系数。步骤如下:(1)求 xt对 zt的回归估计式,zt+u+txt=01计算残差,zt-t=xt-u01t中不再含有 zt对 xt的影响。u(2)求 yt对 zt的回归估计式,0+t1zt+vyt=计算残差,t=yt-0-1ztvt中不再含有 zt对 yt的影响。则ut的简单相关系数就是 xt与 yt在剔除 zt的影响后的偏t与vv相关系数,即
28、rutvt=rxtyt,zt例 2中央支出与地方支出的偏相关系数obs1981198219831984198519861987198819891990199119921993财政收入(INCOME)中央支出(X1)地方支出(X2)1089.5602.2512.81124575.1578.21249642.5649.91501.9738.7807.71866.4836.51008.22260.3962.31368.62368.91031.91416.626281060.41646.229471105.219353312.61372.82079.43610.91517.72295.84153.11
29、817.92571.85088.21957.23330.22000X130 00150020 00100010 00INCOME50010002000INCOME6000010 0020 0030 0040 0050 0060 0040 00X2r=0.9898r=0.9984300040005000-x1=170.90+0.3614income+RES1x2=-221.49+0.6952income+RES2(3.9)(23.1)(-6.6)(58.6)20 00X1100200R ES115 00010 00-10050 0010 0020 0030 00X240 00-200-100R
30、ES2-50050100150r=0.99r=-0.8511.7 复相关系数在多元回归中,用偏相关系数可以分别测量被解释变量对每个解释变量的偏相关关系,而复相关系数则是测量被解释变量与全部解释变量的相关关系。假定 yt是被解释变量,解释变量是 xt1,xt2,xt k 1,复相关系数的具体计算过程是(1)用 yt对 xt1,xt2,xt k-1回归,xt k-1+uxt1+tyt=k101t,求出 yt的拟合值序列yt的简单相关系数,则称ryty(2)计算 yt与yt是 yt与 xt1,xt2,xt k-1的复相关系数。复相关系数ryty t与简单相关系数 r 的区别是简单相关系数r 的取值范
31、围是-1,1,复相关系数ryty t的取值范围是0,1。实际上,复相关系数是可决系数的算术根。例 3:被解释变量是 yt(铅笔年销售量,千万支);解释变量分别是 xt1(自动铅笔年产量,百万支);xt2(全国人口数,百万人);xt3(居民年均消费水平,元);xt4(政策变量)。因政策因素影响铅笔销量出现大幅下降时,政策变量取负值。例如 1967、1968 年的 xt4值取-2,1966、1969-1971、1974-1977 年的 xt4值取-1)。t=-907.94-2.95xt 1+0.31 xt 2+170.19 Ln xt 3+45.51 xt 4y(-6.4)(-3.7)(4.8)(4.4)(12.6)R2=0.9885,DW=2.09,F=429,s.e.=10.34yt与 xt1,xt2,Ln xt 3 xt 4的复相关系数是rytyt=ryt,(x1x2Lnx3x4)=0.99422复相关系数是原回归方程确定系数的算术根。rytyt=R=0.9885=0.9942。相关系数的 EViews操作。打开数据窗口。选 View/Correlation-得相关系数矩阵如下。-