《《元线性回归》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《元线性回归》PPT课件.ppt(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Econometrics计 量量 经 济 学学第二章第二章 一元线性回归一元线性回归2.1 最小二乘法的基本思想及参数估计最小二乘法的基本思想及参数估计一、问题的提出必要性n如果两个如果两个变量之量之间存在存在线性性变化关系,那么化关系,那么这种关系种关系的具体表的具体表现形式是什么?形式是什么?n最好用数学表达式将最好用数学表达式将这种关系尽可能准确、种关系尽可能准确、严谨的表的表示出来示出来y=a+bx+u把它把它们之之间的内在的内在联系挖掘出系挖掘出来。也就是直来。也就是直线中的截距中的截距a=?;直?;直线的斜率的斜率b=?二、解决问题的思路可能性n寻找找变量之量之间直直线关系的方法很
2、多。于是如何从众多方关系的方法很多。于是如何从众多方法中,法中,寻找一种找一种优良的方法求出良的方法求出线性模型性模型y=a+bx+u中中的截距的截距a=?;直?;直线的斜率的斜率b=?n根据根据该方法所得,即表方法所得,即表现变量之量之间线性关系的直性关系的直线有些有些什么特性?什么特性?n所得直所得直线可靠可靠吗?怎?怎样衡量所得直衡量所得直线的可靠性?的可靠性?三、最小二乘法的数学原理n纵向距离是纵向距离是Y的实际值与拟合值之差,差异大的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误拟合不好,差异小拟合好,所以又称为拟合误差或残差。差或残差。n将所有纵向距离平方后相加
3、,即得误差平方和,将所有纵向距离平方后相加,即得误差平方和,“最好最好”直线就是使误差平方和最小的直线。直线就是使误差平方和最小的直线。n于是可以运用求极值的原理,将求最好拟合直于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。线问题转换为求误差平方和最小。数学推证过程数学推证过程拟合直线的性质拟合直线的性质n拟合直合直线过Y和和X的平均数点的平均数点n估估计残差和残差和为零零nY的真的真实值和和拟合合值有共同的均有共同的均值n估估计残差与自残差与自变量不相关量不相关n估估计残差与残差与拟合合值不相关不相关残差和残差和=0平均数相等平均数相等拟合值与残差不相关拟合值与残差不
4、相关自变量与残差不相关自变量与残差不相关注意:这里的残差与注意:这里的残差与随机扰动项不是一个随机扰动项不是一个概念。随机扰动项是概念。随机扰动项是总体的残差。总体的残差。估计残差与自变量不相关估计残差与自变量不相关估计残差与拟合值不相关估计残差与拟合值不相关2.2 线性回归模型的基本假设线性回归模型的基本假设自自变量(解量(解释变量)是非随机的确定性的量)是非随机的确定性的变量,而且彼量,而且彼此之此之间不相关(不相关(对于多个自于多个自变量),即量),即解解释变量与随机量与随机误差差项之之间不相关。不相关。随机随机误差差项具有零均具有零均值和同方差,即和同方差,即随机随机误差差项之之间不相
5、关,即不相关,即 (当(当样本容量本容量趋于无于无强大大时,由中心,由中心极限定理,极限定理,对于任何于任何实际模型都是模型都是满足)足)以上假以上假设也称也称为线性回性回归模型的模型的经典假典假设或或高斯(高斯(Gauss)假)假设,满足足该假假设的的线性回性回归模模型,也称型,也称为经典典线性回性回归模型模型(Classical Linear Regression Model,CLRM)。)。几个补充问题(1)样本序列的正态性检验)样本序列的正态性检验n检验样本序列的正态性可采用Jarque-Bera检验。该检验的零假设是样本服从正态分布,检验统计量为n其中m是产生样本序列时用到的估计系数
6、的个数。在零假设下JB统计量服从2(2)分布。nJarque-Bera检验n总体分布的正态性检验一般采取Jarque-Bera检验。正态分布的偏度(三阶矩)S=0,峰度(四阶矩)K=3,若样本来自正态总体,则他们分别在0,3附近。基于此构造一个包含x2(卡方)统计量:nn为样本容量,k为自由度.nJarque和Bera证明了在正态性假定下,如果J-B统计量的相伴概率值小于设定的概率水平,则拒绝原假设,不认样本概率服从正态分布;反之,则接受原假设。nMatlab实现:h=jbtest(female(2,:);%正态性检验n若h=0接受正态性假设nMatlab命令:h=jbtest(x),h,p,
7、jbstat,cv=jbtest(x,alpha)。n例如:例如:样本序列取2002年我国30个地区以1978年为基衡量的实际人均GDP,采用Eviews软件计算有 S 则2002年各地区人均GDP呈现右偏、尖峰的分布形态,并且在99%的置信水平下拒绝零假设,即序列不服从正态分布。(2)检验的显著性水平)检验的显著性水平 虚拟假设:H0;对立假设:H1。在假设检验中存在两类错误:拒绝一个其实是真的虚拟假设,即第类错误;第 类错误是指H0实际上是错误的,但没有拒绝它。检验的显著性水平(significance level)则定义为第类错误的概率,用符号表示为:P(拒绝H0|H0)即当H0为真时拒
8、绝H0的概率。(3)检验的)检验的p值值 检验的p值(p-value)是指给定t统计量的观测值,能拒绝虚拟假设的最小显著性水平。小的p值是拒绝虚拟假设的证据。例例:df=40,t(检验统计量的数值),则针对双侧对立假设来检验虚拟假设 的p值为n以上p值意味着,如果虚拟假设正确,那么我们约有7.2%次观察到t统计量的绝对值至少和一样大。可以看出,p值越小,对应的统计量值t应该越大,越可能拒绝H0。面积-1.851.85面积0.0359面积0.9282n如果用表示检验的显著性水平(小数形式),那么p值时,则拒绝虚拟假设,否则在100%显著性水平下,不能拒绝H0。n注意注意(1)对于线性回归方程,一
9、般软件包报告了回归系数及标准误,并且给出了针对双侧对立假设的p值,将其除以2,即可得到单侧对立假设的p值;(2)随着样本容量的扩大,一般使用较小的显著性水平,以作为抵偿标准误越来越小的一种办法;对于小样本容量,可以接受较大的显著性水平,可以让大到2.3 最小二乘估计量的性质最小二乘估计量的性质当模型参数估当模型参数估计出后,需考出后,需考虑参数估参数估计值的精度,即是否的精度,即是否能代表能代表总体参数的真体参数的真值,或者,或者说需考察参数估需考察参数估计量的量的统计性性质。考察考察标准准(1)线性性性性,即是否是另一随机,即是否是另一随机变量的量的线性函数;性函数;(2)无偏性无偏性,即均
10、,即均值或期望或期望值是否等于是否等于总体的真体的真实值;(3)有效性有效性,即是否在所有,即是否在所有线性无偏估性无偏估计量中具有最小量中具有最小方差。方差。这三个准三个准则也称作估也称作估计量的小量的小样本性本性质。拥有有这类性性质的估的估计量称量称为最佳最佳线性无偏估性无偏估计量(量(best liner unbiased estimator,BLUE)。)。当不当不满足小足小样本性本性质时,需,需进一步考察估一步考察估计量的量的大大样本本或或渐近性近性质:(4)渐近近无无偏偏性性,即即样本本容容量量趋于于无无穷大大时,是是否否它它的的均均值序列序列趋于于总体真体真值;(5)一一致致性性
11、,即即样本本容容量量趋于于无无穷大大时,它它是是否否依依概概率率收收敛于于总体的真体的真值;(6)渐近近有有效效性性,即即样本本容容量量趋于于无无穷大大时,是是否否它它在在所有的一致估所有的一致估计量中具有最小的量中具有最小的渐近方差。近方差。高斯高斯马尔可夫定理马尔可夫定理(Gauss-Markov theorem)在在给给定定经经典典线线性性回回归归的的假假定定下下,最最小小二二乘乘估估计量是具有最小方差的线性无偏估计量。计量是具有最小方差的线性无偏估计量。最小二乘估计量二乘估计量(1)线性性,即估计量)线性性,即估计量 是是Yi的线性组合的线性组合证证:易知易知故故同样地,容易得出同样地
12、,容易得出(2)无偏性,即估计量)无偏性,即估计量 的均值等于总体回归的均值等于总体回归参数真值参数真值(3)有效性(最小方差性,即在所有线性无偏估)有效性(最小方差性,即在所有线性无偏估计量中,最小二乘估计量计量中,最小二乘估计量 具有最小方差具有最小方差先求先求 的方差的方差证明最小方差性证明最小方差性其中,其中,ci=ki+di,di为不全为零的常数,则容易证明为不全为零的常数,则容易证明 普通最小二乘估计量普通最小二乘估计量(ordinary least Squares Estimators)称为)称为最佳线性无偏估计量最佳线性无偏估计量(best linear unbiased es
13、timator,BLUE)由于最小二乘估由于最小二乘估计量量拥有一个有一个“好好”的估的估计量所量所应具具备的小的小样本特性,它自然也本特性,它自然也拥有大有大样本特性。本特性。如考察的如考察的 一致性一致性(4)随机误差项估计量的无偏性问题)随机误差项估计量的无偏性问题由前面随机误差项由前面随机误差项 的方差估计量为:的方差估计量为:其中其中 为残差为残差 通过变化可得:通过变化可得:2.4 一元线性回归模型的检验一元线性回归模型的检验一、模型的一、模型的拟合合优度度检验n由最小二乘法所得直由最小二乘法所得直线究竟能究竟能够对这些点之些点之间的关系的关系加以反映加以反映吗?对这些点之些点之间
14、的关系或的关系或趋势反映到了何反映到了何种程度?种程度?n必必须经过某种某种检验或者找出一个指或者找出一个指标,在一定可靠程,在一定可靠程度下,根据指度下,根据指标值的大小,的大小,对拟合的合的优度度进行行评价。价。(1)平方和的分解)平方和的分解(a)总平方和(平方和(TSS)、回)、回归平方和(平方和(ESS)、残差平方)、残差平方和(和(RSS)的定)的定义(b)平方和的分解)平方和的分解(c)自由度的分解)自由度的分解(a)总平方和、回平方和、回归平方和、残差平方和平方和、残差平方和nTSS为总体平方和,反映体平方和,反映样本本观测值总体离差的大小;体离差的大小;ESS为回回归平方和,
15、反映由模型中解平方和,反映由模型中解释变量所解量所解释的那的那部分离差的大小;部分离差的大小;RSS为残差平方和,反映残差平方和,反映样本本观测值与估与估计值偏离的大小,也是模型中解偏离的大小,也是模型中解释变量未解量未解释的那部分离差的大小。的那部分离差的大小。(b)平方和的分解平方和的分解平方和分解的意平方和分解的意义TSS=ESS+RSSn被解被解释变量量Y总的的变动(差异)(差异)=解解释变量量X引起的引起的变动(差异)(差异)+除除X以外的因素引起的以外的因素引起的变动(差异)(差异)n如果如果X引起的引起的变动在在Y的的总变动中占很大比例,那么中占很大比例,那么X很好地解很好地解释
16、了了Y;否;否则,X不能很好地解不能很好地解释Y。(c)自由度的分解)自由度的分解 总自由度:自由度:dfT=n-1 回回归自由度:自由度:dfE=k=1(k为自自变量的个数)量的个数)残差自由度:残差自由度:dfR=n-k-1=n-2 自由度分解:自由度分解:dfT=dfR+dfE(2)拟合优度(或称判决定系数)拟合优度(或称判决定系数)n拟合合优度的定度的定义:n意意义:拟合合优度越大,自度越大,自变量量对因因变量的解量的解释程度越程度越高,自高,自变量引起的量引起的变动占占总变动的百分比高。的百分比高。观察点察点在回在回归直直线附近越密集。附近越密集。n取取值范范围:0-1修正的修正的n
17、在在应用用过程中,如果在模型中增加一个解程中,如果在模型中增加一个解释变量,模量,模型的解型的解释功能增功能增强了,回了,回归平方和增大了,平方和增大了,也增大了。也增大了。从而从而给人一个人一个错觉:要使得模型:要使得模型拟合得好,就必合得好,就必须增增加解加解释变量,但是在量,但是在样本容量一定的情况下,增加解本容量一定的情况下,增加解释变量必定使得自由度减少,于是量必定使得自由度减少,于是实际应用中引用中引进修修正的决定系数正的决定系数 ,具体表达式,具体表达式为(其中(其中n是是样本容量,本容量,n-k-1n-1-1为残差平方和的自由度,残差平方和的自由度,n-1为总体平方体平方和的自
18、由度)和的自由度):例子:收入与消费模型n例如在分析收入例如在分析收入对消消费的影响的模型中,任意增加一的影响的模型中,任意增加一个个变量,例如量,例如X1,2,,23,则 增加,增加,F检验通通过,但,但X系数的系数的t检验未通未通过。(3)拟合优度等于实际值与拟合值之间简单相关拟合优度等于实际值与拟合值之间简单相关系数的平方系数的平方 旨在旨在对模型中被解模型中被解释变量与解量与解释变量之量之间的的线性性关系在关系在总体上是否成立作出推断。即体上是否成立作出推断。即检验方程中的参方程中的参数是否数是否显著不著不为0,零假,零假设如下如下n由于由于Yi服从正服从正态分布,分布,则有解有解释(
19、回(回归)平方和)平方和(explained sum of squares)而残差平方和(而残差平方和(residual sum of squares)二、方程的显著性检验(F检验)由此构造由此构造统计量量F值小意味着小意味着X与与Y之之间(线性)关系很弱,而性)关系很弱,而F值大意味大意味X与与Y之之间(线性)关系很性)关系很强。根据。根据变量的量的样本本观测值和估和估计值,计算算F统计量的数量的数值,给定一个定一个显著性水平,著性水平,查F分布分布表,若表,若F大于大于临界界值Fa(1,n-2),则拒拒绝零假零假设,则认为在在显著性水平著性水平a下回下回归方程方程显著,反之著,反之则不不显
20、著著三、三、变量的量的显著性著性检验(t检验)主要主要对多元多元线性回性回归模型而言,在方程的模型而言,在方程的总体体线性关系呈性关系呈显著性著性时,并不能,并不能说明每个解明每个解释变量量对被解被解释变量的影响是量的影响是显著的,必著的,必须对每个解每个解释变量量进行行显著性著性检验,以决定是否作,以决定是否作为解解释变量保留在量保留在模型中。其模型中。其检验的思路与方程的思路与方程显著性著性检验相似,相似,应用最用最为普遍的普遍的为t检验。如果如果变量量x显著与著与y线性相关的,性相关的,则参数参数b应该是是显著的。于是在著的。于是在变量的量的显著性著性检验中即中即检验零假零假设n构造构造
21、检验用用统计量:量:n统计量量t t服从自由度服从自由度为n-2n-2的的t t分布,分布,对于于给定的定的显著性著性水平水平,查t t分布表,得分布表,得临界界值n若若|t t|小于小于临界界值,则未通未通过检验,大于,大于临界界值则通通过检验。2.5 实例与实例与Eviews应用应用 例例一一 考考察察中中国国居居民民收收入入与与消消费费支支出出的的关关系系GDPP:人均国内生人均国内生产总值(1990年不年不变价)价)CONSP:人均居民消:人均居民消费(以居民消(以居民消费价格指数(价格指数(1990=100)缩减)。减)。该两两组数据是数据是19782000年的年的时间序列数据(序列
22、数据(time series data),),拟建立如下一元回建立如下一元回归模型模型采用采用Eviews软件件进行回行回归分析的分析的结果果见下表下表 模型构建模型构建一般可写出如下回一般可写出如下回归分析分析结果:果:(13.51)(53.47)R2 模型检验模型检验 R2T值:C:,:,GDPP:53.47 临界界值:t斜率斜率项:00.38621,符合,符合绝对收入假收入假说预测 2001年:年:GDPP(元)(元)(90年不年不变价)价)点估点估计:CONSP2001(元)(元)2001年年实测的的CONSP(1990年价)元,年价)元,相相对误差差:-1.32%。例一 首席执行官(
23、CEO)的薪水和净资产回报率 对于CEO构成的总体,薪水(salary)以千美元为单位,roe表示某个CEO的公司在过去三年里的平均净资产回报率,它被定义为纯收入占普通净资产的百分比。这样为了研究公司业绩和CEO薪水之间的关系,建立以下简单模型:salary=0+1roe+u例一 首席执行官(CEO)的薪水和净资产回报率利用来自Wooldridge(2003)中的数据集的数据,采用Eviews进行回归得到以下结果:salary=roe例二 工资与教育的关系分析以1976年的劳动力为总体,工资Wage以每小时的美元数计算,变量educ表示受教育的年数,数据来源于Wooldridge(2003)中
24、的数据集的数据,采用Eviews进行回归得到以下结果:wageeduc这里截距从表面上看表示一个没有接受过教育的人的预测工资是-90美分,但事实上这没有意义,因为在这个样本中没有一个人接受的教育是少于8年的。练习 智商与工资的关系分析 利用Wooldridge(2003)中的数据集的数据估计一个简单回归以便用智商得分数(IQ)来解释月工资。(1)求出样本中的平均工资和平均IQ。IQ的标准差是多少?(总体的IQ已标准化为平均值是100,标准差为15)(2)估计一个简单回归模型,要求其中任何一个单位的IQ变化导致的美元工资变化是相同的。利用该模型计算IQ增加15点时工资的预期变化。IQ能够解释大部分的工资变异吗?(3)现再估计一个模型,要求其中IQ增长一个点对工资的影响的百分比是相同的。如果IQ增加15点,预期工资增加的百分比大约是多少?给出误差项的方差的无偏估计量。