《线性回归的定式偏差.pptx》由会员分享,可在线阅读,更多相关《线性回归的定式偏差.pptx(71页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、会计学1线性回归的定式偏差线性回归的定式偏差2n n前面介绍的线性回归分析建立在模型假设成立的基础上,但这些假设并不必然成立。n n本章讨论变量关系非线性、存在异常值、规律性扰动和解释变量缺落等,导致线性回归模型前两条假设不成立的定式偏差,包括它们对线性回归分析的影响,判断和处理的方法等。第1页/共71页3本章结构本章结构本章结构本章结构第一节 变量关系非线性 第二节 异常值第三节 规律性扰动 第四节 解释变量缺落 第五节 参数变化第2页/共71页4第一节第一节 变量关系非线性变量关系非线性一、问题二、发现与判断三、问题处理和非线性回归 第3页/共71页5一、问题一、问题n n线性回归模型都假
2、设变量关系是线性随机函数关系,或者经过特线性回归模型都假设变量关系是线性随机函数关系,或者经过特定数学变换以后是线性随机函数关系。定数学变换以后是线性随机函数关系。n n但实际变量关系可能会存在偏差,存在用线性模型分析非线性关但实际变量关系可能会存在偏差,存在用线性模型分析非线性关系的可能性。系的可能性。n n把非线性变量关系当作线性关系处理,也可以说是违反误差项均把非线性变量关系当作线性关系处理,也可以说是违反误差项均值为值为0 0的假设,对线性回归分析的有效性有根本性的破坏作用。的假设,对线性回归分析的有效性有根本性的破坏作用。第4页/共71页6n n例如若两个变量之间的真实关系为:例如若
3、两个变量之间的真实关系为:n n其中其中 满足满足 =0=0和线性回归模型的其他假设,但如果我们直接用:和线性回归模型的其他假设,但如果我们直接用:进行回归分析,那么因为:进行回归分析,那么因为:n n因此:因此:n n 显然不可能始终为显然不可能始终为0 0。第5页/共71页7n n把非线性变量关系作为线性关系进行分析是变量关系的误识别。n n不仅会使得回归分析的拟合程度降低,还会对经济规律作出错误判断,以及导致较大的预测偏差,属于计量经济分析比较严重的问题。第6页/共71页8二、发现与判断二、发现与判断n n由于有随机扰动因素的影响,线性回归模型的错误设定并不是很容易发现的。n n发现和判
4、断变量关系非线性,首先是用数理经济分析的方法,对模型的函数关系进行更深入的分析。n n其次是根据数据和及其分布图形、散点图进行直接判断。第7页/共71页9n n更重要的方法是根据回归残差序列,从技术更重要的方法是根据回归残差序列,从技术角度发现和判断异常值问题。角度发现和判断异常值问题。n n回归残差序列根据被解释变量的实际值和回回归残差序列根据被解释变量的实际值和回归理论值之差计算。归理论值之差计算。n n在在EViewsEViews软件进行回归分析时,可以在得到软件进行回归分析时,可以在得到回归结果后在回归结果窗口点击回归结果后在回归结果窗口点击View/ActualView/Actual
5、,FittedFitted,Residual/ActualResidual/Actual,fittedfitted,residual tableresidual table,直接得到回归残差序列和残差序列图。,直接得到回归残差序列和残差序列图。n n如果模型存在变量关系非线性问题,回归残如果模型存在变量关系非线性问题,回归残差序列会表现出有规律的变化。差序列会表现出有规律的变化。第8页/共71页10n n例如当发现模型的回归残差序列有图例如当发现模型的回归残差序列有图5.15.1所示所示的规律性变化,就应该考虑存在把非线性关的规律性变化,就应该考虑存在把非线性关系(二次函数等)当作线性关系进行
6、回归的系(二次函数等)当作线性关系进行回归的问题,必须进行处理。问题,必须进行处理。图图图图5.1 5.1 非线性变量关系的残差序列非线性变量关系的残差序列非线性变量关系的残差序列非线性变量关系的残差序列 第9页/共71页11n n用回归残差序列判断变量关系非线性的最大问题是,线性回归模型的其他某些一些问题,如参数(结构)改变等,与变量关系非线性的表现形式常常很相似,不容易正确区分。n n因此必须结合问题背景分析、相关理论和经验进行综合判断,然后再通过处理和结果的反复比较加以确定。第10页/共71页12三、问题处理和非线性回归三、问题处理和非线性回归 n n解决错误的第一步,是恢复变量之间的真
7、实函数关系。n n然后再设法通过幂函数、对数化等数学变换等,把非线性关系转化为正确的线性回归模型。n n如果变量关系可以用初等数学变化转化为线性模型,那么只要在转化后再进行线性回归分析就可以了。第11页/共71页13n n但也有不少非线性变量关系无法通过初等数学变换转化为线性模型。例如Y和X之间有两变量关系如下:n n其中 、是未知参数,这个函数就无法通过初等数学变换转化为线性模型。n n这时候就需要直接处理非线性回归模型。非线性回归分析是线性回归分析的自然扩展。第12页/共71页14n n我们假设非线性函数关系为:我们假设非线性函数关系为:n n其中其中 是是K K个解释变量,个解释变量,是
8、模型的是模型的P P个参数,个参数,为多元非线性函数,且对为多元非线性函数,且对 是连是连续可微的。续可微的。n n对于这种非线性回归模型,解决的方法之一对于这种非线性回归模型,解决的方法之一是利用级数展开方法作非线性函数的近似线是利用级数展开方法作非线性函数的近似线性函数,把模型强制性化为线性模型。性函数,把模型强制性化为线性模型。第13页/共71页15n n泰勒级数展开先要取一组参数的初始值:泰勒级数展开先要取一组参数的初始值:n n然后将上述非线性函数在该点处对然后将上述非线性函数在该点处对 作作泰勒级数展开,并只取其中的线性项而忽略泰勒级数展开,并只取其中的线性项而忽略所有高次项,得到
9、:所有高次项,得到:第14页/共71页16n n其中其中 为原变量关系中的误差项为原变量关系中的误差项 与泰勒级数展开的高阶项之和。与泰勒级数展开的高阶项之和。n n整理上述展开式,移项合并可化为:整理上述展开式,移项合并可化为:第15页/共71页17n n若令:若令:n n我们得到:我们得到:n n这是一个这是一个 对对 的线性回归模型,可以用的线性回归模型,可以用最小二乘法估计其中参数最小二乘法估计其中参数 的估计值,我的估计值,我们记为们记为 第16页/共71页18n n经过泰勒级数展开得到的线性模型只是原变经过泰勒级数展开得到的线性模型只是原变量关系的近似,虽然可以把量关系的近似,虽然
10、可以把 作为原模作为原模型参数的估计,但效果可能没有保证。型参数的估计,但效果可能没有保证。n n由于由于 和参数真实值的近似程度越高,级和参数真实值的近似程度越高,级数展开忽略的高阶项越不重要,因此提高级数展开忽略的高阶项越不重要,因此提高级数展开初始值与参数真实值的近似程度有利数展开初始值与参数真实值的近似程度有利于提高上述间接估计的精度。于提高上述间接估计的精度。n n提高近似程度的方法是,把前一次回归得到提高近似程度的方法是,把前一次回归得到的估计值作为新的级数展开初始值,再进行的估计值作为新的级数展开初始值,再进行新的级数展开。然后再作变换和线性回归,新的级数展开。然后再作变换和线性
11、回归,得到另一组参数估计值。得到另一组参数估计值。第17页/共71页19n n这个程序可以反复进行,直到参数估计值收敛或不再有大的变化。这个程序可以反复进行,直到参数估计值收敛或不再有大的变化。n n最后得到的最后得到的 就是非线性回归模型的参数估计值。就是非线性回归模型的参数估计值。n n除了上述泰勒级数展开线性化近似的迭代方法以外,还可以直接除了上述泰勒级数展开线性化近似的迭代方法以外,还可以直接进行非线性回归分析。进行非线性回归分析。n n不过由计量软件进行非线性回归的迭代优化分析就不存在这方面不过由计量软件进行非线性回归的迭代优化分析就不存在这方面的困难,只要直接输入相关命令即可。的困
12、难,只要直接输入相关命令即可。第18页/共71页20例例51某地消费函数某地消费函数 表表表表5.1 5.1 某地消费函数相关数据某地消费函数相关数据某地消费函数相关数据某地消费函数相关数据年度年度 Y C Y C 年度年度 Y C Y C 年度年度 Y CY C1950 791.8 733.2 1962 1170.2 1069.0 1974 1896.6 1674.01950 791.8 733.2 1962 1170.2 1069.0 1974 1896.6 1674.01951 819.0 748.7 1963 1207.3 1108.4 1975 1931.7 1711.91951 8
13、19.0 748.7 1963 1207.3 1108.4 1975 1931.7 1711.91952 844.3 771.4 1964 1291.0 1170.6 1976 2001.0 1803.91952 844.3 771.4 1964 1291.0 1170.6 1976 2001.0 1803.91953 880.0 802.5 1965 1365.7 1236.4 1977 2066.6 1883.81953 880.0 802.5 1965 1365.7 1236.4 1977 2066.6 1883.81954 894.0 822.7 1966 1431.3 1298.9
14、1978 2167.4 1961.01954 894.0 822.7 1966 1431.3 1298.9 1978 2167.4 1961.01955 944.5 873.8 1967 1493.2 1337.7 1979 2212.6 2004.41955 944.5 873.8 1967 1493.2 1337.7 1979 2212.6 2004.41956 989.4 899.8 1968 1551.3 1405.9 1980 2214.3 2000.41956 989.4 899.8 1968 1551.3 1405.9 1980 2214.3 2000.41957 1012.1
15、919.7 1969 1599.8 1456.7 1981 2248.6 2024.21957 1012.1 919.7 1969 1599.8 1456.7 1981 2248.6 2024.21958 1028.8 932.9 1970 1688.1 1492.0 1982 2261.5 2050.71958 1028.8 932.9 1970 1688.1 1492.0 1982 2261.5 2050.71959 1067.2 979.4 1971 1728.4 1538.8 1983 2334.6 2145.91959 1067.2 979.4 1971 1728.4 1538.8
16、1983 2334.6 2145.91960 1091.1 1005.1 1972 1797.4 1621.9 1984 2468.4 2239.91960 1091.1 1005.1 1972 1797.4 1621.9 1984 2468.4 2239.91961 1123.2 1025.2 1973 1916.3 1689.6 1985 2509.0 2312.61961 1123.2 1025.2 1973 1916.3 1689.6 1985 2509.0 2312.6第19页/共71页21n n为了选择进行回归分析的模型,可以用EViews软件作两个变量的散点图。n n建立工作文件
17、和输入收据后,用Graph命令或菜单操作可得到两个变量的如下散点图:第20页/共71页22图图图图5.2 5.2 某地收入对消费的散点图某地收入对消费的散点图某地收入对消费的散点图某地收入对消费的散点图 第21页/共71页23n n根据对上述散点图的直观判断,对消费和收入进行线性回归分析基本上是合理的。n n但是,如果我们进一步通过该回归结果窗口的菜单操作得到下列残差序列图,如图5.3,可以发现该回归残差序列显示出明显的规律性变化,包含了明显的趋势性。第22页/共71页24图图图图5.3 5.3 某地消费函数回归残差序列图某地消费函数回归残差序列图某地消费函数回归残差序列图某地消费函数回归残差
18、序列图 第23页/共71页25n n根据该残差序列图,可以考虑变量之间存在非线性关系的可能,因此可考虑采用泰勒级数展开方法作非线性函数的近似线性函数,把模型强制性化为线性模型。第24页/共71页26第二节第二节 异常值异常值一、问题二、异常值的发现判断三、问题的处理第25页/共71页27一、问题一、问题n n现实经济中常常存在这样的情况,一些突发事件或变化对经济活动、经济关系造成短暂的,但却是很显著的冲击影响。n n这些影响既不能被看作微小的随机扰动,但又不会决定或改变长期的经济关系,或者说经济规律。n n这种情况在经济数据上反映出来,就会表现为一个脱离基本趋势的异常值。第26页/共71页28
19、n n如果所研究的经济问题或相关数据中存在这如果所研究的经济问题或相关数据中存在这种情况,建立线性回归模型时又没有预先处种情况,建立线性回归模型时又没有预先处理或剔除这种影响,就会表现为模型误差项理或剔除这种影响,就会表现为模型误差项在相应时点存在均值非在相应时点存在均值非0 0的问题。的问题。n n例如变量例如变量Y Y 和和X X 在长期中的关系基本满足线性在长期中的关系基本满足线性回归模型的各个假设,但在时刻回归模型的各个假设,但在时刻 有一个突发有一个突发情况,使得情况,使得Y Y 出现一个出现一个C C 单位的暂时性波动。单位的暂时性波动。那么如果用线性回归模型:那么如果用线性回归模
20、型:分析这两个变量的关系,其误差项的均值是:分析这两个变量的关系,其误差项的均值是:第27页/共71页29n n显然不是显然不是 对任意对任意i i 都成立,也就是模型的假设(都成立,也就是模型的假设(2 2)是不成)是不成立的。立的。n n这种情况如果不作处理,线性回归分析的有效性也会受到不利影这种情况如果不作处理,线性回归分析的有效性也会受到不利影响。响。n n异常值会使回归分析结果出现较大偏差,参数估计量的性质和相异常值会使回归分析结果出现较大偏差,参数估计量的性质和相关统计推断都会失效。关统计推断都会失效。第28页/共71页30二、异常值的发现判断二、异常值的发现判断n n发现和判断异
21、常值的方法之一是分析经济问题的相关背景情况,发现和判断异常值的方法之一是分析经济问题的相关背景情况,包括对经济现象、相关社会经济事件以及数据序列的直接分析等。包括对经济现象、相关社会经济事件以及数据序列的直接分析等。n n残差序列分析也是从技术角度发现和判断异常值问题的基本方法。残差序列分析也是从技术角度发现和判断异常值问题的基本方法。n n因为异常值只是个别情况,最小二乘估计仍然是一致估计量,回因为异常值只是个别情况,最小二乘估计仍然是一致估计量,回归残差中会包含由于异常值所导致模型误差项均值非归残差中会包含由于异常值所导致模型误差项均值非0 0的信息。的信息。第29页/共71页31回归残差
22、序列分析发现和判断回归残差序列分析发现和判断回归残差序列分析发现和判断回归残差序列分析发现和判断异常值问题的方法异常值问题的方法异常值问题的方法异常值问题的方法 n n在模型假设成立的前提下,回归残差是服从在模型假设成立的前提下,回归残差是服从正态分布的随机变量,其取值正态分布的随机变量,其取值95%95%左右的概率左右的概率应分布在均值加减应分布在均值加减2 2倍标准差的范围内。倍标准差的范围内。n n如果发现某个残差如果发现某个残差 出现:出现:其中其中 是残差的标准差,模是残差的标准差,模型在时点型在时点i i处就很可能存在异常值问题。处就很可能存在异常值问题。第30页/共71页32n
23、n上述回归残差序列分析等价于下列残差序列图分析。上述回归残差序列分析等价于下列残差序列图分析。n n把根据回归残差序列和残差标准差计算出的把根据回归残差序列和残差标准差计算出的 /S S数据序列,描绘到数据序列,描绘到以以i i为横轴,以为横轴,以 /S S为纵轴的坐标平面上,再在纵轴的为纵轴的坐标平面上,再在纵轴的 处画上两处画上两条水平的临界线。条水平的临界线。n n以误差序列中是否有点落在两条临界线范围之外作为判断异常值以误差序列中是否有点落在两条临界线范围之外作为判断异常值的初步标准。的初步标准。第31页/共71页33图图图图5.4 5.4 异常值的残差序列图检验异常值的残差序列图检验
24、异常值的残差序列图检验异常值的残差序列图检验第32页/共71页34n n用用EViewsEViews软件进行回归分析可以直接输出残软件进行回归分析可以直接输出残差序列图,并且在图形中包括有两倍标准差差序列图,并且在图形中包括有两倍标准差的临界值,因此可以直接根据的临界值,因此可以直接根据EViewsEViews输出的输出的残差序列图判断是否有异常值的可能性。残差序列图判断是否有异常值的可能性。n n如果有个别如果有个别 /S S坐标落在两条临界线的范围坐标落在两条临界线的范围以外,就意味着在以外,就意味着在i i 时点上有异常值。时点上有异常值。n n当然,如果落在临界线以外的点有多个,那当然
25、,如果落在临界线以外的点有多个,那么一方面可以考虑存在多个异常值的可能性,么一方面可以考虑存在多个异常值的可能性,另外也应该怀疑存在其他系统性偏差。另外也应该怀疑存在其他系统性偏差。第33页/共71页35n n存在多个较大残差不能简单地认为是多个异存在多个较大残差不能简单地认为是多个异常值,而是应该作进一步的深入分析,结合常值,而是应该作进一步的深入分析,结合对其他问题的分析进行判断。对其他问题的分析进行判断。n n此外,上述残差序列判断异常值的临界值标此外,上述残差序列判断异常值的临界值标准是准是95%95%置信度的,当置信度的,当 /S S的绝对值落在的绝对值落在2 2到到3 3之间时,用
26、之间时,用95%95%的置信度判断有异常值,而用的置信度判断有异常值,而用99%99%的置信度判断则可能没有异常值,因此仍的置信度判断则可能没有异常值,因此仍然存在模糊的地方。然存在模糊的地方。n n这时候必须与问题背景分析结合起来考虑,这时候必须与问题背景分析结合起来考虑,并考虑各点残差相对情况等。并考虑各点残差相对情况等。第34页/共71页36三、问题的处理三、问题的处理n n如果判断模型存在异常值问题,必须作针对性的处理。如果判断模型存在异常值问题,必须作针对性的处理。n n例如一个两变量线性回归模型例如一个两变量线性回归模型 ,在,在 处存在异常值问处存在异常值问题:题:n n解决的方
27、法是引进一个针对性的虚拟变量解决的方法是引进一个针对性的虚拟变量D D,其定义式为:,其定义式为:第35页/共71页37n n把这个虚拟变量引进原来的模型,得到一个把这个虚拟变量引进原来的模型,得到一个新的回归模型新的回归模型 ,因此因此n n在引进虚拟变量在引进虚拟变量D D的新模型中,异常值就不会的新模型中,异常值就不会造成模型误差项出现均值非造成模型误差项出现均值非0 0的问题了,从而的问题了,从而可以保证回归分析的有效性。可以保证回归分析的有效性。第36页/共71页38 例例例例5-25-2 消费函数模型的异常值问题消费函数模型的异常值问题消费函数模型的异常值问题消费函数模型的异常值问
28、题 图图5.5 消费函数残差序列图消费函数残差序列图 第37页/共71页39n n根据图中的残差分布可以看出,根据图中的残差分布可以看出,19961996、20012001和和20022002年的回归残差绝年的回归残差绝对值,都大于对值,都大于2 2倍的残差标准差,因此可能属于异常值。倍的残差标准差,因此可能属于异常值。n n由于相比之下由于相比之下19961996、19991999、20002000和和20012001四年的残差偏离更大,而在四年的残差偏离更大,而在去掉这几年趋势以后的其余年份基本上都在长期趋势上,因此考去掉这几年趋势以后的其余年份基本上都在长期趋势上,因此考虑引进四个虚拟变
29、量。虑引进四个虚拟变量。第38页/共71页40n n再看引进虚拟变量后回归的下列残差序列图,则现在是有多点而不是个别点在2倍标准差临界值之外,而且都离临界值不远,并且2倍标准差的临界值范围也比未引进虚拟变量时小了许多,因此可不再认为存在异常值。第39页/共71页41图图图图5.6 5.6 引进虚拟变量后的回归残差引进虚拟变量后的回归残差引进虚拟变量后的回归残差引进虚拟变量后的回归残差 第40页/共71页42第三节第三节 规律性扰动规律性扰动一、问题二、问题的发现和判断三、问题的处理第41页/共71页43一、问题一、问题n n周期性或其他规律性扰动,也会使线性回归模型的误差项偏离零周期性或其他规
30、律性扰动,也会使线性回归模型的误差项偏离零均值假设。均值假设。n n周期性扰动比较典型的例子是商业销量指标的季节性变化。周期性扰动比较典型的例子是商业销量指标的季节性变化。n n这些问题并不影响变量关系的总体趋势,但都会对变量关系产生这些问题并不影响变量关系的总体趋势,但都会对变量关系产生规律性的影响,如果不预先加以处理或排除掉,就会导致误差项规律性的影响,如果不预先加以处理或排除掉,就会导致误差项均值非均值非0 0问题的出现,影响回归分析的效果。问题的出现,影响回归分析的效果。第42页/共71页44n n例如变量Y 的季度数据中,第一季度总是受到一个季节性因素的影响。n n如果我们忽视这种影
31、响,用两变量模型或多元模型研究Y 规律,就会遇到误差项均值非0问题 第43页/共71页45二、问题的发现与判断二、问题的发现与判断n n由规律性扰动导致的误差项均值非零问题的发现、判断和处理,由规律性扰动导致的误差项均值非零问题的发现、判断和处理,与异常值问题基本相似。与异常值问题基本相似。n n在发现和判断方面,经济问题的背景分析,以及同样的回归残差在发现和判断方面,经济问题的背景分析,以及同样的回归残差序列分析,基本上都可以适用于规律性扰动问题。序列分析,基本上都可以适用于规律性扰动问题。n n规律性扰动在残差序列图上会表现为多个有规律的较大残差,可规律性扰动在残差序列图上会表现为多个有规
32、律的较大残差,可以通过与问题背景的相互印证和分析,确定是否属于规律性扰动。以通过与问题背景的相互印证和分析,确定是否属于规律性扰动。第44页/共71页46三、问题的处理三、问题的处理n n解决规律性扰动问题的方法之一是对数据进行统计平滑处理,消解决规律性扰动问题的方法之一是对数据进行统计平滑处理,消除季节性或其他周期性扰动的影响。除季节性或其他周期性扰动的影响。n n但平滑处理存在两个问题,一是不能区别趋势因素和季节性扰动,但平滑处理存在两个问题,一是不能区别趋势因素和季节性扰动,不能真正确定所研究变量关系的具体变化轨迹,二是容易导致另不能真正确定所研究变量关系的具体变化轨迹,二是容易导致另一
33、种问题,就是误差序列自相关问题(以后会介绍)。一种问题,就是误差序列自相关问题(以后会介绍)。n n因此平滑处理并不是克服规律性扰动对线性回归分析影响的好方因此平滑处理并不是克服规律性扰动对线性回归分析影响的好方法。法。第45页/共71页47n n处理规律性扰动问题的较好方法也是引进虚拟变量,但有时需要引进多个虚拟变量。n n以上面第一季度存在季节性因素影响的问题为例。如果在这个例子中,使用虚拟变量第46页/共71页48n n把模型改为把模型改为 或或 Y Yn n那么新模型就不再存在误差项均值非那么新模型就不再存在误差项均值非0 0的问题,回归分析的效果就的问题,回归分析的效果就能得到保证。
34、能得到保证。n n如果第一季度受到一种季节性因素扰动,第三季度受到另一种方如果第一季度受到一种季节性因素扰动,第三季度受到另一种方向和力度不同因素的扰动。那么可以引进两个虚拟变量向和力度不同因素的扰动。那么可以引进两个虚拟变量 第47页/共71页49n n把这两个虚拟变量同时引入模型,模型变为把这两个虚拟变量同时引入模型,模型变为 或或 Y Yn n新模型同样可以避免由于上述季节性扰动所导致的误差项均值非新模型同样可以避免由于上述季节性扰动所导致的误差项均值非0 0问题。问题。n n在对截面数据的计量经济分析中,观测对象特征差异导致的规律在对截面数据的计量经济分析中,观测对象特征差异导致的规律
35、性扰动,也可以利用虚拟变量加以处理。性扰动,也可以利用虚拟变量加以处理。第48页/共71页50n n利用虚拟变量解决规律性扰动需要注意的是,引进虚拟变量是有限度的,需要谨慎,不能随意引进。n n因为引进更多虚拟变量意味着要估计更多参数和损失自由度,对回归分析的效果有不利影响。n n此外引进虚拟变量还可能落入“虚拟变量陷阱”。第49页/共71页51n n例如如果上述季节性扰动模型中同时引进对应全部四个季节的,按照类似规则定义的四个虚拟变量为 、和 ,那么这四个虚拟变量满足相加和为1。n n同时出现在一个模型中必然导致解释变量严格线性相关,导致模型的崩溃。n n因此在计量经济分析中引进虚拟变量时需
36、要谨慎,要注意避免虚拟变量陷阱。第50页/共71页52第四节第四节 解释变量缺落解释变量缺落一、问题二、发现与判断第51页/共71页53一、问题一、问题n n除了异常值和规律性扰动以外,还有一些定除了异常值和规律性扰动以外,还有一些定式偏差,如解释变量缺落和参数改变,也是式偏差,如解释变量缺落和参数改变,也是引起误差项均值非引起误差项均值非0 0问题的常见原因。问题的常见原因。n n所谓解释变量缺落就是线性回归模型设定的所谓解释变量缺落就是线性回归模型设定的变量关系中,忽略了某些具有重要的,对被变量关系中,忽略了某些具有重要的,对被解释变量有趋势性影响的因素。解释变量有趋势性影响的因素。n n
37、解释变量缺落会引起误差项均值非解释变量缺落会引起误差项均值非0 0很容易理很容易理解,因为被忽略的因素对被解释变量的影响,解,因为被忽略的因素对被解释变量的影响,会在误差项中表现出来,导致误差项不再是会在误差项中表现出来,导致误差项不再是纯粹的随机扰动。纯粹的随机扰动。第52页/共71页54n n例如若真实变量关系应该为例如若真实变量关系应该为 其中其中 满足满足 及多元线性回归模型的其他假设。及多元线性回归模型的其他假设。n n如果建模时忽略了其中的变量如果建模时忽略了其中的变量 ,即采用变量关系,即采用变量关系 那么其中的误差项那么其中的误差项 第53页/共71页55n n满足n n由于
38、、和 之间不存在线性关系,不可能始终等于0。n n因此缺落重要解释变量的线性回归模型,必然违反误差项0均值的假设。第54页/共71页56二、发现与判断二、发现与判断n n发现和判断解释变量缺落或模型参数改变的基本方法,也是经济问题背景分析和残差序列分析相结合。n n在原模型回归分析的基础上对回归残差序列进行分析,如果发现残差序列有某种趋势性,那么可以根据问题背景考虑是否忽略了有重要性的因素。第55页/共71页57n n若以怀疑缺落的变量若以怀疑缺落的变量 为横轴,残差为横轴,残差e e为纵轴,作残差序列分布图。为纵轴,作残差序列分布图。如发现如发现 和和e e 确实有相关性,如图所示,可初步认
39、为模型缺落了确实有相关性,如图所示,可初步认为模型缺落了 。第56页/共71页58n n解释变量缺落和模型参数改变问题的处理方法比较简单,因为针对性地加入所缺落的变量,或根据参数改变的时间分不同时期段进行分段回归,就可以解决这些问题。第57页/共71页59第五节第五节 参数变化参数变化一、问题二、发现和判断第58页/共71页60一、一、问题问题n n参数改变指在考察期间(样本数据观测范围),变量关系中的参数发生变化,就是变量关系本身发生变化。n n这时实际上不能用同一个线性回归模型研究变量在整个考察期间的关系。n n如果忽略这种模型参数变化,也会导致误差项均值非0问题。第59页/共71页61n
40、 n以两变量线性关系在考察期以两变量线性关系在考察期0 0,T T 中的中的t t时刻时刻参数发生变化为例。参数发生变化为例。n n真实的变量关系可以用真实的变量关系可以用0 0,t t 和(和(t t,T T)两个)两个时期中的两个模型分别表示时期中的两个模型分别表示n n其中其中 和和 都满足均值为都满足均值为0 0和线性回归模型的和线性回归模型的其他假设,且其他假设,且 ,。第60页/共71页62n n如果忽略了模型参数的上述变化,简单地用如果忽略了模型参数的上述变化,简单地用同一变量关系同一变量关系 ,代表,代表Y Y和和X X在整个在整个0 0,n n 时期的关系,那么因为在两个时期
41、中模时期的关系,那么因为在两个时期中模型的误差项型的误差项 分别为:分别为:n n因此两个时期误差项的均值分别为因此两个时期误差项的均值分别为 第61页/共71页63n n很显然,除非 和 同时成立,否则的均值不可能在两个时期都始终为0。n n如果两个等式同时成立,就意味着两个时期参数没有变化,与假设的情况不一致。因此在参数发生改变时,必然导致误差项均值非0的问题。第62页/共71页64二、发现与判断二、发现与判断n n发现和判断模型参数改变的基本方法,也是经济问题背景分析和残差序列分析相结合。n n如果以i为横轴,残差e为纵轴的残差序列分布,存在某个时刻附近转折的情况,如图5.8所示,应该考
42、虑变量关系在该时刻可能存在参数改变。第63页/共71页65图图图图5.8 5.8 参数变化参数变化参数变化参数变化 第64页/共71页66n n根据情况分析和残差序列图的判断不是绝对可靠的,问题典型性根据情况分析和残差序列图的判断不是绝对可靠的,问题典型性不强时更难下结论。不强时更难下结论。n n而且变量关系非线性、解释变量缺落和参数变化等问题在残差分而且变量关系非线性、解释变量缺落和参数变化等问题在残差分布中的表现往往很相似,因此准确识别的难度很大,常常需要借布中的表现往往很相似,因此准确识别的难度很大,常常需要借助经验和用试错的方法进行判断。助经验和用试错的方法进行判断。n n检验线性回归
43、模型结构(参数)稳定性,另外有一种专门的检验线性回归模型结构(参数)稳定性,另外有一种专门的“邹邹检验检验”(Chow testChow test)方法。)方法。第65页/共71页67n n具体方法是以怀疑发生结构(参数)变化的时点为界,把观测样具体方法是以怀疑发生结构(参数)变化的时点为界,把观测样本分为两组本分为两组 。n n然后用两组子样本和全样本分别进行回归,将两组子样本回归的然后用两组子样本和全样本分别进行回归,将两组子样本回归的残差平方和加总得到残差平方和加总得到 ,称为,称为“无约束残差平方和无约束残差平方和”,再与全样,再与全样本回归的残差平方和本回归的残差平方和 ,称为,称为
44、“有约束的残差平方和有约束的残差平方和”,构造下,构造下列列F F统计量:统计量:第66页/共71页68n n其中其中K K是模型(不包括常数项)的解释变量个是模型(不包括常数项)的解释变量个数,数,和和 分别是两个子样本的样本容量。分别是两个子样本的样本容量。n n该统计量服从两个自由度为该统计量服从两个自由度为K+1K+1和和 的的F F 分布。分布。n n因此,如果该因此,如果该F F 统计量不大于相应自由度的统计量不大于相应自由度的F F 分布临界值,说明有约束和无约束的两个回分布临界值,说明有约束和无约束的两个回归残差平方和的差别不明显,模型结构(参归残差平方和的差别不明显,模型结构
45、(参数)并没有发生显著变化。反之则说明模型数)并没有发生显著变化。反之则说明模型结构确实发生了明显变化。结构确实发生了明显变化。第67页/共71页69n n模型参数改变问题的处理方法比较简单,根据参数改变的时间分不同时段进行分段回归就可以解决这些问题。n n在作处理以后,还可以通过对处理后回归结果的比较,确定初步判断是否正确并进一步调整。第68页/共71页70【例例例例5 53 3】n n这里用这里用 例例5-15-1中存在变量关系非线性问题的例中存在变量关系非线性问题的例子,作为邹检验的例子。子,作为邹检验的例子。n n根据数据散点图和残差序列图显示的情况,根据数据散点图和残差序列图显示的情
46、况,我们直接把我们直接把19721972到到19731973年作为发生可能的结构年作为发生可能的结构变化的转折点,也就是把样本区间分为变化的转折点,也就是把样本区间分为19501950,19721972和和19731973,19851985两个区间。两个区间。n n直接对这两个样本区间分别回归,得到两个直接对这两个样本区间分别回归,得到两个残差平方和分别为残差平方和分别为2041.1172041.117和和2577.1612577.161,因此,因此邹检验的无约束残差平方和为邹检验的无约束残差平方和为4618.2784618.278。第69页/共71页71n n前面已经得到整个样本区间回归的残差平方前面已经得到整个样本区间回归的残差平方和,也就是邹检验的有约束残差平方和为和,也就是邹检验的有约束残差平方和为12067.8312067.83。n n把这两个残差平方和与样本容量和模型解释把这两个残差平方和与样本容量和模型解释变量数一起代入邹检验的变量数一起代入邹检验的F F统计量,得到统计量,得到 25.8225.82n n显然,该统计量是显著的,可以认为模型的显然,该统计量是显著的,可以认为模型的结构发生了变化。结构发生了变化。第70页/共71页