《第二章回归分析基本方法精选文档.ppt》由会员分享,可在线阅读,更多相关《第二章回归分析基本方法精选文档.ppt(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章回归分析基本方法本讲稿第一页,共四十八页2.1 2.1 回归分析概述回归分析概述一、变量间的关系及回归分析的基本概念一、变量间的关系及回归分析的基本概念 二、一元总体回归函数二、一元总体回归函数三、随机扰动项三、随机扰动项四、四、一元一元样本回归函数(样本回归函数(SRFSRF)本讲稿第二页,共四十八页2.1 2.1 回归分析概述回归分析概述 (1)确确定定性性关关系系或函函数数关关系系:研究的是确定现象非随机变量间的关系。(2)统统计计依依赖赖或相相关关关关系系:研究的是非确定现象随机变量间的关系。一、变量间的关系及回归分析的基本概念一、变量间的关系及回归分析的基本概念 1 1、变量间
2、的关系、变量间的关系 经济变量之间的关系,大体可分为两类:本讲稿第三页,共四十八页对变量间对变量间统计依赖关系统计依赖关系的考察主要是通过的考察主要是通过相关分析相关分析(correlation analysis)或或回归分析回归分析(regression analysis)来完成的:来完成的:例如例如:函数关系:函数关系:统计依赖关系统计依赖关系/统计相关关系:统计相关关系:本讲稿第四页,共四十八页 不线性相关并不意味着不相关;有相关关系并不意味着一定有因果关系;回归分析回归分析/相关分析相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。相关分析相关分析对
3、称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。注意:注意:本讲稿第五页,共四十八页 回归分析回归分析(regression analysis)是研究一个变量关于另一个(些)是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论变量的具体依赖关系的计算方法和理论。其用意其用意:在于通过后者的已知或设定值,去估计和(或)预测前者在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值的(总体)均值。这里:前一个变量被称为被解释变量被解释变量(Explain
4、ed Variable)或应变应变量量(Dependent Variable),),后一个(些)变量被称为解释变量解释变量(Explanatory Variable)或自变量自变量(Independent Variable)。2 2、回归分析的基本概念、回归分析的基本概念 回归分析构成计量经济学的方法论基础,其主要内容包括:回归分析构成计量经济学的方法论基础,其主要内容包括:(1)根据样本观察值对经济计量模型参数进行估计,求得回归方回归方程;程;(2)对回归方程、参数估计值进行显著性检验;(3)利用回归方程进行分析、评价及预测。本讲稿第六页,共四十八页 回归分析回归分析关心的是根据解释变量的已
5、知或关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。二、一元总体回归函数二、一元总体回归函数本讲稿第七页,共四十八页概念:概念:在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为一元总体回归线一元总体回归线(population regression line),或更一般地称为一元一元总体回归曲线总体回归曲线(population regression curve)。称为(双变量)一元一元总体回归函数总体回归函数(population regression func
6、tion,PRF)。相应的函数:本讲稿第八页,共四十八页 回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。含义:含义:函数形式:函数形式:可以是线性或非线性的。为一线性函数。线性函数。其中,0,1是未知参数,称为回归回归系数系数(regression coefficients)。本讲稿第九页,共四十八页 三、随机扰动项三、随机扰动项 称i为观察值Yi围绕它的期望值E(Y|Xi)的离差离差(deviation),是一个不可观测的随机变量,又称为随随机干扰项机干扰项(stochastic disturbance)或随机误差项随机误差项(stochastic er
7、ror)。记本讲稿第十页,共四十八页 (*)式称为一元一元总体回归函数总体回归函数(方程)(方程)PRFPRF的随机设定的随机设定形式。表明被解释变量除了受解释变量的系统性影响外,形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响还受其他因素的随机性影响。(*)由于方程中引入了随机项,成为计量经济学模型,因此也称为一元总体回归模型一元总体回归模型。本讲稿第十一页,共四十八页随机误差项主要包括下列因素的影响:随机误差项主要包括下列因素的影响:1)在解释变量中被忽略的因素的影响;2)变量观测值的观测误差的影响;3)模型关系的设定误差的影响;4)其它随机因素的影响。产生并设计
8、随机误差项的主要原因:产生并设计随机误差项的主要原因:1)理论的含糊性;2)数据的欠缺;3)节省原则。本讲稿第十二页,共四十八页 四、四、一元样本一元样本回归函数(回归函数(SRF)问题:问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。本讲稿第十三页,共四十八页该样本的散点图散点图(scatter diagram):样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为一元一元样本回归线样本回归线(sample regress
9、ion lines)。)。记样本回归线的函数形式为:称为一元样本回归函数一元样本回归函数(sample regression function,SRF)。本讲稿第十四页,共四十八页 这里将样本回归线样本回归线看成总体回归线总体回归线的近似替代则 注意:注意:本讲稿第十五页,共四十八页 样本回归函数的随机形式样本回归函数的随机形式/样本回归模型样本回归模型:同样地,样本回归函数也有如下的随机形式:由于方程中引入了随机项,成为计量经济模型,因此也称为一元样本回归模型一元样本回归模型(sample regression model)。本讲稿第十六页,共四十八页 回回归归分分析析的的主主要要目目的的:
10、根据样本回归函数SRF,估计总体回归函数PRF。注意:注意:这里PRF可能永远无法知道。即,根据 估计本讲稿第十七页,共四十八页2.2 2.2 线性回归模型线性回归模型 一、多元线性回归模型一、多元线性回归模型 二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 本讲稿第十八页,共四十八页 一、多元线性回归模型一、多元线性回归模型 多元线性回归模型多元线性回归模型:表现在线性回归模型中的解释变量有多个。一般表现形式一般表现形式:i=1,2,n其中:k为解释变量的数目,j称为回归参数回归参数(regression coefficient)。习习惯惯上上:把常常数数项项看成为一虚虚变变量
11、量的系数,该虚变量的样本观测值始终取1。这样:模型中解释变量的数目为(模型中解释变量的数目为(k+1+1)本讲稿第十九页,共四十八页也也被被称称为为总总体体回回归归函函数数的的随随机机表表达达形形式式。它它 的的非非随随机表达式机表达式为为:方程表示:方程表示:各变量各变量X X值固定时值固定时Y Y的平均响应的平均响应。j也也被被称称为为偏偏回回归归系系数数,表表示示在在其其他他解解释释变变量量保保持持不不变变的的情情况况下下,Xj每每变变化化1个个单单位位时时,Y的的均均值值E(Y)的变化的变化;或或者者说说j给给出出了了Xj的的单单位位变变化化对对Y均均值值的的“直直接接”或或“净净”(
12、不含其他变量)影响。(不含其他变量)影响。本讲稿第二十页,共四十八页总体回归模型总体回归模型n个随机方程的个随机方程的矩阵表达式矩阵表达式为为 其中其中本讲稿第二十一页,共四十八页样本回归函数样本回归函数:用来估计总体回归函数:用来估计总体回归函数其其随机表示式随机表示式:ei称为称为残差残差或或剩余项剩余项(residuals),可看成是总,可看成是总体回归函数中随机扰动项体回归函数中随机扰动项 i的近似替代。的近似替代。样本回归函数样本回归函数的的矩阵表达矩阵表达:或或其中:其中:本讲稿第二十二页,共四十八页二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 假设1,解释变量是非
13、随机的或固定的,且各X之间互不相关(无多重共线性)。假设2,随机误差项具有零均值、同方差及不序列相关性 假设3,解释变量与随机项不相关 假设4,随机项满足正态分布 本讲稿第二十三页,共四十八页上述假设的上述假设的矩阵符号表示矩阵符号表示 式:式:假设1,n(k+1)矩阵X是非随机的,且X的秩=k+1,即X满秩。假设2,假设3,E(X)=0,即 本讲稿第二十四页,共四十八页假设4,向量 服从多维正态分布,即 同一元回归一样,多元回归还具有如下两个重要假设:同一元回归一样,多元回归还具有如下两个重要假设:假设5,样本容量趋于无穷时,各解释变量的方差趋于有界常数,即n时,或 其中:Q为一非奇异固定矩
14、阵,矩阵x是由各解释变量的离差为元素组成的nk阶矩阵 假设6,回归模型的设定是正确的。本讲稿第二十五页,共四十八页2.3 线性回归模型的参数估计线性回归模型的参数估计 估计方法:OLS、ML 一、普通最小二乘估计一、普通最小二乘估计 二、最大似然估计二、最大似然估计 三、参数估计量的性质三、参数估计量的性质 四、样本容量问题四、样本容量问题 五、估计实例五、估计实例 本讲稿第二十六页,共四十八页一、普通最小二乘估计一、普通最小二乘估计对于随机抽取的n组观测值如果样本函数样本函数的参数估计值已经得到,则有:i=1,2n根据最小二乘原理最小二乘原理,参数估计值应该是下列方程组的解 其中本讲稿第二十
15、七页,共四十八页于是得到关于待估参数估计值的正规方程组正规方程组:本讲稿第二十八页,共四十八页正规方程组正规方程组的矩阵形式矩阵形式即由于XX满秩,故有 本讲稿第二十九页,共四十八页将上述过程用矩阵表示矩阵表示如下:即求解方程组:得到:于是:本讲稿第三十页,共四十八页正规方程组正规方程组 的另一种写法对于正规方程组正规方程组 于是 或(*)或(*)是多元线性回归模型正规方程组正规方程组的另一种写法(*)(*)本讲稿第三十一页,共四十八页样本回归函数的离差形式样本回归函数的离差形式i=1,2n其矩阵形式矩阵形式为 其中:在离差形式下,参数的最小二乘估计结果为 本讲稿第三十二页,共四十八页随机误差
16、项随机误差项 的方差的方差 的无偏估计的无偏估计 可以证明,随机误差项的方差的无偏估计量为 本讲稿第三十三页,共四十八页二、最大似然估计二、最大似然估计 对于多元线性回归模型易知 Y的随机抽取的n组样本观测值的联合概率即为变量Y的似然函数似然函数 本讲稿第三十四页,共四十八页对数似然函数为对对数似然函数求极大值,也就是对 求极小值。因此,参数的最大似然估计最大似然估计为为结果与参数的普通最小二乘估计相同结果与参数的普通最小二乘估计相同本讲稿第三十五页,共四十八页 三、参数估计量的性质三、参数估计量的性质 在满足基本假设的情况下,其结构参数 的普通最小二乘估计、最大似然估计最大似然估计及矩估计矩
17、估计仍具有:线性性线性性、无偏性无偏性、有效性有效性。同时,随着样本容量增加,参数估计量具有:渐近无偏性、渐近有效性、一致性渐近无偏性、渐近有效性、一致性。1、线性性、线性性 其中,C=(XX)-1 X 为一仅与固定的X有关的行向量 本讲稿第三十六页,共四十八页 2、无偏性、无偏性 这里利用了假设:E(X)=0 3、有效性(最小方差性)、有效性(最小方差性)本讲稿第三十七页,共四十八页其中利用了 和本讲稿第三十八页,共四十八页 四、样本容量问题四、样本容量问题 所谓“最小样本容量最小样本容量”,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。最小样
18、本容量最小样本容量 样本最小容量必须不少于模型中解释变量的样本最小容量必须不少于模型中解释变量的数目(包括常数项)数目(包括常数项),即 n k+1因为,无多重共线性要求:秩(X)=k+1本讲稿第三十九页,共四十八页 2 2、满足基本要求的样本容量、满足基本要求的样本容量 从统计检验的角度从统计检验的角度:n30 时,Z检验才能应用;n-k8时,t分布较为稳定 一般经验认为一般经验认为:当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。模型的良好性质只有在大样本下才能得到模型的良好性质只有在大样本下才能得到理论上的证明理论上的证明本讲稿第四十页,共四十八页五、线性回归模型的参数估
19、计实例五、线性回归模型的参数估计实例本讲稿第四十一页,共四十八页 1、中国居民人均消费模型、中国居民人均消费模型 例例2.3.2 考察中国居民收入与消费支出的关系。GDPP:人均国内生产总值人均国内生产总值(1990年不变价)CONSP:人均居民消费人均居民消费(以居民消费价格指数(1990=100)缩减)。表表 2.3.1 中国居民人均消费支出与人均中国居民人均消费支出与人均GDP(元(元/人)人)年份 人均居民消费 CONSP 人均GDP GDPP 年份 人均居民消费 CONSP 人均GDP GDPP 1978 395.8 675.1 1990 797.1 1602.3 1979 437.
20、0 716.9 1991 861.4 1727.2 1980 464.1 763.7 1992 966.6 1949.8 1981 501.9 792.4 1993 1048.6 2187.9 1982 533.5 851.1 1994 1108.7 2436.1 1983 572.8 931.4 1995 1213.1 2663.7 1984 635.6 1059.2 1996 1322.8 2889.1 1985 716.0 1185.2 1997 1380.9 3111.9 1986 746.5 1269.6 1998 1460.6 3323.1 1987 788.3 1393.6 19
21、99 1564.4 3529.3 1988 836.4 1527.0 2000 1690.8 3789.7 1989 779.7 1565.9 本讲稿第四十二页,共四十八页 该两组数据是19782000年的时时间间序序列列数数据据(time series data);建立模型建立模型 拟建立如下一元回归模型 采用Eviews软件软件进行回归分析的结果见下表 本讲稿第四十三页,共四十八页一般可写出如下回归分析结果:(13.51)(53.47)R2=0.9927 F=2859.23 DW=0.5503 表表 2.3.2 中国居民人均消费支出对人均中国居民人均消费支出对人均 GDP的回归(的回归(1
22、9782000)LS/Dependent Variable is CONSP Sample:1978 2000 Included observations:23 Variable Coefficient Std.Error t-Statistic Prob.C 201.1071 14.88514 13.51060 0.0000 GDPP 0.386187 0.007222 53.47182 0.0000 R-squared 0.992709 Mean dependent var 905.3331 Adjusted R-squared 0.992362 S.D.dependent var 380
23、.6428 S.E.of regression 33.26711 Akaike info criterion 7.092079 Sum squared resid 23240.71 Schwarz criterion 7.190818 Log likelihood -112.1945 F-statistic 2859.235 Durbin-Watson stat 0.550288 Prob(F-statistic)0.000000 本讲稿第四十四页,共四十八页2 2、时间序列问题、时间序列问题 上述实例表明,时间序列完全可以进行类似于截面数据的回归分析。然而,在时间序列回归分析中,有两个需注意
24、的问题:第一,关于抽样分布的理解问题。第一,关于抽样分布的理解问题。能把表2.3.1中的数据理解为是从某个总体中抽出的一个样本吗?本讲稿第四十五页,共四十八页 可决系数R2,考察被解释变量Y的变化中可由解释变量X的变化“解释解释”的部分。这里“解释解释”能否换为“引起引起”?第二,关于第二,关于“伪回归问题伪回归问题”(spurious spurious regression problemregression problem)。)。在现实经济问题中,对时间序列数据作回归,即使两个变量间没有任何的实际联系,也往往会得到较高的可决系数,尤其对于具有相同变化趋势(同时上升或下降)具有相同变化趋势(同时上升或下降)的变量的变量,更是如此。这种现象被称为“伪回归伪回归”或“虚假回归虚假回归”。本讲稿第四十六页,共四十八页3 3、多元线性回归模型的参数估计实例、多元线性回归模型的参数估计实例 例例2.3.3 在例2.3.2中,已建立了中国居民中国居民人均消费人均消费一元线性模型。这里我们再考虑建立多元线性模型。解释变量:解释变量:人均GDP:GDPP 前期消费:CONSP(-1)估计区间估计区间:19792000年本讲稿第四十七页,共四十八页Eviews软件估计结果 本讲稿第四十八页,共四十八页