《回归分析的基本知识.ppt》由会员分享,可在线阅读,更多相关《回归分析的基本知识.ppt(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、单方程计量经济学模型理论与方法Theory and Methodology of Single-Equation Econometric Model第二章经典单方程计量经济学模型:一元线性回归模型回归分析概述一元线性回归模型的参数估计一元线性回归模型检验一元线性回归模型预测实例2.1 回归分析的基本知识一、回归分析的基本概念二、总体回归函数三、随机扰动项四、样本回归函数(SRF)五、回归分析的内容2.1回归分析概述一、变量间的关系及回归分析的基本概念1、变量间的关系各种经济变量之间的关系,大体可分为两类:(1)确定性关系或函数关系:研究的是确定现象非随机变量间的关系。即如果一个变量Y的取值可以
2、 通 过 另 一 个 变 量 X 或 者 另 一 组 变 量(X1,X2,)以某种形式唯一地精确地确定,则Y与这个X或这组X之间的关系就是函数关系。用代数式表示就是:Yif(X1i,X2i,)(2)统计依赖关系或统计相关关系:研究的是非确定现象随机变量间的关系。即如果一个变量Y的取值受另一个变量X或者另一组变量(X1,X2,)的影响,但给定这一个或一组X值的时候,Y的取值并不是唯一确定的,则变量Y与这个X或这组X之间的关系就是相关关系。用代数式表示就是:Yif(X1i,X2i,)例如:统计依赖关系/统计相关关系:农作物产量=f(气温,降雨量,阳光,施肥量)2、相关分析和回归分析社会经济现象中的
3、变量关系,大量地表现为相关关系。如消费水平受收入水平影响,但当给定收入水平时,消费者的消费支出水平并不是惟一确定的;又如某种商品的需求量受收入水平和价值的影响,随着价格的上涨或收入的减少,需求量一般会下降,但当价格上涨和收入减少的幅度给定时,需求量的减少并不是惟一确定的。这种消费与收入,需求与收入、价格之间的关系都属于相关关系。对变量间统计依赖关系的考察主要是通过相关分析(correlation analysis)或回归分析(regression analysis)来完成的。回归分析就是研究这类变量间的依存关系,如消费对收入的依存关系、需求对收入的价格的依存关系。从涉及的变量数量看简单相关多重
4、相关(复相关)从变量相关关系的表现形式看线性相关散布图接近一条直线非线性相关散布图接近一条曲线 从变量相关关系变化的方向看正相关变量同方向变化,同增同减负相关变量反方向变化,一增一减不相关相关关系的类型线性相关不相关相关系数:统计依赖关系负相关 1 XY 1有因果关系回归分析无因果关系相关分析正相关非线性相关 不相关负相关其相互关系见下图:正相关不线性相关并不意味着不相关;有相关关系并不意味着一定有因果关系;回归分析/相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处理方法存在不
5、对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。注意:回归的古典意义:高尔顿遗传学回归概念(父母身高与子女身高的关系)回归的现代意义:一个应变量对若干解释变量依存关系的研究回归的目的(实质):由固定的解释变量去估计应变量的平均值回归分析(regression analysis)是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。其用意:在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。这里:前一个变量被称为被解释变量(ExplainedVariable)或应变量(Dependent Variable),后一个(些)变量被称为解释变
6、量(Explanatory Variable)或自变量(Independent Variable)。3、回归分析的基本概念注意几个概念:Y的条件分布当解释变量X取某固定值时(条件),Y的值不确定,Y的不同取值形成一定的分布,即Y的条件分布。Y的条件期望对于X的每一个取值,对Y所形成的分布确定其期望或均值,称为Y的条件期望或条件均值E(Y|Xi)X iYX回归线:对于每一个X的取值,都有Y的条件期望E(Y|Xi)与之对应,代表这些Y的条件期望的点的轨迹所形成的直线或曲线,称为回归线。回归函数:被解释变量Y的条件期望E(Y|Xi)随解释变量X的变化而有规律的变化,如果把Y的条件期望E(Y|Xi)表
7、现为X的某种函数E(Y|Xi)=f(Xi)这个函数成为回归函数。由于变量间关系的随机性,回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。【例1】一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。二、总体回归函数为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。表 2.1.1 某社区家庭每月收入与消费支出统计表每月家庭可支配收入X(元)8001
8、10014001700200023002600290032003500561638869102312541408 1650196920902299594627638232125302629286028717488148479359689139249791012104511001144115512101243130913641397140814741452 17381551 17491595 18041650 18481672 1881199120462068210121892134217822662354248625522585264022332244229923101078112211551
9、188121012541298133113641408149614961562157316061683 19251716 19691749 20131771 20351804 21011430148516501716每月家庭消费支出Y(元)1870 21121947 22002002共计24204950 11495 16445 19305 23870 2502521450 2128515510expectation):E(Y|X=Xi)该例中:E(Y|X=800)=561分析:(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(2)但由于调查的完备性,给定收入水平X的
10、消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditional distribution)是已知的,如:P(Y=561|X=800)=1/4。因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditional mean)或条件期望(conditional300025002000150010005000描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。35005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)概念:在给定解释变量Xi条件下被解
11、释变量Yi的期望轨迹称为总体回归线(population regression line),或更一般地称为总体回归曲线(population regressioncurve)。E(Y|X i)=f(X i)称为(双变量)总体回归函数(populationregression function,PRF)。相应的函数:回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。含义:函数形式:可以是线性或非线性的。上例中,将居民消费支出看成是其可支配收入的线性函数时:E(Y|X i)=0 +1 X i为一线性函数。其中,0,1是未知参数,称为回归系数(regression
12、coefficients)。三、随机扰动项总体回归函数说明在给定的收入水平Xi下,该社区家庭平均的消费支出水平。但对某一个别的家庭,其消费支出可能与该平均水平有偏差。i =Yi E(Y|X i)称i为观察值Yi围绕它的期望值E(Y|Xi)的离差(deviation),是一个不可观测的随机变量,又称为随机干扰项(stochastic disturbance)或随机误差项(stochastic error)。记即给定收入水平Xi,个别家庭的支出可表示为两部分之和:(1)该收入水平下所有家庭的平均消费支E(Y|Xi),称为系统性(systematic)或确定性(deterministic)部分。例1
13、中,个别家庭的消费支出为:(*)uiX iXE(Y X i)YiE(Yi X i)=f(X i)=1+2 X iY(*)式称为总体回归函数(方程)PRF的随机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。由于方程中引入了随机项,成为计量经济学模型,因此也称为总体回归模型。(2)其他随机或非确定性(nonsystematic)部分i。ui =Yi E(Yi X i)=Yi 1 2 X iuiX iXYE(Y X i)Yi随机误差项主要包括下列因素的影响:(1)在解释变量中被忽略的因素的影响;(2)变量观测值的观测误差的影响;(3)模型关系的设定误差的影响;(4)
14、其它随机因素的影响。产生并设计随机误差项的主要原因:(1)未知的影响因素;(2)数据的欠缺;(3)众多细小影响因素;(4)数据观测误差;(5)模型设定误差;(6)变量的内在随机性。回答:能YX80059411006381400112217001155200014082300159526001969290020783200258535002530四、样本回归函数(SRF)总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?【例2】在例1的总体中有如下一个样本,问:能否从该样本估计总体回归函数
15、PRF?表 2.1.3 家庭消费支出与可支配收入的一个随机样本该样本的散点图(scatter diagram):样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本回归线(sampleregression lines)。记样本回归线的函数形式为:Yi =f(X i)=0 +1 X i称为样本回归函数(sample regression function,SRF)。这里将样本回归线看成总体回归线的近似替代则注意样本回归函数的随机形式/样本回归模型:同样地,样本回归函数也有如下的随机形式:i Yi =Yi +i =0 +1 X i
16、+e由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型(sample regressionmodel)。回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。注意:这里PRF可能永远无法知道。即,根据i Yi =Yi +ei =0 +1 X i +e估计Yi =E(Y|X i)+i =0 +1 X i +i总体回归方程表示:当解释变量变动时,被解释变量平均水平的变动规迹。或者说,总体回归函数表示:当解释变量取某一特定值时,被解释变量的平均水平的取值。如果能获得被研究总体中各单位(如上例中该地区各个家庭)的全部资料,则就可以估计出0,1的值,有了0,1的估计值,总体回
17、归函数也就确定了,从而当给定解释变量的数值 X0,时,我们就可以进一步估计得到被解释变量的数值,即 E(Y|Xi)=0+1Xi。这正是回归分析的目的所在。但是,在回归分析实践中,想要得到总体各单位的全部资料往往是困难的,所能获得的往往是总体的一部分观测资料,即样本数据。依据样本数据只能建立样本回 归模型 Yi =0+1 X i+ei 以及样本回归方程 Yi =0+1 X i综合上述,回归分析的实质就集中到了四个关系式上:总体回归方程和总体回归模型是依据总体的全部观测资料建立起来的,样本回归方程和样本回归模型是依据样本观测资料建立起来的。回归分析实践中,由于要获得总体的全部观测资料往往不可能,所
18、以一般是根据样本数据建立样本回归方程(或样本回归模型),用样本回归方程(或样本回归模型)作为总体回归方程(或总体回归模型)的估计式并以此描述总体变量间的依存规律和实际关系。SRF 的特点每次抽样都能获得一个样本,就可以拟合一条样本回归线,所以样本回归线随抽样波动而变化,可以有许多条(SRF不唯一)。样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。五、回归分析的内容:估计、检验、应用回归模型(1)从观测数据出发,确定变量之间的定量关系的类型;(2)利用样本数据,估计所确定的定量关系式中的参数,即估计总体回归模型中参数0,1 的数值。这一过程就是利用样本数据建立样本回归方程;(3)对估计式即样本回归方程进行检验和评价;(4)利用检验有效的估计式进行估计或预测,即在给定的解释变量水平下,估计或预测被解释变量的值。如前所述,回归分析就是通过观测分析变量间的依据关系,最终以解释变量的值去估计或预测被解释变量的值。这一目的是通过下面的步骤来实现的:结合上一章介绍的经济计量分析工作的四个步骤,显然,回归分析中有关回归模型参数的估计方法是回归模型的检验方法,可以为经济计量模型的估计和检验所用。事实上,经济计量模型的估计和检验采用的就是统计学中的回归分析方法。