《初级计量经济学.ppt》由会员分享,可在线阅读,更多相关《初级计量经济学.ppt(167页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、课程名称:课程名称:计量经济学计量经济学主讲教师:主讲教师:赵坚毅赵坚毅联系地址:联系地址:中国青年政治学院经济系中国青年政治学院经济系 北京,北京,100089联系电话:联系电话:(010)68712337电子邮件:电子邮件:网址:网址:http:www.pinggu.orgbbsindex.asp1第一部分 绪论什么叫计量经济学(Econometrics)?19世纪20年代挪威经济学家R.Frish将它定义为“经济理论”、“统计学”、“数学”三者的结合。(计算机科学)2计量经济学家的荣耀1969年首届诺贝尔经济学奖获得者弗里斯(Frisch)1980年诺贝尔经济学奖获得者克莱因(Klein
2、)计量经济学鼻祖2000年诺贝尔经济学奖获得者:在微观计量经济学作出杰出贡献的赫克曼(Heckman)和麦克法登(Mc Fadden)3计量经济学家的荣耀最近一届(2003)诺贝尔经济学奖获得者:计量经济学家格兰杰(Granger)和恩格尔(Engle)半数以上的诺贝尔经济学奖授予了在计量模型上颇有建树的经济学家,诺贝尔经济学奖引领经济学发展潮流4计量经济学的内容体系广义计量经济学和狭义计量经济学广义是利用经济理论、数学以及统计学定量研究经济现象的方法统称。(回归分析、投入产出分析、时间序列分析等)狭义以揭示经济变量间的关系为目的,主要应用回归分析方法。单方程模型和联立方程模型对股票市场的研究
3、VS对金融市场的研究5计量经济学的内容体系线性模型、内在线性模型与非线性模型(均从参数进入模型的角度来定义)参数模型、半参数模型和非参数模型(均从模型的函数形式是否确定来定义)6计量经济学的内容体系因数据类型差异而导致模型的差异:a.横截面数据集(cross-sectional data set):即给定时点对个人、家庭、企业、城市、国家或一系列其他单位采集的样本所构成的数据集(应该忽略细小的时间差别)7计量经济学的内容体系b.时间序列数据集(time series data set):是由一个或几个变量在不同时间的观测值所构成的。c.混合横截面数据(pooled cross section)
4、:有些数据既有横截面数据的特点又有时间序列的特点,但每一时点的样本不同,通常是分析政府政策效果的有力数据8计量经济学的内容体系d.综列数据(panel data):由横截面数据集中每个数据的一个时间序列组成。(定点长期调查)其他专门数据类型:1、离散数据(discrete data):通常在考察个人或家庭或企业的决策行为时,通过问卷调查获得,由此发展出“离散选择模型”9计量经济学的内容体系 2、持续数据(survival data):用于考察变量从开始到结束或调查终止前所经过的时间长度,如失业持续时间、罢工持续时间、甚至怀孕间隔3、cohort(一代人)data-为持续收集特定社会群体在一段时
5、间内的变化的数据。如:调查七十年代出生的样本在10年间的汽车持有率数据或就业率数据等。10计量经济学的内容体系理论计量经济学和应用计量经济学:方法的证明VS方法的应用11怎样应用计量经济学企业竞争力评估的一个例子一、理论模型的设计1。确定模型所包含的变量2。确定模型的数学形式或解决方法12怎样应用计量经济学企业竞争力评估的一个例子二、样本数据的收集1。几类常用的样本数据2。样本数据的质量:(研究结果不能比数据的质量更好)三、模型参数的估计和检验13计量经济学模型成功的三要素理论方法数据14计量经济学模型的应用一、结构分析当一个变量或几个变量发生变化时对其他变量或经济系统的影响(弹性和乘数)二、
6、经济预测如通过回归分析总收入和总消费之间的关系,从而在知道一变量数据的情况下可以预测另一变量的走势。15计量经济学模型的应用三、政策评价建立模型对政策效果进行评估四、实证检验对经济理论的检验;对某一行业如医药卫生、农业新方法效果的检验。16课堂小测试对“回归”的认识你所应用过的计量经济学内容17回归“回归”一词的历史渊源加尔顿回归到中等(或平均)回归分析是关于研究一个叫做应变量的变量对另一个或多个叫做自变量的变量的依赖关系,其用意在于通过后者的已知或给定值,去估计和预测前者的(总体)均值18几个例子XY父亲身高与儿子平均身高年龄与平均身高个人可支配收入与平均消费支出垄断商的定价与产品平均需求1
7、9几个关系统计关系和确定性(函数)关系计量经济学主要处理的是随机(random或stochastic)的应变量,也就是有着概率分布的变量,这是一种统计关系。也可以从有无随机干扰项的角度来区分。回归与因果关系从逻辑上来说,回归关系式本身并不意味着任何因果关系,因果关系应该来自统计学之外。回归与相关关系变量是否是确定的;变量之间是否对称;相关系数度量VS估计或预测应变量的平均值20术语应变量(Dependent)与自变量(Independent)被解释变量(Explained)与解释变量(Explanatory)预测子(Predictand)与预测元(Predictor)回归子(Regressan
8、d)与回归元(Regressor)响应(Response)与刺激或控制变量(Stimulus or control variable)内生(Endogenous)与外生(Exogenous)21线性回归模型消费函数的一个例子随机干扰项的意义:1。理论的含糊性(其他因素)2。数据的欠缺(如财富)3。核心变量与周边变量(或上或下的随机影响)4。人类行为的内在随机性5。糟糕的替代变量(永久消费和永久收入)6。节省原则(多重共线性的影响)7。错误的函数形式22线性回归模型的假定1。函数形式:2。干扰项的零均值:3。同方差性:4。无自相关:5。回归量与干扰项的非相关:6。正态性:23各种假定的含义干扰项
9、的零均值的意思是凡是模型不显著含有的并因而归属u的因素,对y的均值都没有系统的影响;正的u值抵销了负的u值,以至于他们对y的平均值的影响为零。24各种假定的含义u的同方差性同时也意味着y的同方差性,即随着x的变动,y的取值的分布是一定的,是分布不变的。25各种假定的含义干扰项之间的无自相关意味着y的决定与其他期的u值无关,即不存在u(t-1)决定u(t)从而决定y的情况干扰项与自变量之间的非相关,干扰项本身是独立于自变量之外的,且如果干扰项与自变量存在相关,则不能独自说明其作用26普通最小二乘法总体回归函数(PRF)与样本回归函数(SRF)之差的平方和最小为最小二乘法的准则。27估计参数的特性
10、最小二乘估计量的线性和无偏性质所谓线性即估计量是y的一个线性函数所谓无偏即系数估计量的期望等于系数原值估计参数的方差、标准差,协方差(注意到x的变差越大,则估计参数的方差越小)(如果协方差为负,那么的过高估计意味着的过低估计。28高斯马尔科夫定理在给定经典线性回归模型的假定下,最小二乘估计量,在无偏线性估计量一类中,有最小方差,也即BLUE(best linear unbias estimator)最小方差的证明29估计参数的特性干扰项方差的一个无偏估计量30回归拟合的评价Y的总变差是离差的平方和:方差分解:总平方和回归平方和误差平方和SST=SSR+SSE决定系数SSR/SST对单个估计系数
11、的t检验31相关系数r相关系数相关系数是两个变量间的线性关联的一个度量相关系数落在-1,1间,如果两变量独立,则它们之间的相关系数为零,反之不成立32蒙特卡罗实验1。给定25个X值,给定 ,的真值,给定零均值的正态分布随机数25个,计算y的25个值2。利用上述X值和y值做回归,得出 ,的估计值3。给定同一分布的不同随机数取值,重复上述实验100次,求得100个估计值4。比较100个估计值的均值,看是否与 ,的真值接近,以此来求证估计值的无偏性33正态性假定我们不仅要用ols法做点估计,我们还要进行假设检验(hypothesis testing),即对系数的真值做出推断,而这需要干扰项的概率分布
12、。从干扰项的概率分布-估计量的概率分布-系数真值的统计推断34为何是正态分布而不是其他?原因1:中心极限定理证明,如果存在大量独立且相同分布的随机变量,那么,除了少数例外情形,随着这些变量的个数无限的增大,它们的总和将趋向于正态分布原因2:中心极限定理的另一解说是,即使变量个数并不是很大或这些变量还不是严格独立的,它们的总和仍可视为正态分布检验数据是否为正态分布:Kolmogorov D检验,零假设为数据是均值和方差未知的正态分布35由于正态性假定而新增的性质1。系数估计量也是服从正态分布的(根据系数估计量是y的线性函数,而y又是干扰项的线性函数)2。Ols的系数估计量在整个无偏估计量中,无论
13、是线性的还是非线性的估计,都有最小方差(参见Rao的证明),所以我们说最小二乘估计量是最优无偏估计量(BUE)36由于正态性假定而新增的性质3。遵循n-2个自由度的卡方分布4。随着样本容量无限地增大,系数估计量将收敛于它们的真值(一致性)37其他分布卡方分布F分布t分布38最大似然法(ML)原则:当从总体随机抽取n组样本观测值后,参数估计量应当使得从模型中抽取该n组样本观测值(y)的概率最大将样本观测值联合概率密度函数称为变量的或然函数(LF)。在已经取得样本观测值的情况下,使或然函数取极大值的总体分布参数所代表的总体具有最大的概率取得这些样本观测值(y),该总体参数即是所要求的参数,即ML估
14、计量。39一个回归实例用SPSS作体重与肺活量的回归(corr.sav注意预测值与残差)40课堂作业推导一般线性回归方程的系数的方差及协方差证明高斯马尔科夫定理推导干扰项的方差的一个无偏估计量41区间估计与假设检验估计与假设检验构成统计学的两个主要分支,估计理论又主要由点估计与区间估计组成。回顾一些概念:置信区间、置信系数、显著性水平、置信限、置信下限、置信上限42回归系数的置信区间回归估计量的置信区间置信区间的宽度与估计量的标准误成正比,即标准误越大,对未知参数的真值进行估计的不确定性愈大。43假设检验什么是假设检验:问某一给定的观测是否与某声称的假设相符,这个声称的假设叫做虚拟假设(nul
15、l hypothesis),即 ,与之相对的为对立假设(maintained hypothesis),即 假设检验就是要设计一个程序用来决定拒绝或不拒绝虚拟假设,通常采用两种互为补充的方法:置信区间和显著性检验44置信区间的方法检验方法:构造一个参数的 的置信区间。如果参数在假设 下落入此区间,就不拒绝零假设。但如果它落在此区间之外,则拒绝零假设。第一类错误(拒真):原假设正确,却拒绝了第二类错误(纳假):原假设不正确,却接受“统计上高度显著”指:当拒绝原假设时,犯第一类错误的概率是一个很小的数,通常小于1%45显著性检验方法构造一个检验统计量,利用该统计量的分布特征,来决定是否接受零假设。通
16、常一个大的t绝对值,便是与虚拟假设相抵触的迹象单尾检验46一些实际操作问题“接受”和“拒绝”假设的含义:正如一个法庭宣告某一判决为“无罪”(not guilty)而不为“清白”(innocent)统计检验的结论也应为“不拒绝”而不为接受。2-t屈指一算法则:如果自由度=20且显著水平定为0.05,则只要t统计量大于2,就可拒绝“零”假设(单尾)47一些实际操作问题在进行调查研究之前建立假设而不是相反,以免犯循环推理(circular reasoning)的错误P值被定义为一个虚拟假设可被拒绝的最低显著水平,或犯第一类错误的精确概率。由于选择显著性水平的武断性,直接选取p值并决定是否在给定的p值
17、水平上拒绝虚拟假设会较好48一些实际操作问题区分统计上的显著性和经济上的显著性。当样本非常大时,几乎任何虚拟假设都一定会被拒绝,点估计的大小成为唯一可研究的问题两种检验方法的选择,置信区间法优于显著性检验法(点与面之分)49一些实际操作问题一点建议:集中讨论系数的大小并报告其置信水平,而不去提显著性检验。如果全部或几乎全部虚拟假设都是错误的,讨论一个估计值是否无异于它在虚拟假设下的预测值,都是无意义的。我们更想探明的是什么模型可充当良好的逼近式,这就需要知道被经验估计所排斥的参数值域。50回归分析与方差分析对SST=SSR+SSE进行研究就叫做从回归的观点做方差分析(analysis of v
18、ariance ANOVA)F检验:F检验主要用在多元回归问题中,对全部系数为0做检验,其对立假设为非全部系数同时为051预测问题均值预测与个值预测置信带报告回归分析的结果52过原点回归考虑资产组合理论中的特征线方程:其中 为特定资产组合的收益率 为无风险收益率 为市场组合收益率 为特定资产组合的系统风险53课上作业练习题:资产组合理论的资本市场线(CML)在期望收益率与总风险(由标准差来衡量)之间所设的一个线性关系如下:其中 为资产组合的期望收益率 为资产组合的标准差。下表给出1954-1963年间美国34个共同基金的期望收益率与标准差数据,请检验这些数据是否支持该理论(5%的显著性水平)5
19、4回归模型的函数形式1。对数线性模型(斜率系数测度了Y对X的弹性)2。线性到对数模型(斜率系数测度了X的绝对改变量对应的Y的相对改变量,即增长模型)3。对数到线性模型(斜率系数测度了X的相对改变量对应的Y的绝对改变量)55回归模型的函数形式4.倒数模型(随着X无限地增大,(1/X)项趋于零,而Y趋于极限或渐近值 )在菲利普斯曲线中,工资变化对失业水平的反应中,存在有不对称性:当失业率低于经济学家所称的自然失业率时,由失业的单位变化引起的工资上升,要快于当失业率高于自然水平时,由失业的同样变化引起的工资下降。而常数项系数表示工资变化的渐近底限。56课上作业恩格尔支出曲线把一个消费者在某一商品上的
20、支出同他的总收入联系起来。令Y=对某一商品的消费支出,X=消费者收入,考虑上述5类所学模型,你会选择哪个(些)模型做恩格尔支出曲线,描绘其曲线图形,并作解释?(提示:解释各种斜率系数,常数项系数)57多变量回归模型三变量模型的符号与假定:干扰项零均值无序列相关同方差性干扰项与每一X变量之间都有零协方差无设定偏误无多重共线性58多变量回归模型多重共线性初探1、维恩Venn图2、不存在一组不全为零的数 和 ,使得59多变量回归模型OLS估计量和估计量的方差、标准误最小二乘拟合的一些性质:残差和为零,残差与解释变量X2和X3均不相关60多变量回归模型OLS估计量的性质:1。三变量回归线通过Y、X2、
21、X3的均值2。估计的Y的均值等于真实Y的均值3。残差和等于残差的均值4。残差与X2、X3,Y的估计值均不相关5。自变量X2和X3的相关系数朝着1增大,估计系数的方差越大(同样也随 的增大而增大)6。在经典线性模型的假定下,可以证明偏回归系数的OLS估计量是BLUE61多变量回归模型ML估计量:在总体干扰 遵循零均值和常数方差 的正态分布的假定下,ML估计量和OLS估计量是相等的,但 的ML估计量始终都是 而 的OLS估计量为62多变量回归模型复判定系数R-square:Y的变异由变量X2和X3联合解释的比例63多变量回归模型设定偏误初探:所用的回归模型是否是正确设定的?一个三变量回归的例子-期
22、望扩充的菲利普斯曲线a.假定三变量回归模型正确,检验错误设定的模型(原始菲利普斯曲线)b.错误模型的估计系数(X2对Y的总影响=X2对Y的直接影响+X2对Y的间接影响64多变量回归模型校正的 值原因:值随着X变量个数的增加而增加事实上,关于 的最重要的事情是,它在经典回归(CR)模型中是不重要的。CR模型是用来研究一个总体中的参数的,它不问在一个样本中拟合的好坏,如果人们坚持要有对预测成功有一个度量,那么有了标准误也许足够了,因为它对于适当取定的X值来说,对于参数估计来说,是富有信息的。65多变量回归模型简单相关系数:r12(Y与X2之间的相关),r13(Y与X3之间的相关),r23(X2与X
23、3之间的相关)偏相关系数:r12.3(X3保持不变下的Y和X2的偏相关系数),r13.2(X2保持不变下的Y和X3的偏相关系数),r23.1(Y保持不变下的X2和X3的偏相关系数)X3保持不变下的Y和X2的偏相关,就是从Y对X3回归和从X2对X3回归分别得到的残差之间的简单相关系数。66多变量回归模型偏相关系数的一个例子:令Y=农作物收成;X2=雨量;X3=气温假定r12=0,即农作物收成和雨量没有关联再假定r13是正的,r23是负的,这时r12.3将是正的;就是说,在气温保持不变的情况下,收成和雨量有正的关联。67多变量回归模型关于多项式回归模型:并不违反无多重共线性假定无需提出新的估计问题
24、68多变量模型之时间变量需要考虑有关时间变量的3种情况:1。发现应变量怎样在时间上变动.2。常常用来代替一个影响着因变量的基本变量。(如生产函数中的技术常用时间来代替)3。引进时间变量以避免谬误相关69课堂练习用回归模型研究过去几年的个人消费支出的行为,数据见EXCEL表格,要求去除时间因素对个人消费支出和个人可支配收入的影响70多变量回归的假设检验如果我们仅是对回归模型的参数作点估计,那么并不需要有关干扰项概率分布的任何假定,而如果涉及到假设检验,则要假定干扰项服从某个概率分布。71多变量回归的假设检验总论1。检验关于个别偏回归系数的假设(t检验)2。检验所估计的多变量回归模型的总显著性(F
25、检验)3。检验两个或多个系数是否相等(t检验)4。检验诸回归系数是否满足某种线性约束条件(t检验)5。检验所估计的回归模型在时间上或在不同横截面单元上的稳定性(邹检验)6。检验回归模型的函数形式72邹至庄检验的过程邹检验基本假定:第1、2个方程的干扰项独立同正态分布,即均值都为0,方差都为1。合并全部n1和n2次观测值,用以估计第3个方程并获得它的SSE,记作s1,其自由度为(n1+n2-k),其中k为所估参数的个数(包括截距项)2。分别估计第1、2个方程并获得它们的SSE,分别记作s2和s3,其自由度分别为(n1-k)和(n2-k)。记s4=s2+s3,其自由度为(n1+n2-2k)73邹至
26、庄检验的过程3。求出s5=s1-s44。在邹检验的基本假定下,可证明F值遵循自由度为(k,n1+n2-2k)的F分布5。如果F值大于选定显著性水平的临界F值,则拒绝结构稳定性假设。74邹至庄检验的直观理解直观上,如果两个时期的回归方程并无结构上的区别,则两个时期的回归方程的残差平方和之和应该和整个时期的回归方程的残差平方和相等,而如果两者相差很大,则我们可以构造F检验来检验结构的差异75检验回归的函数形式MWD检验(麦金农,怀特,戴维森):在线性与对数线性回归模型之间进行选择步骤1:估计线性模型并获得Y的估计值,记为Yf步骤2:估计对数线性模型并获得lnY的估计值,记为lnf步骤3:算出Z1=
27、(lnYf-lnf)步骤4:做Y对诸X和得自步骤3的Z1的回归。如果按通常的t检验Z1的系数是统计上显著的,就拒绝H0(H0:线性模型是合适的)76多变量回归的其他问题用多变量回归做预测假设检验三联体:似然比(LR),瓦尔德(Wald,简记W)与拉格朗日(Lagrange)乘数(LM)检验只在非线性回归模型或大样本环境下有更高的效率麦金农,戴维森语:对于线性回归模型,不管它的误差是或不是正态分布的,当然都不需要过问LM,W和LR,因为我们不能从这些统计量得到任何不为F所含的信息77线性模型的矩阵表示78线性模型的矩阵表示79回归模型假定的矩阵表示80干扰项的方差协方差矩阵81最小二乘法的矩阵表
28、示82放宽经典模型的假定全部11个假定:假定1:回归模型对参数而言是线性的假定2:诸回归元X的值在重复抽样中是固定的假定3:对给定的X,干扰项的均值为零假定4:对给定的X,干扰项的方差不变或有同方差性假定5:对给定的X,干扰项无自相关83放宽经典模型的假定假定6:如果X是随机的,则干扰项与诸X是独立的或至少是不相关的。假定7:观测次数必定大于回归元的个数假定8:回归元的取值必须有足够的变异性假定9:回归模型是正确设定的假定10:回归元之间无准确的线性关系假定11:随机(干扰)项是正态分布的84应用经典线性模型的主要问题第1类:关于对模型设定和对干扰项的假定问题(1、2、3、4、5、9和11)第
29、2类:对数据的假定问题(6、7、8和10),此外,异常值(outliers)问题和测量误差等也可归属此类。85不去深究的某些假定的原因假定1:对参数为线性的回归模型原因1:对参数为线性的模型,应用于许多经验现象中是相当成功的;原因2:有时这种模型是更为复杂的非线性回归模型的初次近似86不去深究的某些假定的原因假定2和6:固定的回归元和随机的回归元原因1:经济学不同其他实验科学,经济学更多依赖于第二手材料(如政府或私人机构收集的数据),因此,即使变量本身实质上也许是随机的,我们也假定变量值是固定的;原因2:因为干扰项是随机的,而如果X也是随机的,则我们必须明确X的分布和干扰项的分布是独立的,才不
30、致改变OLS的优良性质与估计的可行性87不去深究的某些假定的原因假定3:干扰项的零均值原因:干扰项的其他均值会导致截距项估计的有偏性假定11:干扰项的正态性做假设检验时在大样本和正态性之间的取舍,也就是说,如果正态性得不到满足,那么则要求有大的样本支持。原因:中心极限定理(如果干扰项是独立同分布的,并有零均值和不变方差,而X是非随机的,则OLS系数估计量是渐近正态分布的,且无偏,也就是说t和F检验仍渐近有效)88多重共线性与微数缺测性(micronumerosity)严格地说,多重共线性即指存在有1个以上的准确线性关系;而共线性是指存在1个线性关系;但在实践中很少区分。完全共线性:其中为常数,
31、但不同时为0欠完全共线性:其中为常数,但不同时为0 为随机误差项89多重共线性与微数缺测性如果多重共线性是完全的,那么诸X变量的回归系数是不确定的,并且它们的标准误为无穷大;如果多重共线性是欠完全的,那么,虽然回归系数可以确定,却有较大的标准误(相对于系数本身来说),意思是系数不能以很高的精确或准确度来估计微数缺测性问题即指假定7观测次数必须大于回归元个数的问题,和假定8回归元的取值必须有足够的变异都是对多重共线性假定的补充。90多重共线性的来源1。数据采集所用的方法。例如,抽样限于总体中诸回归元所取值的一个有限制的范围内。2。模型或从中取样的总体受到约束。3。模型设定。例如当X变量的变化范围
32、较小时在回归中添加多项式项,。4。一个过度决定的模型。这种情况出现在模型的回归元个数大于观测次数时。91存在多重共线性问题时的估计多变量回归模型的偏回归系数要求其它变量保持不变,而完全共线性注定了变量之间的共变性,因此带来破坏性的后果92(近似)多重共线性的后果1。虽然OLS估计量BLUE,但有大的方差和协方差,故难以作出精确的估计2。由于后果1,置信区间将要宽得多,以致的不拒绝“零虚拟假设”更为容易3。仍由于后果1,1个或多个系统的t比率倾向于统计上不显著4。虽然1或多个系数在统计意义上不显著,总的拟合优度仍非常高5。OLS估计量及其标准误对数据的小小变化也会是敏感的。93多重共线性的侦察克
33、曼塔(Kmenta)的忠告:1。多重共线性是一个程度问题而不是有无的问题2。由于多重共线性是对被假定为非随机的解释变量的情况而言的,所以这是一种样本而非总体特征。94多重共线性的侦察出现多重共线性的一些规则可供参考:1。R平方值高而显著的t比率少2。回归元之间有高度的两两相关,但在多变量模型中,简单相关系数只是多重共线性存在的充分而非必要条件3。检查偏相关(一种辅助手段)95多重共线性的侦察4。特征值(eigenvalues,自变量的交叉乘积矩阵XX)和病态指数(condition index)如果CI在10与30之间,就算有中强度的多重共线性,而如果CI在30之上,就算有严重多重共线性5。方
34、差膨胀因子VIF,当VIF超过10时,我们说该变量是高度共线的96多重共线性的补救措施1。先验信息,即用先验信息去替换有共线性的变量;先验信息来自先前遇到的同样共线问题的经验研究工作,或者来自该研究领域的有关基础理论2。剔除变量但要注意设定偏误问题,有时医治也许比疾病糟糕3。变量代换(一次差分形式)97多重共线性的补救措施4。补充新数据换一个样本或是增加新数据一般能减轻多重共线性的症状5。其他方法,如因子分析法、脊回归法98思考题考虑以下模型:其中Y消费,X收入,t=时间。上述模型假定了时间t的消费支出不仅是时间t的收入,而且是以前多期的收入的函数。这类模型叫做分布滞后模型(distribut
35、ed lag models)1。你预期在这类模型中有多重共线性吗?为什么?.2。如果预期有多重共线性,你会怎样解决这个问题?99异方差性异方差性的性质:假定4指明给定自变量的干扰项的方差是一个常数,即同方差性(homoscedasticity),意谓等同的(homo)分散程度(scedasticity),但如果方差不等,即为异方差性问题。(见收入、储蓄例)100异方差性的来源1。按照边错边改学习模型(error learning models),人们在学习的过程中,其行为误差随时间而减少)2。随着收入的增长,人们有更多的备用收入(discretionary income),从而如何支配他们的收
36、入有更大的选择范围。类比利润较丰厚的公司在分红政策方面比利润微薄的公司有更大的变化。101异方差性的来源3。数据采集技术的改进4。异方差性还可能因为异常值的出现而产生5。异方差的另一来源是回归模型设定的不正确性(如在商品的需求函数中,没有把有关互补或互替的商品价格包括进来)102出现异方差时的估计当异方差出现时,系数仍是线性和无偏的,但不再是最优的广义最小二乘法(GLS):先将原始变量转换成满足经典模型假设的转换变量,然后对它们使用OLS程序,这样求得的估计量是BLUE的加权最小二乘法(WLS)是GLS的一个特例103异方差的危害如果我们忽视异方差性而一味使用惯常的检验程序,则无论我们得出什么
37、结论或作出什么推断,都可能产生严重的误导104异方差的侦察和多重共线性类似,并不存在有侦察异方差性的严明的法则,只有少数经验法则可供参考。在大多数计量经济调查研究中,异方差性不过是一种直觉,先前经验或纯粹的猜想。(因为我们通常只能得到Y的样本数据)105异方差的侦察非正式方法:1。问题的性质:在涉及不均匀(heterogeneous)单元的横截面数据中,异方差性可能是一种常规而非例外(如研究一些财务指标时,样本包括大、中、小厂家)2。图解法:在无异方差性的假定下做回归分析,然后对残差平方做图,看这些残差平方是否呈现任何系统性的样式。(如横轴是Y的估计值,纵轴是残差平方,即残差图)106异方差的
38、侦察正式方法:1。帕克检验:提出是解释变量X的某个函数从而把图解法公式化。2。格莱泽(Glejser)检验:原理上类似帕克检验。3。斯皮尔曼(Spearman)的等级相关检验:从排序的角度来定义残差与X之间的相关性。107异方差的侦察4。戈德菲尔德匡特检验(适用于和回归模型中解释变量之一有正向关系的情形)步骤1:从最小X值开始,按X值的大小顺序将观测值排列步骤2:略去居中的C个观测值,其中C是预定的,并将其余(n-c)个观测值分成两组,每组(n-c)/2个步骤3:分别对前后两段回归,得RSS1和RSS2步骤4:计算比率:F(RSS2/df)/(RSS1/df)如果F值大于选定显著性水平的临界F
39、值,则拒绝同方差性假设。108异方差的侦察戈德菲尔德匡特检验说明:1。略去居中的C个观测值是为了突出或激化小方差组和大方差组之间的差异.2。当样本大小为60时,C约为163。求得的F值服从分子和分母自由度各为(n-c-2k)/2的F分布,其中k是包含截距项在内的待估参数的个数。4。要求按照被认定为引起异方差性的X变量把观测值重新排序。109异方差的侦察怀特(White)的一般异方差检验步骤1:对给定的数据,估计并获得残差步骤2:做如下辅助回归:步骤3:在无异方差性的虚拟假设下,可以证明,步骤4:如果算得的值超过选定显著性水平的临界值,结论就是有异方差性110异方差的侦察怀特检验的原理在于检验辅
40、助方程中的残差项与诸X及其交叉乘积项之间是否有显著的线性关系,或相关关系。111异方差的补救措施1。当已知时,用加权最小二乘法2。当未知时,列出怀特程序(White option)估计量,更专门化的名词是异方差性相一致协方差矩阵估计量(heteroscedasticity-consistent covariance matrix estimators或简记为HCCME)但要注意这仅限于大样本的前提下112异方差的补救措施3。异方差性假定下的变量变换假定1:误差方差正比于假定2:误差方差正比于假定3:误差方差正比于Y均值的平方4。对数变换113自相关自相关可定义为按时间(时间序列数据如季度产出)
41、或空间(横截面数据如家庭消费支出)排序的观测值序列的成员之间的相关。即违反干扰项之间无自相关的假设。(从回归模型的因变量角度)自相关(autocorrelation)与序列相关(serial correlation)的区别:变量本身与不同变量的区别114自相关的来源1。惯性,特别是一些宏观经济指标,如GNP、价格指数等2。设定偏误:应含而未含变量的情形,如替代商品价格;不正确的函数形式,如产出成本方程中未包括产出二次项3。蛛网模型(农产品供给)4。滞后效应(消费习惯)5。“编造”的数据,如季度数据由月度数据求平均而成,这样使数据更平滑而显自相关。(内插与外推等数据揉合技术)115自相关出现时的
42、估计首先必须清楚各种干扰项的发生机制:一阶自回归模型AR(1)一阶移动平均MA(1)自回归与移动平均过程ARMA(1,1)116自相关出现时的估计在存在自相关时,用OLS法估计出来的参数虽然仍是线性和无偏的,但不再有效,与异方差问题类似,可以用GLS求得BLUE的估计参数。117自相关问题的后果1。回归模型低估了真实的干扰项方差2。因此很可能高估了R平方3。因此,置信区间变得更宽了3。由此,通常的t和F等显著性检验都变成无效的了。118侦察自相关1残差图:1。用残差(或标准化残差)对时间描点2。用残差对滞后一期的残差描点,是对AR(1)假设的一种检验(如对工资的回归模型)119侦察自相关2游程
43、检验又称吉尔里(Geary检验),是对残差序列是否具有系统性样式的统计检验过程。在残差独立的虚拟假设下,并当n1(正值的残差)10,n2(负值的残差)10的条件下,游程个数(k)将遵循正态分布。决策规则:在95%的置信度下,k落在,就不要拒绝随机性假设。120侦察自相关3德宾沃森检验,又称DW检验,侦察自相关的最普遍应用的检验方法,其特点在于它仅依赖于残差值。D-W检验的基本假定:1。回归含有截距项,X非随机或在重复抽样中固定2。干扰项是按一阶自回归模型产生的3。回归模型不把滞后因变量当作解释变量4。没有缺失数据121侦察自相关3D-W检验:步骤1:做OLS回归并取残差步骤2:计算d步骤3:对
44、给定样本大小和给定的解释变量个数找出临界 和值。步骤4:比对决策规则122自相关的补救措施GLS法123ARCHARCH指回归模型t时刻的干扰项的方差依赖于t-1时刻的干扰项平方,即依赖于在涉及金融数据,如股票价格、通货膨胀率、外汇汇率等金融时间序列预测的研究工作时,经常用到ARCH模型,因为研究人员发现他们对这些金融变量的预测能力随时期的不同而有相当大的变化。当出现ARCH时应用GLS法进行估计124设定偏误设定偏误的类型:1。漏掉一个有关变量2。包含一个无需变量3。采用错误函数形式4。测量误差125设定偏误的后果1。略去有关变量,则估计系数有偏误且非一致,系数方差将增大,误差方差将不正确2
45、。加入多余变量,则估计系数仍无偏且一致,系数方差正确,但是误差方差将不正确126设定偏误的检验1。残差图分析2。再次使用D-W统计量步骤1:从原回归方程求得OLS残差步骤2:按遗漏的解释变量Z的递增次序对残差排序步骤3:从这样排列的残差计算d步骤4:比对D-W表,如果d值显示有相关性,则模型设定偏误127残差图分析128有关测量误差的两点说明如果因变量有测量误差,则OLS估计量是无偏的,且有一致性,但效率较低。如果自变量有测量误差,则OLS估计量是有偏误的,而且非一致129正确设定模型的6种途径1。理论+约束2。代理变量3。假设检验4。简化5。数据选择6。数据后模型构建130在模型之间进行选择
46、1。嵌套模型,如B被嵌套在A中(检验系数是否为零)2。非嵌套模型判别方法(根据某些拟合优度准则,如R平方、AIC准则等)辨识方法(把供选择的非嵌套模型组合成一个嵌套模型再做检验)131利用兼容性准则对模型进行选择戴维森-麦金农J检验步骤1:估计模型D并得到Y的估计值步骤2:将步骤1中得到的Y的估计值作为自变量加入到模型C中步骤3:对步骤2中的Y的估计值系数做t检验,如果不拒绝零假设,则D模型不含有足以改进模型C的任何额外信息,故模型C兼容了模型D步骤4:上述过程C和D对调,再做检验132关于虚拟变量的回归对一个定量变量和一个两分类定性变量的回归;被赋予零值的那个类别被喻为基底(base)、基准
47、(benchmark)、对照(control)、对比(comparison)、参考(reference)或省略(omitted)类,虚拟变量的系数可称为级差截距系数(differential intercept coefficient),它告诉我们取值为1的类别和取值为0的截距值的差别。如果一个定性变量有m个类别,则仅引入m-1个虚拟变量,未引入的类别由基底来表示。133用虚拟变量比较两个回归储蓄-收入例用虚拟变量法比较两个回归不仅能用一个步骤进行比较,还能检查两个回归模型的区别细节(级差截距、级差斜率系数分别表示截距和斜率与原方程相差多少)衣着开支-性别和教育交叉乘积选项的应用134虚拟变量
48、回归季节调整(消费者价格指数、批发价格指数、工业生产指数等都以季节调整的形式出现),虚拟变量是季节调整的一种方法。销售额-奖金分段线性回归(样条函数spline function)门槛值、结点、阀值135虚拟应变量的回归线性概率模型(LPM):因变量的值是定性变量,回归模型仍是线性LPM模型的干扰项的非正态性。(评:如果仅是做点估计或在大样本的前提下,则此点可不计)Y的期望值应该在0到1之间决定系数显示出较少信息概率值随X的增加而线性增加的性质与事实不符136对数单位(logit)模型1。随着P从0到1(Z从负无穷到正无穷),对数单位L从负无穷到正无穷2。虽然L对X为线性,但概率本身是非线性的
49、3。斜率系数显示自变量的单位变化所引起的对数机会比率是怎样变化的4。一旦估计出斜率系数,可以直接求出概率值137对数单位(logit)模型的估计加权最小二乘法对logit模型进行估计斜率系数的反对数减去1再乘以100%可得自变量每增加1单位的机会比率的百分比变化 给出自变量每单位变化所引起的概率本身的变化,注意到概率的变化不仅跟斜率系数有关,同时也跟概率值本身有关可以用最大似然法对logit模型进行估计138概率单位(probit)模型以正态CDF来对虚拟应变量进行估计的模型为概率单位模型(probit model),又称为正态单位模型(normit model)因为每当P小于0.5时,将是负
50、数,所以在实践中把数值5加到 ,其结果称为概率单位139托比模型一个仅对某些观测有因变量的信息的样本叫截取样本(censored sample),对这类样本的回归叫托比模型,又称截取回归模型或限值应变量模型(limited dependent variable models),一个典型例子是研究门票的需求量,当门票售完时,你所得到的因变量只是售出的数量而非实际的需求量与truncated sample(某些自变量的值被删减,如低于某收入水平)的区别140托比模型的估计用最大似然法对托比模型进行估计141动态模型之分布滞后分布滞后模型:回归模型不仅含有解释变量的当前值,还含有它们的滞后值,是因为