《非线性和非参数模型.ppt》由会员分享,可在线阅读,更多相关《非线性和非参数模型.ppt(137页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八讲 非线性和非参数计量经济学模型1 简单的非线性单方程计量经济模型2 非线性模型的几个专门问题3 非参数计量经济学模型1 简单的非线性单方程计量经济模型 一、非线性单方程计量经济学模型概述 二、非线性普通最小二乘估计 三、例题及讨论四、非线性单方程模型的最大似然估计说明 非线性计量经济学模型在计量经济学模型中占据重要的位置;已经形成内容广泛的体系,包括变量非线性模型、参数非线性模型、随机误差项违背基本假设的非线性问题等;非线性模型理论与方法已经形成了一个与线性模型相对应的体系,包括从最小二乘原理出发的一整套方法和从最大或然原理出发的一整套方法。本节主要涉及最基础的、具有广泛应用价值的非线性
2、单方程模型的最小二乘估计。一、非线性单方程计量经济学模型概述 解释变量非线性问题 现实经济现象中变量之间往往呈现非线性关系 需求量与价格之间的关系 成本与产量的关系 税收与税率的关系 基尼系数与经济发展水平的关系 通过变量置换就可以化为线性模型 可以化为线性的包含参数非线性的问题 函数变换 级数展开 不可以化为线性的包含参数非线性的问题 与上页的方程比较,哪种形式更合理?直接作为非线性模型更合理。二、非线性普通最小二乘法 普通最小二乘原理 残差平方和 取极小值的一阶条件 如何求解非线性方程?高斯牛顿(Gauss-Newton)迭代法 高斯牛顿迭代法的原理 对原始模型展开台劳级数,取一阶近似值
3、构造并估计线性伪模型构造线性模型估计得到参数的第1次迭代值迭代 高斯牛顿迭代法的步骤 牛顿拉夫森(Newton-Raphson)迭代法 牛顿拉夫森迭代法的原理 对残差平方和展开台劳级数,取二阶近似值;对残差平方和的近似值求极值;迭代。与高斯牛顿迭代法的区别 直接对残差平方和展开台劳级数,而不是对其中的原模型展开;取二阶近似值,而不是取一阶近似值。应用中的一个困难 如何保证迭代所逼近的是总体极小值(即最小值)而不是局部极小值?一是模拟试验:随机产生初始值估计改变初始值再估计反复试验,设定收敛标准(例如100次连续估计结果相同)直到收敛。一是利用检验统计量进行检验。非线性普通最小二乘法在软件中的实
4、现 给定初值 写出模型 估计模型 改变初值 反复估计三、例题与讨论例:农民收入影响因素分析模型 分析与建模:经过反复模拟,剔除从直观上看可能对农民收入产生影响但实际上并不显著的变量后,得到如下结论:改革开放以来,影响我国农民收入总量水平的主要因素是从事非农产业的农村劳动者人数、农副产品收购价格和农业生产的发展规模。用I表示农民纯收入总量水平、Q表示农业生产的发展规模、P表示农副产品收购价格、L表示从事非农产业的农村劳动者人数。收入采用当年价格;农业生产的发展规模以按可比价格计算的、包括种植业、林业、牧业、副业和渔业的农业总产值指数为样本数据;农副产品收购价格以价格指数为样本数据。农民收入及相关
5、变量数据年份I(10亿元)Q(1978=100)P(1978=100)L(100万人)1978 62.45 100.0 100.0 31.521979 79.30 107.5 122.1 31.901980 96.50 109.0 130.8 35.021981 107.65 115.3 138.5 36.921982 120.80 128.4 141.5 38.051983 142.40 138.4 147.8 43.401984 185.85 155.4 153.7 58.881985 238.70 160.7 166.9 67.131986 285.52 166.1 177.6 75.2
6、21987 343.80 175.8 198.9 81.301988 442.60 182.6 244.6 86.111989 495.30 188.3 281.3 84.981990 524.66 202.6 274.0 86.741991 559.30 210.1 268.4 89.061992 613.66 223.5 277.5 97.651993 743.49 241.0 314.7 109.981994 979.39 261.7 440.3 119.641995 1271.16 290.2 527.9 127.071996 1567.33 317.5 550.1 130.28199
7、7 1721.71 333.7 525.3 135.27讨论:NLS的初值及影响 由于农副产品收购价格和非农产业劳动者人数与农业生产规模指数严重共线性,以农民收入为被解释变量,农业生产规模指数为解释变量,19781997年数据为样本。线性化估计收入年均增长19.1%,产值年均增长6.5%,该参数估计结果基本合理。为什么如此之高?能否将它解释为“产值的收入弹性?”CPI人口非线性估计(初值:1、5)迭代收敛很快拟合效果较差与线性估计结果偏离大,经济意义不合理非线性估计(初值:0.001、2)非线性估计(初值:0.1、1)拟合结果实际观测值线性拟合值非线性拟合值局部极小拟合值讨论 一般情况下,线性
8、化估计和非线性估计结果差异不大。如果差异较大,在确认非线性估计结果为总体最小时,应该怀疑和检验线性模型。非线性估计确实存在局部极小问题。根据参数的经济意义和数值范围选取迭代初值。NLS估计的异方差和序列相关问题。NLS不能直接处理。应用最大似然估计。四、非线性单方程模型的最大似然估计经典线性单方程模型的最大似然估计i=1,2,n 参数估计结果与参数的OLS估计相同简单非线性单方程模型的最大似然估计i=1,2,n 面临NLS同样的过程,得到相同的估计结果。2 非线性模型的几个专门问题一、一般非线性模型的最大似然估计二、因变量的参数变换三、异方差性的非线性方法四、序列相关性的非线性方法五、条件异方
9、差性的非线性方法一、一般非线性模型的最大似然估计1.一般非线性模型的描述 以上是一般非线性模型的完整描述。随机项满足经典假设 模型参数的一种估计方法是最小二乘法,即最小化 模型参数的另一种估计方法是最大似然法。得到广泛应用。最大似然估计 yi的密度函数雅可比行列式雅可比行列式正态分布密度函数 因变量样本的对数似然函数为:很明显若没有雅可比行列式项,参数的非线性最小二乘估计将是最大似然估计;然而,如果雅可比行列式包括,最小二乘法不是最大似然法。最大化对数似然函数的一阶条件为:一般是得到中心化对数似然函数,然后最大化 如果变换的雅可比行列式是1,则不存在因变量的参数变换;如果变换的雅可比行列式包含
10、,则称为因变量的参数变换模型。二、因变量的参数变换 Box-Cox变换 一种将变量之间的非线性关系变换为线性关系的方法。Box和Cox(1964)提出的变换关系:要求变量x为正值。取值可以是整个实数域但多数应用有意义的取值范围为-2,2。当=2,是二次变换;当=0.5,是平方根变换;当=1,是线性变换;当=-1,是倒数变换;当=0,是对数变换。例如:如果已知被解释变量和解释变量各自进行何种的B-C变换,可以先变换,然后估计线性模型。一般情况下,何种未知,作为一组参数引入模型,对变换后的模型进行非线性模型估计,同时得到和的估计量。许多应用软件,例如GAUSS、SAS可以实现。这就引出了B-C变换
11、的更重要的价值:如果不知道被解释变量和解释变量之间存在何种形式的函数关系,可以通过“B-C变换非线性模型估计”确定函数关系。Box-Cox非线性回归模型的参数估计 模型中被解释变量样本的对数似然函数为:中心化对数似然函数:响应系数和弹性系数为:示例:假定被解释变量y与解释变量x和z之间的关系为:施加相同约束的估计结果真值:1=2,2=1,3=1,=1 未施加相同约束的估计结果为什么结果很差?三、异方差性的非线性方法思路 将异方差问题看成一类非线性问题,采用NML估计,比较简单,可以同时得到参数估计量和反映异方差特征的量。被解释变量样本的对数似然函数为:对异方差的结构给出假定,可以对模型的参数和
12、异方差的结构参数进行最大似然估计。针对不同的问题假定不同的异方差结构;针对同一个问题假定不同的异方差结构,进行估计和比较。典型的异方差结构及其对应的对数似然函数。例题OLS未考虑异方差ML未考虑异方差0.183320.000015887 线性模型,截面样本,一般存在异方差。采用非线性最大似然法估计,可以得到关于异方差结构的估计结果。在某些情况下,得到异方差结构的估计结果比模型参数估计量更重要。这就是异方差性的非线性方法的意义所在。四、序列相关性的非线性方法 首先假定模型随机误差项的序列相关结构。一般以AR(1)、MA(1)、ARMA(1,1)为常见。求出随机误差项对被解释变量的偏导数表达式。构
13、造最大似然函数。同时得到模型参数和随机误差项的序列相关结构的估计结果。五、条件异方差性的非线性方法ARCHAuto Regressive Conditional Hoteroskedasticity 条件异方差现象 通常横截面数据问题会产生异方差,而一般时间序列问题没有异方差现象。如果时间序列数据问题出现异方差,经常以条件异方差形式。所谓条件异方差,实际上是指“异方差”的“异”具有序列相关性。Engle于1982年分析英国通货膨胀率时首先发现条件异方差现象。被广泛应用于金融市场时间序列分析。Engle,R.F.:1982,Autoregressive Conditional Heteroske
14、dasticity With Estimates of the Variance of U.K.Inflation,Econometrica 50:987-1008.The application in Engle(1982)involved macroeconomic series such as the inflation rate,but Engle quickly realized that the ARCH model was useful in financial economics,as well.Risk evaluation is at the core of activit
15、ies on financial markets.Investors assess expected returns of an asset against its risk.Banks and other financial institutions would like to ensure that the value of their assets does not fall below some minimum level that would expose the bank to insolvency.Such evaluations cannot be made without m
16、easuring the volatility of asset returns.Robert Engle developed improved methods for carrying out these kinds of evaluations.Percentage daily returns on an investment in the Standard&Poor 500 stock index May 16,1995April 29,2003.The returns averaged 5.3 percent per year.At the same time there were d
17、ays,when the fluctuations in prices were greater(plus or minus)than 5 percent.The standard deviation in daily returns measured over the entire period was 1.2 percent.Closer inspection reveals,however,that the volatility varies over time:large changes(upwards or downwards)are often followed by furthe
18、r large fluctuations,and small changes tend to be followed by small fluctuations.Standard deviation for percentage daily returns on an investment in the Standard&Poor 500 stock index,May 16,1995April 29,2003,computed from data for the four preceding weeks.Many financial time series are characterized
19、 by similar time variation in volatility.Many financial economists are concerned with modeling volatility in asset returns.ARCH(q)模型 具有异方差性异方差是有规律的:自回归 设样本有n个观察个数,则对数似然函数为:模型估计的困难:长记忆下的高阶滞后。GARCH(p,q)模型 Bollerslev,T.:1986,Generalized autoregressive conditional heteroskedasticity,Journal of Econometr
20、ics 31,307-327 The best-known extension is the generalized ARCH model(GARCH)developed by Tim Bollerslev in 1986.Here,the variance of the random error in a certain period depends not only on previous errors,but also on the variance itself in earlier periods.This development has turned out to be very
21、useful;GARCH is the model most often applied today.Taylor(1986)suggested p=q=1,the most popular ARCH model in practice.ARCH-M(q)模型 为什么比ARCH少1项?GARCH-M(p,q)模型 检验 H0:不存在ARCH或GARCH 统计量LM=nR2 用某种方法估计原模型,得到残差估计值 计算LM,进行LM 检验。3 非参数计量经济学模型 Nonparametric model 一、非参数计量经济学模型概述二、非参数单方程模型的核估计三、非参数单方程模型的局部线性估计四、
22、非参数单方程模型的最小二乘估计一、非参数计量经济学模型概述概念参数模型和非参数模型 经典的线性或非线性计量经济模型,首先根据对研究对象行为的分析,建立包含变量、参数和描述它们之间关系的理论模型,然后利用变量的样本观测值,采用适当的方法,估计参数,故称为参数模型。在现实中,经济变量之间的关系并不是在所有样本点上都是不变的,或者说不能事先确定某种线性关系或非线性关系,而是要通过估计才能得到某种关系,而且随着样本点的不同而不同。这就引出了非参数模型。非参数模型、无参数模型、半参数模型 如果所有变量之间的关系都是不明确的,称之为完全非参数模型,简称非参数模型或者无参数模型(Nonparametric
23、model);如果一部分变量之间的关系是明确的,而另一部分变量之间的关系是不明确的,称之为半参数模型(Semiparametric Model)。一般所说的“非参数计量经济学”,既包括非参数单方程模型,也包括非参数联立方程模型;既包括完全非参数模型,也包括半参数模型。完全非参数模型(无参数模型)随机设定模型(X是随机变量)固定设定模型(X是确定性变量)半参数模型既然非参数模型不能将经济活动中变量之间的结构关系明确地加以描述,那么它是否属于经济数学模型?非参数模型并不事先假定经济活动中变量之间的结构关系,而是通过估计获得这种结构关系,而且具有明确的数学描述。所以它毫无疑问属于经济数学模型,应该将
24、它纳入计量经济学模型的范围。既然非参数模型不能将经济活动中变量之间的结构关系明确地加以描述,那么它能否用于经济预测?它的应用价值是什么?它的应用价值在于有更好的拟合效果,可以说是所有类型经济数学模型中拟合效果最好的。由此而引出的对已经发生的经济活动的推断具有更高的精度,所得到的反映经济变量之间关系的结构参数,例如乘数、弹性等,更加反映经济活动的实际。从这些结构参数出发进行的预测可以得到更加可靠的结果。模型估计方法 局部逼近估计方法 权函数方法 核权估计 局部线性估计 K近邻估计 整体逼近估计方法 级数估计(最小二乘估计)正交序列估计 多项式样条估计 模型估计理论的早期重要发展 局部逼近(权函数
25、)估计发展于1980年前后:Watson和Nadaraja(1964)提出回归模型的核估计。Stone(1977)讨论了权函数估计的矩相合性。Stone(1977,1980,1982)系统研究了非参数回归模型的局部多项式拟合。Cleveland(1979)提出局部线性拟合的稳健估计。Devroye 和Wagner(1980)证明了核估计的相合性。Stone(1980,1982)得到非参数估计收敛于实际回归函数的最优速度。整体逼近(级数)估计主要发展于1980年后:Grace Wahba(1970s)提出了级数估计。Stone(1982)讨论了级数估计量在I.I.d.样本下的一致收敛速度。Sto
26、ne(1985),Cox(1988),Andrews(1991)讨论了级数估计量在I.I.d.样本下的渐近性质。Ullah(1985)讨论了I.I.d.样本下基于级数估计方法的模型设定检验。White and Wooldridge(1991)级数估计在时间序列的应用。后期研究热点 局部逼近估计方法:权函数估计 最佳核函数选择 变窗宽和最佳窗宽选择 收敛性 稳健性 渐近偏和方差 边界点 多元模型 联立方程模型 整体逼近估计方法:级数估计 样本下级数估计量的收敛速度、渐近正态性、一致收敛速度、模型设定检验的深入研究。弱相依样本(weekly dependent Data)下级数估计量的研究:Whi
27、te and Wooldridge(1991),Chen and Shen(1998)研究渐近性质。二、非参数单方程模型的核估计核估计是一种权函数估计方法 权函数估计 条件回归函数的估计是yi的线性组合,对应所得到的被解释变量的估计是yi的加权平均,权数利用了解释变量的信息,且由解释变量的数值来确定每个yi的权数的大小。不同的选择权函数的方法构成了不同的权估计方法。核权估计、局部线性估计、k-近邻估计等是其中常用的方法。Nadaraya-Watson核估计 Nadaraya(1964)及Watson(1964)提出。选定原点对称的概率密度函数为核函数 核估计等价于局部加权最小二乘估计均匀核。因
28、为 最常用的核函数有:均匀核:k()是-1,1上的均匀概率密度函数 I()为显示性函数,当括号内的不等式成立时,取值为1,否则取值为0。m(x)的Nadaraya-Watson 核估计就是落在x-h,x+h的xi对应的yi的简单算术平均值。Epanechnikov核:k()是-1,1上的概率密度函数 m(x)的Nadaraya-Watson 核估计就是落在x-h,x+h的xi对应的yi的加权算术平均值。高斯核:k()是(-,+)上原点对称的标准正态密度函数 m(x)的Nadaraya-Watson 核估计就是yi的加权算术平均值。密度核估计 用核估计方法估计密度函数。其它形式的核函数估计 K
29、近邻估计窗宽的选择 核估计是集中x附近一个邻域的样本观测值的加权平均,该邻域的宽度h称为窗宽。是控制核估计精度的最主要的参数。渐近偏随着窗宽减少而减少:渐近方差随着窗宽减少而增大:f(x)是解释变量的密度函数。在估计的偏和方差中寻求平衡,使得均方误差达最小。渐近均方误差渐近偏2渐近方差 使得渐近均方误差 达最小的最佳窗宽具有如下形式:c为某个常数。如何选择常数c:一种经验选择方法 当K()为-1,1上对称、单峰的概率密度时,mn(x)的估计量是集中在x附近一个邻域的xi对应的yi的加权平均,而hn正好是这个邻域的长度的一半。不变窗宽和变窗宽 窗宽随xi改变。核估计效果更好。核权函数的选择 将最
30、佳窗宽代入渐近均分误差公式,可推得最佳核函数为:边界点的处理 由于较少的观测值被利用,估计的偏和方差将增大。利用特殊的技术,例如广义刀技术,可以得到用于边界点估计的边界核。例题1模拟例题 解释变量序列xi独立均匀同分布,随机误差项序列ui独立同分布。让xi(i=1,2,300)是在0,1上均匀取值相互独立的变量,uiN(0,0.25)(i=1,2,300)独立,模型为:选择 数据及其核估计拟合图例题2我国对外经济联系与国内通货膨胀关系的非参数估计 选定商品进出口总额X和外汇储备FC表示我国对外经济联系,代表通货膨胀的变量Y则采用居民消费价格指数。从中国物价得到1993年4月到1998年11月每
31、月与上年同月相比的居民消费价格指数,再换算成每月与1992年4月相比的居民消费价格指数,用它作为被解释变量变量y。商品进出口总额资料来自海关统计外汇储备资料来自中国金融。经典线性回归模型的估计结果如下:R2=0.84582,F=178.29,拟合的均方误差为11.035。非参数模型采取高斯核估计方法,采用交错鉴定法选择最佳窗宽为0.25。拟合的均方误差为3.809。三、非参数单方程模型的局部线性估计局部多项式回归 对于非参数回归模型 将m(x)在x0处进行台劳展开 该多项式可用加权最小二乘法进行局部拟合。即最小化 如果有局部线性模型 若K()是-1,1上的均匀概率密度函数,则m(x)的局部线性
32、估计就是落在x-hn,x+hn的xi与其对应的yi关于该局部模型的最小二乘估计。若K()是-1,1上的Epanechnikov概率密度函数,则m(x)的局部线性估计就是落在x-hn,x+hn的xi与其对应的yi关于该局部模型的加权最小二乘估计。当xi越接近x时,对应yi的权数就越大,反之,则越小。若K()是-,上原点对称的标准正态密度函数,则m(x)的局部线性估计就是该局部模型的加权最小二乘估计。当xi越接近x时,对应yi的权数就越大,反之,则越小。当xi落在x-3hn,x+3hn之外时,权数基本上为零。局部线性估计原理的示意图 局部线性估计的逐点渐近偏和方差 由比较可见,Nadaraya-W
33、atson核估计的方差与局部线性估计的相同,但偏却多了一项;局部线性估计的渐近偏与解释变量的密度函数无关,因而具有数据类型的适应性,即既适合均匀分布的解释变量,又适合非均匀分布的解释变量。由于局部线性估计是模型局部台劳线性展开的局部加权最小二乘估计,比局部台劳零阶展开的核估计的局部展开项多了线性项,所以,局部线性估计的性质好于核估计。使得局部线性估计的渐近均方误差达最小的最佳窗宽和最佳核函数仍为相同的形式。局部线性估计的优点 局部线性估计的局部斜率能够动态地反映经济现象的结构变化。局部线性估计假定变量之间的关系未知,因而没有隐含任何假设条件,所以更加符合实际。没有其它普遍使用的核估计可能导致不
34、必要的偏差。局部线性估计方法既适合于解释变量为确定性变量的固定设定模型,也适合于解释变量为随机性变量的随机设定模型。局部线性估计方法适合于随机设定模型解释变量分布均匀情形,也适合于分布不均匀的情形 局部线性估计不必进行边界修正,它在边界的偏差自动与内部的偏差有相同的阶 局部线性估计在所有线性估计中,在极小极大效率意义上接近于最优,它的有效性为100%变窗宽局部线性估计 看下面的例题例题 建立如下消费函数的非参数回归模型:Y为国内生产总值,C为居民消费总额。由于各经济指标随着年份的增加,变化量逐渐增大,为此在第i年份取窗宽为:数据表 Gauss计算程序 变窗宽局部线性估计的结果(平均拟合误差为1
35、21.58)XF:观测值,XFF:非参数拟合值XF:观测值,XFF:非参数拟合值,XFFL:参数拟合值四、非参数单方程模型的最小二乘估计1、原理 非参数模型的整体逼近估计 用级数近似被解释变量的条件期望 根据残差平方和最小确定级数的系数。一列数目随样本数增加而增加的近似函数 逼近由最小二乘得到2、正交序列估计 如果近似函数为一组正交基,称为正交序列估计。正交基正交序列展开 常用的正交基有标准的Legendre多项式和Fourier基。3、样条估计 多项式样条固定节点序列立方样条函数 平滑样条 多项式样条估计取决于节点个数和节点位置的选择,节点位置应选择曲线的曲率明显有较大变换的位置。平滑样条是
36、一种自动选择节点的方法。4、有关文献检索 级数估计量在独立同分布样本下的收敛速度和渐近正态性研究。Stone(1985,Annals of Statistics)Cox(1988,Annals of Statistics)Andrews(1991,Econometrica)Andrews and Whang(1990,Econometric Theory)Eastwood and Gallant(1991,Econometric Theory)Gallant and Souza(1991,Journal of Econometrics)Newey(1994,Econometrica;1995,
37、Statitical Methods of Economics and Quantitative Economics;1997,Journal of Econometrics)。级数估计量在独立同分布样本下的一致收敛速度研究。Stone(1982,Annals of Statistics)Newey(1997,Journal of Econometrics)De Jong(2002,Journal of Econometrics)独立同分布样本下基于级数估计方法的模型设定检验。Ullah(1985,Journal of Quantitative Economics)Bierens(1990,Econometrica)Eubank and Spiegelman(1990,Journal of the American Statistical Association)Gozalo(1993,Econometric Theory)Lee(1988,Dissertation)Wooldridge(1992,Econometric Theory)Yatchew(1992,Econometric Theory)Hong and White(1995,Econometrica)Horowitz and Spokoiny(2001,Econometrica)。