《小样本最小二乘法.ppt》由会员分享,可在线阅读,更多相关《小样本最小二乘法.ppt(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、小样本最小二乘法现在学习的是第1页,共43页一、古典线性回归模型的假定Ordinary Least SquareOLS最小二乘法(,)是线性回归模型最基本的估计方法。古典线性回归模型的假定如下:i1i12i2kikipopulationyxxxin假定2.1 线性假定 总体()模型为:(1,)(2.1)1kinik regression coefficients为样本容量,表示观察值序号,表示解释变量个数。,为未知参数,即总体回归系数()为扰动项,表示除了模型中的解释变量以外,影响被解释变量的其余因素。若有常数项,则令第一个变量恒为1现在学习的是第2页,共43页Data Generating
2、Process DGP 总体模型也称“数据生成过程”(,)一般小写字母表示列向量,大写字母表示矩阵。iiiyxin(2.1)简写成 (1,)(2.2)12n12n12nyyyyXxxxyX定义,数据矩阵,则(2.2)简写成 (2.3)假定2.2 严格外生性i1nExx0i1n,(2.4)iiiijkxCov(x)0jk这意味着扰动项 均值独立于解释变量的所有观察值,而不仅仅是同一期或同一个观察值,由均值独立,得出 与所有解释变量不相关,即,现在学习的是第3页,共43页 i E00定理,即扰动项的无条件期望为 ixixEE EXE00证明:根据迭代期望定理,XYE XY0XYx y 定义:若随机
3、变量,满足,则称,正交。(注意,而向量正交指的是向量的内积为0,0)定理:解释变量与扰动项正交 jkijkijkijkiCov xE xE xEE x证明:0,2.3rank Xk假定 不存在严格多重共线性,即数据矩阵列满秩,1r Xr XXXXkXX由公式,可得的秩为,即满秩矩阵,故存在。XX X或由前面练习可知,为列满秩可得为正定矩阵,而正定矩阵可逆现在学习的是第4页,共43页假定2.4 球型扰动项 即扰动项满足同方差、无自相关。22n2VarXEXI00 (2.5)211222x0 xxx0何谓“球型”,看二次型可知conditional heteroskedasticity若对角线元素
4、不相等,是为条件异方差()0autocorrelation若非对角线元素不为,是为自相关()即扰动项之间有相关关系现在学习的是第5页,共43页OLS二、的推导iiiiresidualeyx为未知总体参数,而 为其某个估计值,记第个数据的拟合误差(即残差,)为 iiiiiiiyxyyxe有两种表达方式,12neeeeyX残差用向量表示,n2ii=1Sum of Squared ResidualsSSRe所谓最小二乘法是寻找能使残差平方和(,)达到最小的那个现在学习的是第6页,共43页 n2ii=1SSRee eyXyXyXyXyyyXX yX XyyyXX X 因此残差平方和是 的二次函数,2
5、SSR为寻找的极值点,需要对 求导,为此先介绍向量求导法则k12kiii=1aaaaaa设有列向量,则12k12kaaaaaaaa 就有 (2.6)现在学习的是第7页,共43页12kAAAAA同理可验证 2 (2.7)对列向量求导,结果还是列向量,称为梯度向量。SSR2X y2X X0函数求极值的必要条件是 (2.8)X XX y 可得正规方程组:(2.9)1OLS X XX y 解出 的估计量(2.10)现在学习的是第8页,共43页OLSX yX X0由的条件(2.8)可得X yX0X e0 eXOLS表示残差向量 与解释变量 正交,这是的特征之一多元函数存在极小值的充分条件是函数对自变量列
6、向量求二阶导数所得的矩阵(海赛矩阵)为正定矩阵。2SSRX X 海赛矩阵为2前面已证其为正定矩阵。OLSyXeye yXfitted values估计量 求出后,被解释变量分解为 称为被解释变量的拟合值()现在学习的是第9页,共43页yeyeXeX e00 而 也与 正交,因为故被解释变量是被分解成相互正交的两个部分。2i2n22ii=1Vare1sen-k关于扰动项的方差,由于扰动项 不可观测,故残差 视为 的实现值(相当于变量的抽样实现值)故使用如下统计量作为方差的无偏估计 (2.11)2212nE sn-knn-kneeekXe 0n-k可以证明为什么除以而非,称为自由度,因为 个残差须
7、满足 个正规方程,所以自由度减少为现在学习的是第10页,共43页2ssstandard error of the regression称 为回归方程的标准误差()OLS三、的几何解释Xye yXXy yXe现在学习的是第11页,共43页所谓做回归分析,是指将被解释变量分解成两部分,其一是由解释变量来解释的部分(即拟合值或模型值),其二是由众多次要因素决定的残差部分。yXeye yXXXXX若模型设定为线性模型,则可表为 于是模型拟合值 是 之列向量的线性组合,也即属于由 的列向量所生成的空间(列空间)yye做回归分析自然希望模型的解释力度越大越好,也即中的 部分尽量大,从而残差 尽量小。向量的
8、大小由长度或模来衡量。现在学习的是第12页,共43页12nn2ii=1aaaaanormaa aa定义:设向量,定义 的模()或长度为 (2.12)aba bcosab定理(余弦法则):两个向量、之间的夹角 满足 (2.13)夹角 反映两向量的相关程度eyX目标是残差向量尽量小,也即尽量小yyeXe向量间满足头尾相连的加法准则(如图所示)即 现在学习的是第13页,共43页e那么在什么情况下最小呢?eX几何知识告诉我们这将在 与 列空间正交(垂直)的情形下实现eXX则 与 列空间中的一切向量(包括)正交a bcos2ab由向量正交定义或余弦法则(0)Xe0X yX0 X yX X00X yX X
9、0假定,X XX y1X XX yXyXprojection因此,线性组合被称为 在 的列空间的正交投影()现在学习的是第14页,共43页yXyXOLS可见 到 的投影就是 对 回归的拟合值111PX X XX yXXX XX yX X XXyPy先设 1PyXPX X XX可见可以将 视作一个算子或函数,作用于(左乘)后生成投影,故称矩阵 为投影矩阵111MIX X XXeyXyX X XXyIX X XXyMy先设 而残差 现在学习的是第15页,共43页MyeMresidual maker可见将作用于(左乘)后即可生成残差向量,故称为残差制造者()MyyX也是投影矩阵,左乘 相当于把 投影
10、到与列空间正交的补空间中去22PPPPMMMM请验证,投影矩阵必有两个性质:幂等、对称对称性将保证投影是正交的,而幂等性使二次投影保持不变2P yP PyP XXPyM,也一样MPPM请验证0Xey上式表明 列空间与残差 所在空间是正交的,输入 可知现在学习的是第16页,共43页yPyMy显然有 投影残差 yyyPPyyMMyyyee 运用上式,勾股定理也成立222yye即下面的表达式很有用e eyM MyyMyyee y残差平方和e ee yyXyyyX yyyyX MX0Pe0故有 与eMyM XMXMMMX0可以把残差表为总体扰动项 的函数 因为现在学习的是第17页,共43页SSRe e
11、MMM MM也可把残差平方和表为 的函数ny nyny R有 个观测值,相当于独立抽样,故均为自由的,故属于 维空间,。XXXk而 在列满秩的基础上由 的列向量生成的列空间的维数就是列向量的个数,故 的列空间的维数几 何 知 识:线 性 空 间 的 维 数 等 于 相 互 正 交 的 子 空 间 的 维 数 之 和nknk即,enk即残差向量 所在空间的维数 2e enksnk故的自由度为 ,除以 现在学习的是第18页,共43页四、拟合优度nnnnn22222iiiiiii=1i=1i=1i=1i1nii1yyyyyyyyeOLSeye 若模型包含常数项,则被解释变量的离差平方和可分解为(的结
12、果有0,0)n2ii=1n2ii1 yye为回归平方和,是可由模型解释的部分为残差平方和,是不能由模型解释的部分nn22ii2i=1i1nn22iii=1i=1 yyeR1yyyy定义:拟合优度现在学习的是第19页,共43页coefficient of determination也称判定系数()22RR越大,则说明拟合程度越好。若增加解释变量则必然只增不减,但却会损失自由度,为此可通过对自由度相对平均化来对解释变量过多进行惩罚。n2i2i1n2ii=1en-kR1yyn-1故定义校正拟合优度 2R缺点是有可能为负若回归模型中不包含常数项,则离差形式的平方和分解公式不成立(为什么?)nii1e0
13、因为现在学习的是第20页,共43页 n2ii1nn22iii1i1 yyyyeyeyy2yee e yye eyeye0若回归模型中不包含常数项,则有被解释变量平方和的分解公式 因为2222uc2RUncentered R y yye eR1yyyyy可定义非中心()12ucyX X XX yRyy可证(练习)LM此结果在第四章在推导检验时会用到现在学习的是第21页,共43页OLS五、最小二乘法()的小样本性质11OLSX XX yy、线性估计量:估计量 是 的线性组合1EXEX XX y X2、无偏性:先看条件期望11EX XX XXEX XXX1XXXEXEX0 由于有严格外生性严格外生性
14、是必要条件 xxEE EXE然后得出无条件期望1AX XX为推导简便计,记 现在学习的是第22页,共43页111X XX yX XX XX XXA 123VarXX X、的方差矩阵VarXVarXVar A XAVarX A111222nAI AX XXX XXX X证明的关键是球型扰动项假定,否则将使用稳健标准差4OLSBest Linear Unbiased EstimatorBLUE、高斯马尔可夫定理:估计量是最佳线性无偏估计量(,)最佳是指方差最小现在学习的是第23页,共43页nAA预备定理:若 阶对称矩阵 是半正定的,则 的主对角线元素均为非负(练习)(使用反证法)OLSVarXVa
15、rX证明:已证估计量 是线性无偏估计量,设 是任意一个线性无偏估计量,需要证明VarXVarXVarXVarX即证为半正定矩阵,也即的主对角线元素小于等于的主对角线元素。k n1CCyAyAX XXDCA因为 是线性估计量,故存在常数矩阵使得。而,其中。令,CyDA yD XDXD则有 现在学习的是第24页,共43页EXE DXDXDXDEXEXDX利用 的无偏性,有 DX0DX0比较两边,得,由于 不确定,故必有DXDD故 DDADA 2122VarXVarXVarDAXDA VarXDADADADX0AD0DA0DDAADDX X注:由 得 和现在学习的是第25页,共43页11222Var
16、XVarXDDX XX XDDDD 由于为半正定矩阵故高斯马尔可夫定理成立OLSBLUEOLS注意,若没有球型扰动项假定,则估计量不是有其他更优的线性无偏估计,参见第五章广义225E sX、方差的无偏估计:22e eME sXEXEXn-kn-k1EMXEMXn-kn-k证明:,故只要证明即可 Atrace A证明中需要“迹”运算,定义方阵 的迹为主对角线元素之和,记做现在学习的是第26页,共43页 trace ABtrace Atrace Btrace ABtrace BAtrace kAk trace A可以证明以及,EMXE traceMXE traceMX()()22trace E M
17、Xtrace MItrace M注:球型扰动项1n11nktrace Mtrace IX X XXtrace Itrace X X XXntrace X X X Xntrace In-k 回代即得现在学习的是第27页,共43页12VarXsX XVariance-Covariance Matrix Estimated因此,的方差协方差矩阵的无偏估计为,t六、对单个系数的 检验2nXXXN 0I假定2.5:在 给定的情况下,的条件发布为正态分布即,扰动项实际上是众多次要影响因素和测量误差之和,根据中心极限定理可知扰动项应近似服从正态分布,这是上面假定的理论基础。0iiiinull hypothe
18、sisH0对单个回归系数进行假设检验,原假设():,其中 为给定常数,通常 现在学习的是第28页,共43页1iialternative hypothesisH备择假设():iiiWald test直观上来说,的估计值 距离 较远,则应拒绝原假设,否则就接受原假设,这类检验称为“沃尔德检验”()112nX XXAXN 0IX XXAXEX0 由于,而 为 的线性函数,故 服从正态分布。且有1122VarXXXXN 0XX及,故,0ii1112iiiiii12iiiHiXN 0X XX XX XiiX X在原假设:成立下,第 个分量,其中为的(,)元素,为 的方差。现在学习的是第29页,共43页2
19、iii12iizN 01X X若已知,则检验统计量,22st而若未知,则需以 代替,于是引出 统计量 n22n1xN 0IxAx Axrank AAIx xn预备定理:若,这意味着 的各分量相互独立,且 为幂等矩阵,则二次型服从自由度为的分布。若 ,则,此特殊情形是熟知的 0iiiiiiiii12iiitHttt n-kSESEsX Xestimated standard error定理(统计量的分布):在假定2.12.5均满足,且原假设“:”也成立的情况下,统计量。其中是 的估计标准误差 现在学习的是第30页,共43页 2ZN 01YkZYZt kkY k证明:上章学过,若,而且 与相互独立
20、,则,其中 为自由度。这是总体思路iii212iie ezqX X令,2iizN 01qn-kzq已知,下面将证明:(1)(2)与 相互独立iztt n-kqn-k于是根据 分布定义,就有ii12iit n-ksX X也即现在学习的是第31页,共43页22e eMqM(1)(二次型)2nnN 0IN 0I因为,故有,M10已知为幂等矩阵,而幂等矩阵的特征值或 或,1X MXrank Mtrace Mn-k()故非零特征值的个数即为秩。故有21Mqn-k由预备定理 可得,1n11nn12n2nXXk Xk XXXXn预备定理:对于 个随机变量,若任意线性组合都服从一维正态分布,则 服从维正态分布
21、。现在学习的是第32页,共43页12n1m12n1mX XXnYYX XXYY预备定理3:若 服从 维正态分布,设,分别是 的线性函数,则也服从多维正态分布。iii12iii2 zqeX Xzqe是 的函数,而 是 的函数。因此,为了证明 与 相互独立,只要证明 与 相互独立即可。AeMe由于 ,均是多元状态扰动项 的线性函数,故根据预备定理3可得,的联合分布也是多元正态分布eCove0因此为了证明 与 相互独立,只要证明,即可现在学习的是第33页,共43页CoveCovAMCov AM,2E AME AE MAEMAM 1122XXXMXXMXMX 00()F七、对假设检验的 检验 0HRr
22、rmRmkrank RmRr对回归方程的所有参数的检验,可以统一表为:其中 为 维列向量,为矩阵,即行满秩,表示 中没有多余的方程02k102kHH比如最常见的假设检验“:0”为常数项。再比如格兰杰因果检验,再比如面板分析中的变系数检验“:”等现在学习的是第34页,共43页0HRr0直观上看,由于 是 的估计量,因此若成立,则应该比较接近于 向量,因此可以使用如下的沃尔德检验 0112FHRrFRrR XXRRrmFF mn-ks定理(统计量的分布)在假定2.12.5均满足,且原假设:也成立的情况下,则 统计量,2.1421122112se en-kFRrR X XRRrmw mFqn-ke
23、en-kwRrR X XRRr证明:由于,可将 写成其中,现在学习的是第35页,共43页 221 wm2 qn-k3 wq下面将证明:已在前面证明 与 相互独立w mFF mn-kqn-k则根据 分布的定义有,124mxNxxm预备定理:若 维随机向量 服从正态分布,其中为非退化矩阵(满秩),则二次型 01vRr HvRrRRR3vmE v0令 在成立的情况下,。由于 为正态分布,故根据预备定理,为 维正态分布,且现在学习的是第36页,共43页 12Var vVar RRVarRR X XR其方差为 1121214wRrR X XRRrvVar vvmRR X XR根据预备定理,注:由于 行满
24、秩,故可逆 3 wqeewq是 的函数,而 是 的函数,由于 与 相互独立,故 与 相互独立现在学习的是第37页,共43页F八、统计量的似然比原理表达式Restricted OLSRLSF使用约束条件下最小二乘法(,简记)可以得到 统计量的另一方便表达式。min SSRmin yXyXs.t.RrrmRmkr Rm考虑有约束的最小二乘问题:其中 为 维列向量,为矩阵,行满秩 LyXyXRrm引入拉格朗日函数,(2.15)其中 为 维拉格朗日乘子列向量现在学习的是第38页,共43页k 1L2Xy 2XXR0,一阶条件(2.16)m 1LRr0,及 (2.17)其中、表示极值点(即 与 的最优值)
25、1OLSOLSR X X为了确定约束估计量与无约束估计量 之间的关系,在方程(2.16)两边同时左乘先求11112R X XX y2RR X XR0X XX yRr2R2rR X XR0 (2.18)将 及 代入上式,得 现在学习的是第39页,共43页112 R X XRrR由上式解出 (2.19)1111XXXXR R XXRrR将上式代入(2.16),并在方程两边同时左乘得 (2.20)OLSOLSOLSrRrROLSRr这就是约束估计量,可见约束与无约束之差 是的线性函数,而衡量的是无约束估计量 偏离约束条件 的程度若 恰好满足这些约束,则现在学习的是第40页,共43页eeeyXyXXe
26、X记 为无约束情况下的残差向量,为有约束情况下的残差向量,则 e eeXeXeeXeeXXXOLSXe0eeXX (根据无约束的性质:)(2.21)现在学习的是第41页,共43页111X XRR X XRrR根据(2.20)式有:(2.22)11e ee eRrR XXRRr将上式代入(2.21)式有:(2.23)112211FRrR X XRRrmFe en-kRrR X XRRrmF mn-ke e n-k可得 统计量,现在学习的是第42页,共43页e ee emFFe e n-k将(2.23)代入上式可得,这正是似然比原理的 统计量表达式11e ee eRrR X XRRr理解此问题的关键在于(2.23)式e ee emFe e n-kLikelihood ratio test有时更容易计算。这种通过比较“条件极值”与“无条件极值”而进行的检验,通称为“似然比检验”(),参见第四章现在学习的是第43页,共43页