《第三章双变量模型 假设检验.ppt》由会员分享,可在线阅读,更多相关《第三章双变量模型 假设检验.ppt(74页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1 回归分析概述参数估计模型检验模型预测第三章第三章双变量模型:假设检验古典线性回归模型的基本假定 最小二乘估计量的性质 普通最小二乘估计量的方差与标准误参数的普通最小二乘估计i=1,2,n见第二章2第二节 参数估计一、古典线性回归模型的基本假设 原因1:只有符合这些基本假定,才能保证OLS参数估计量具有良好的性质;原因3:随机误差项加上一个非随机项X生成了Y,因而Y也是随机变量。在根据SRF进行假设检验时,如果不对随机误差项的生成做一些特殊的假定,则无法进行假设检验。原因2:如果不满足这些假定,第二部分会进一步进行处理。这是基于学习的由浅入深、由理想状态到现实实际的步骤。3二、古典线性回归模
2、型的基本假定 假定1:回归模型是参数线性的假定2:随机误差项与解释变量X之间不相关。Cov(Xi,i)=0 i=1,2,n如果X是非随机的(即为固定值),则该假定自动满足。我们所指的回归分析是条件回归分析,即给定X条件下的回归分析,即我们一直假定X是非随机的。4假定3:给定X i,随机误差项的期望或均值为零。E(i X i)=0 i=1,2,n随机误差项(其他影响因素)与Xi(纳入模型的变量)之间不相关。5假定4:随机误差项具有同方差,即方差为常数。Var(i)=2 i=1,2,n与给定X相对应的每个Y的条件分布具有同方差,即每个Y值以相同的方差分布在其均值周围。6假定5:无自相关。即随机误差
3、项之间不相关。Cov(i,j)=0 ij i,j=1,2,n表明误差项之间没有系统关系,即误差是随机的。7假定6:回归模型是正确设定的。即实证分析的模型不存在设定偏差。假定7:随机误差项服从零均值、同方差、零协方差的正态分布。iN(0,2)i=1,2,n为了推导估计量的抽样分布,需要增加以下假定可以计算出OLS的估计量及其标准误、估计量的统计性质根据中心极限定理可得,参数估计量也服从正态分布进一步说明89的分布性质的分布性质 由于由于 的分布性质决定了的分布性质决定了 的分布性质。的分布性质。对对 的一些假定可以等价地表示为对的一些假定可以等价地表示为对 的假定:的假定:假定假定1:零均值假定
4、:零均值假定 假定假定2:同方差假定:同方差假定 假定假定3:无自相关假定:无自相关假定 假定假定5:正态性假定:正态性假定小结-古典线性回归模型的基本假设假定1:回归模型是参数线性的假定2:随机误差项与解释变量X之间不相关。假定6:回归模型是正确设定的。即实证分析的模型不存在设定偏差。假定3、4、5、7:随机误差项服从零均值、同方差、零协方差的正态分布。i=1,2,n11二、普通最小二乘估计量的方差与标准误基于1-6假定,可以估计OLS估计量的方差和标准误。OLS估计量是随机变量,因为随着样本的不同,OLS估计量是不同的。OLS估计量是如何随样本变化而变化的呢,即这些估计量的抽样变异性是怎样
5、的呢?这种抽样变异性通常由估计量的方差或其标准误(方差的平方根)来度量。12OLS的基本思想的基本思想 不同的估计方法可得到不同的样本回归参数不同的估计方法可得到不同的样本回归参数不同的估计方法可得到不同的样本回归参数不同的估计方法可得到不同的样本回归参数 和和和和 ,所估计的,所估计的,所估计的,所估计的 也不同。也不同。也不同。也不同。理想的估计方法应使理想的估计方法应使理想的估计方法应使理想的估计方法应使 与与与与 的差即剩余的差即剩余的差即剩余的差即剩余 越小越好越小越好越小越好越小越好 因因因因 可正可负,所以可以取可正可负,所以可以取可正可负,所以可以取可正可负,所以可以取 最小最
6、小最小最小 即即即即普通最小二乘法普通最小二乘法 (rdinary Least Squares)参数估计量的方差和标准误14二、普通最小二乘估计量的方差与标准误15随机误差项的方差2的估计 由于随机项 i不可观测,只能从 i的估计残差ei i出发,对总体方差进行估计。二、普通最小二乘估计量的方差与标准误2又称为总体方差总体方差。16 可以证明可以证明,2的最小二乘估计量最小二乘估计量为二、普通最小二乘估计量的方差与标准误随机误差项的方差2的估计 是2 的估计量 是残差平方和,即Y的真实值与估计值之差的平方和(n-2)称为自由度,可简单看做观测值个数减去待估参数的个数称为回归的标准误(SER,s
7、tandard error of the regression)该值越小,说明Y的实际值越接近根据回归模型得到的估计值。17标准误标准误方差方差三、普通最小二乘估计量的方差与标准误18二、普通最小二乘估计量的方差与标准误19 432.4138+0.0013XiSe=(16.9061)(0.000245)二、普通最小二乘估计量的方差与标准误数学S.A.T一例文章中回归结果的输出形式更进一步的含义后面再解释参数估计值标准误20 当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。一个用于考察总体的估计量,可从如下几个方面考察其优劣性:(1)线性
8、性)线性性,即它是否是另一随机变量的线性函数;(2)无偏性)无偏性,即它的均值或期望值是否等于总体的真实值;(3)有效性)有效性,即它是否在所有线性无偏估计量中具有最小方差。三、最小二乘估计量的性质-为什么使用OLS 21 参数估计式的统计性质参数估计式的统计性质(一一)参数估计式的评价标准参数估计式的评价标准 1.无偏性无偏性前提:前提:重复抽样中估计方法固定、样本数不变、经 重复抽样的观测值,可得一系列参数估计值参数估计值参数估计值 的分布称为的分布称为 的抽样分布,密度函的抽样分布,密度函数记为数记为 如果如果 ,称,称 是参数是参数 的无偏估计的无偏估计式,否式,否则称则称 是有偏的,
9、其偏倚为是有偏的,其偏倚为 (见图(见图1.2)图 1.2估计值偏倚偏倚 概 率 密 度前提:前提:样本相同、用不同的方法估计参数,样本相同、用不同的方法估计参数,可以找到若干个不同的估计式可以找到若干个不同的估计式 目标:目标:努力寻求其抽样分布具有最小方差的努力寻求其抽样分布具有最小方差的 估计式估计式 最小方差准则,或称最佳最小方差准则,或称最佳 性准则性准则(见图(见图1.31.3)既是无偏的同时又具有最小方差的估计式,称为既是无偏的同时又具有最小方差的估计式,称为 最佳无偏估计式。最佳无偏估计式。2.最小方差性最小方差性 概 率 密 度 图 1.3估计值 4.4.渐近性质渐近性质(大
10、样本性质)(大样本性质)思想思想:当样本容量较小时,有时很难找到最佳无偏估计,需要考虑样本当样本容量较小时,有时很难找到最佳无偏估计,需要考虑样本扩大后的性质扩大后的性质一致性:一致性:当样本容量当样本容量 n 趋于无穷大时,如果估计式趋于无穷大时,如果估计式 依概率收敛于总体参数的真依概率收敛于总体参数的真实值,就称这个估计式实值,就称这个估计式 是是 的一致估计式。即的一致估计式。即 或或 渐近有效性:渐近有效性:当样本容量当样本容量 n 趋于无穷大时,在所有的一致估计式中,趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。具有最小的渐近方差。(见图1.4)概 率 密 度 估计值 图
11、 1.4三、最小二乘估计量的性质-为什么使用OLS 高斯高斯马尔柯夫定理(马尔柯夫定理(Gauss-Markov theorem)如果满足古典线性回归模型的基本假定,则在所有线性估计量中,OLS估计是最优线性无偏估计量(Best Linear Unbiased Estimator,BLUE)简单易行很强的理论性质2829平均而言,参数估计值与其真值是一致的。平均而言,误差方差的估计值收敛于其真值;误差方差的估计量也是无偏的30证明最小方差性其中,ci=ki+di,di为不全为零的常数则容易证明31全部估计量BLUE估计量的图形表示线性无偏估计量BLUE估计量第二节 参数估计-小结古典线性回归模
12、型的基本假设 最小二乘估计量的性质 普通最小二乘估计量的方差与标准误参数的普通最小二乘估计i=1,2,n33结构参数结构参数分布参数分布参数第三节 统计检验回归分析回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验统计检验。34第三节 统计检验35假设检验三、拟合优度检验 一、参数的置信区间法 二、变量的显著性检验法 四、回
13、归分析结果的报告 五、正态性检验 检验样本回归函数与总体回归函数的“接近”程度即样本回归函数能否代表总体回归函数进行统计推断检验样本回归函数与样本点的“拟合优度”检验解释变量对被解释变量是否存在着显著的线性影响检验样本回归函数与总体回归函数的“接近”程度问题的提出问题的提出 为什么要作区间估计?为什么要作区间估计?OLSOLS估计只是通过样本得到的点估计,不一定等于估计只是通过样本得到的点估计,不一定等于真实参数,还需要找到真实参数的可能范围,并真实参数,还需要找到真实参数的可能范围,并说明其可靠性说明其可靠性为什么要作假设检验?为什么要作假设检验?OLS 估计只是用样本估计的结果,是否可靠?
14、估计只是用样本估计的结果,是否可靠?是否抽样的偶然结果?还有待统计检验。是否抽样的偶然结果?还有待统计检验。区间估计和假设检验都是建立在确定参数估计值区间估计和假设检验都是建立在确定参数估计值概率分布性质的基础上。概率分布性质的基础上。37假设检验 所谓假设检验,就是 事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。38假设检验数学S.A.T一例现假定家庭年收入对学生的数学分数没有影响希望确认Y是否与X
15、有关H0:1=0如果零假设为真,就没有必要把X纳入模型了虽然本例中的参数估计值不为零,但是由于抽样的波动性,数值结果会因为样本的变化而不同。显然,需要正规的检验过程拒绝或接受零假设。如何进行呢?39假设检验数学S.A.T一例置信区间法可选择两种方法对0和 1的参数进行检验显著性检验法由于 服从正态分布,则变量Z服从标准正态分布由于 未知,需用 代替,因此上式服从t分布40一、置信区间法 数学S.A.T一例设定自由度为d.f;假定显著性水平为 ,可得因为 H0:1=0,H1:10Step1:Step2:Step3:Step4:如果原假设的 值落在该区间中,则接受原假设,否则,拒绝原假设。41接受
16、区域拒绝区域拒绝区域如果接受区域包含零假设值 ,则不拒绝零假设。当然,无论做何种决定,都会以一定的概率(如 )犯错。置信区间置信区间显著性水平显著性水平端点称为置信限置信限(confidence limit)或临界值临界值(critical values)(confidence coefficient)(confidence interval)(level of significance)置信系数置信系数(置信度)置信度)置信区间置信区间临界值临界值临界值临界值42一、置信区间法 数学S.A.T一例本例中,自由度为8(10-2)假定显著性水平 为5%H0:1=0,H1:10则根据附录可查 由于
17、这个区间没有包括零假设值0,所以拒绝H0Step1:Step2:Step3:Step4:43H0的接受区域拒绝区域拒绝区域随机区间确定性区间建立100个这样的区间,则有95个区间包括真实的1。95%的置信区间(自由度为8)0.000740.00187该随机区间包含真实的1的概率为95%由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。要缩小置信区间,需 (1 1)增大样本容量)增大样本容量n n,因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;(2 2)提高模型的拟合优度)提高模型的拟合优
18、度,因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。44 二、变量的显著性检验 回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。45 在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。46 二、变量的显著性检验 核心思想:构造一个检验统计量,从样本数据求得检验统计量的值,以此决定接受或拒绝零假设 检验步骤:检验步骤:H0:1=*,H1:1*(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平,查t分布表,得临界值|t|t/2(n-2),则拒绝H0|t|t/2(n-2),则不拒绝H0(1
19、)对总体参数提出假设 (4)比较 判断 二、变量的显著性检验 计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的双边检验t/2(n-2)t (n-2)单边检验右侧检验t t (n-2)或左侧检验t临界值3.355:在1%的显著性水平下拒绝1=0的零假设。t=5.4354所对应的P值约为0.0006。说明如果在该P值水平上拒绝零假设,则犯错的概率仅为万分之六。零假设1=0为真却被拒P值:统计量的精确显著水平;拒绝零假设最低的显著水平双边检验51 二、变量的显著性检验 数学S.A.T一例单边检验 H0:10,H1:10这是因为预期的收入系数为正显著性水平临界值0.011%0.055%
20、0.1010%2.8961.8601.397t=5.4354临界值2.896:在1%的显著性水平下拒绝零假设给定显著性水平,查临界值:t (8)P用用 P P 值判断参数的显著性值判断参数的显著性假设检验的假设检验的 p p 值:值:p 值是基于值是基于既定的样本数据既定的样本数据所计算的统计量,是拒绝所计算的统计量,是拒绝原假设的最低显著性水平。原假设的最低显著性水平。统计分析软件中通常都给出了检验的统计分析软件中通常都给出了检验的 p p 值值统计量 t由样本计算的统计量为:相对于显著性水平 的临界值:或注意:注意:t检验是比较检验是比较 和和P值检验是比较值检验是比较 和和 p 与 相对
21、应 与 P 相对应 用用 P 值判断参数的显著性值判断参数的显著性假设检验的假设检验的 p p 值:值:p p 值是根据既定的样本数据所计算的统计量,值是根据既定的样本数据所计算的统计量,拒绝原假设的最小显著性水平。拒绝原假设的最小显著性水平。统计分析软件中通常都给出了检验的统计分析软件中通常都给出了检验的 p p 值。值。方法:方法:将给定的显著性水平将给定的显著性水平 与与 值比较:值比较:若若 值,则在显著性水平值,则在显著性水平 下拒绝原假设下拒绝原假设 ,即认为,即认为 对对 有显著影响有显著影响若若 值,则在显著性水平值,则在显著性水平 下接受原假设下接受原假设 ,即认为,即认为
22、对对 没有显著影响没有显著影响规则:规则:当当 时,时,值越小,越能拒绝原值越小,越能拒绝原 假设假设用用 P 值判断参数的显著性的方法值判断参数的显著性的方法 三、拟合优度检验 拟合优度检验拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。问题:问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?度量拟合优度的指标度量拟合优度的指标度量拟合优度的指标度量拟合优度的指标:判定系数判定系数(可决系数可决系数)R2 255总离差平方和的分解总离差平方和的分解 已知由一组样本观测值(Xi,Yi),i=1,2,n得到如下样本回归直线 由X的变异所解释
23、的部分Yi的变异未解释部分或残差的变异5657 如果Yi=i 即实际观测值落在样本回归“线”上,则拟合拟合最好最好。即“离差”全部来自回归线,而与“残差”无关。对于所有样本点,需考虑这些点与样本均值离差的平方和,可以证明:总体平方和回归平方和残差平方和58(Total Sum of Squares)(Explained Sum of Squares)(Residual Sum of Squares)59总体平方和回归平方和残差平方和度量的是回归模型对Y变异的解释比例拟合优度、(样本)可决系数拟合优度、(样本)可决系数/判定系数判定系数(coefficient of determination)
24、coefficient of determination)判定系数判定系数(1-r2)表示未被X解释的Y的变异部分称为余相关系数,(coefficient of alienation)coefficient of alienation)60 r r2 2越接近越接近1 1,说明实际观测点离样本线越近,拟合优度越高,说明实际观测点离样本线越近,拟合优度越高。判定系数是一个非负的统计量判定系数是一个非负的统计量判定系数判定系数的取值范围取值范围:0,161数学S.A.T一例 三、拟合优度检验 判定系数判定系数即收入变量X解释了数学分数79%的变异。因此可以认为该样本回归线很好地拟合了总体回归函数它
25、也是随着抽样的不同而不同,因此对可决系数的统计可靠性也应进行检验,后续学习中深入了解。62判定系数r2相关系数r度量了两个变量X与Y之间的线性相关程度数学S.A.T一例说明数学分数与家庭年收入高度正相关63四、回归分析结果的报告Se=(16.9061)(0.000245)t=(25.5774)(0.0006)r2=0.7849P值=(5.85*10-9)(0.0006)d.f.=8数学S.A.T一例样本回归函数估计的回归系数的标准误t值=估计的系数/其标准误t值所对应的P值判定系数如果没有设定特殊的零假设,习惯性地规定零假设:总体参数为零。若拒绝零假设,检验统计量是显著的,说明真实的总体参数不
26、为零。H0:1=0,H1:10 H0:0=0,H1:00预先设定一个可接受的P值水平,通常为1%、5%、10%临界P值计算P值不能拒绝零假设拒绝零假设64P值=(5.85*10-9)(0.0006)d.f.=8 H0:1=0,H1:10 H0:0=0,H1:00 H0:0=450,H1:0450接上例:如果:对应的P值为0.3287若设定的临界P值为10%由于本例中计算的P值大于临界P值,所以接受零假设若设定的临界P值为1%由于本例中计算的P值小于临界P值,所以拒绝零假设,即每个估计系数是统计显著的。65 第四节 模型预测数学S.A.T一例回归分析的目的之一是:根据解释变量的值解释变量的值应变
27、量的均值应变量的均值预测假定解释变量的值解释变量的值为某一固定值X0需要估计注意:注意:严格地说,这只是被解释变量的预测值的估计值,而不是预测值。原因1:参数估计量不确定原因2:随机项的影响66 第四节 模型预测数学S.A.T一例根据前述(3-46)的回归分析的结果可知,参数估计量是显著的,模型通过了统计检验,可以进行预测。需要估计该收入下数学分的实际均值假定家庭年收入值X0=78000当家庭年收入为78000美元时,预测的数学平均分数为534分。670是条件均值E(Y|X=X0)的一个无偏估计当X=X0时,可见,0是条件均值E(Y|X=X0)的无偏估计。但对于任一给定样本,是一个估计量,,两
28、者之差称为预测误差。为了估计这个误差,需要求出 的抽样分布一方面一方面另一方面另一方面68 第四节 模型预测 总体均值预测值的置信区间 由于 可以证明在1-的置信度下,总体均值E(Y|X0)的置信区间为:以 代替69 第四节 模型预测 总体均值预测值的置信区间 总体均值E(Y|X0)95%的置信区间为:数学S.A.T一例若家庭年收入为78000美元,预测的数学平均分数以95%的置信度落在507.9559.8之间,一个最优估计值为533.8。(3-55)70 第四节 模型预测 总体回归线的置信带 如果对表2-2中的每个X值建立诸如(3-55)的一个95%的置信区间,则可以得到对应于每个家庭年收入
29、水平下的真实数学分数的置信区间或置信带,即总体回归线的置信带。71 第四节 模型预测 总体回归线的置信带当 时,置信带的宽度最小,在此附近进行预测精度越大越远离均值,置信带越宽,预测可信度下降72 五、正态性检验上述的统计检验过程以误差项服从正态分布为基础真实的误差项无法直接观察,因此,通过残差来获悉误差项的正态性。检验方法有:然而,上例中的误差项是否服从正态分布呢?残差直方图 雅克-贝拉检验(JB test)正态概率图73 回归分析概述参数估计模型检验模型预测双变量线性回归模型-小结74双变量线性回归模型-小结 这两章介绍了回归分析的基本思想与基本方法。从总体回归模型与总体回归函数、样本回归模型和样本回归函数这两组概念开始,建立了回归分析的基本思想。总体回归函数是对总体变量间关系的定量表述,由总体回归模型若干基本假设下得到,但它只是建立在理论之上,在现实中只能先从总体中抽取一个样本,获得样本回归函数,并用它对总体回归函数做出统计推断。