《3第三章双变量模型 假设检验.ppt》由会员分享,可在线阅读,更多相关《3第三章双变量模型 假设检验.ppt(61页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1,1,回归分析概述,参数估计,模型检验,模型预测,第三章双变量模型:假设检验,2,古典线性回归模型的基本假定,最小二乘估计量的性质,普通最小二乘估计量的方差与标准误,参数的普通最小二乘估计,i=1,2,n,见第二章,2,第二节 参数估计,3,3.1古典线性回归模型的基本假定,3.2普通最小二乘估计量的方差与标准误,3.3最小二乘估计量的性质-为什么使用OLS,3.5假设检验,3.5.1置信区间法,3.5.2变量的显著性检验,3.6拟合优度检验,3.7回归分析结果的报告3.8计算机输出结果,3.9正态性检验,3.11模型预测,3.4 OLS估计量的抽样分布或概率分布,4,3.1古典线性回归模型
2、的基本假设,原因1:只有符合这些基本假定,才能保证OLS参数估计量具有良好的性质;,原因3:随机误差项加上一个非随机项X生成了Y,因而Y也是随机变量。在根据SRF进行假设检验时,如果不对随机误差项的生成做一些特殊的假定,则无法进行假设检验。,原因2:如果不满足这些假定,第二部分会进一步进行处理。这是基于学习的由浅入深、由理想状态到现实实际的步骤。,4,5,3.1古典线性回归模型的基本假定,假定1:回归模型是参数线性的,假定2:随机误差项与解释变量X之间不相关。,Cov(Xi, i)=0 i=1,2, ,n,如果X是非随机的(即为固定值),则该假定自动满足。,我们所指的回归分析是条件回归分析,即
3、给定X条件下的回归分析,即我们一直假定X是非随机的。区别:古典线性回归模型(固定回归元模型);新古典线性回归模型(随即回归元模型),5,6,假定3:给定X i,随机误差项的期望或均值为零。,E(i X i)=0 i=1,2, ,n,随机误差项(其他影响因素)与Xi(纳入模型的变量)之间不相关。,6,如果在给定一个随机变量的情况下另一个随机变量的条件均值为0,那么这两个变量之间的协方差就是0,说明这两个变量是无关的。,7,假定4:随机误差项i具有同方差,即方差为常数。,Var (i)=2 i=1,2, ,n,与给定X相对应的每个Y的条件分布具有同方差,即每个Y值以相同的方差分布在其均值周围。,7
4、,8,假定5:无自相关。即随机误差项之间不相关。,Cov(i, j)=0 ij i,j= 1,2, ,n,表明误差项之间没有系统关系,即误差是随机的。,8,9,假定6:回归模型是正确设定的。即实证分析的模型不存在设定偏差。,9,10,小结-古典线性回归模型的基本假设,假定1:回归模型是参数线性的,假定2:随机误差项与解释变量X之间不相关。,假定6:回归模型是正确设定的。即实证分析的模型不存在设定偏差。,假定3、4、5:随机误差项是服从零均值、同方差、零协方差的分布。,i=1,2,n,10,11,3.2普通最小二乘估计量的方差与标准误,基于1-6假定,可以估计OLS估计量的方差和标准误。,OLS
5、估计量是随机变量,因为随着样本的不同,OLS估计量是不同的。,OLS估计量是如何随样本变化而变化的呢,即这些估计量的抽样变异性是怎样的呢?,这种抽样变异性通常由估计量的方差或其标准误(方差的平方根)来度量。,11,12,参数估计量的方差和标准误,12,3.2普通最小二乘估计量的方差与标准误,13,13,14,随机误差项的方差2的估计,由于随机项i不可观测,只能从i的估计残差ei出发,对总体方差进行估计。,3.2普通最小二乘估计量的方差与标准误,2又称为总体方差。,14,15,可以证明,2的最小二乘估计量为,3.2普通最小二乘估计量的方差与标准误,随机误差项的方差2的估计,是2 的估计量,是残差
6、平方和,即Y的真实值与估计值之差的平方和,(n-2)称为自由度,可简单看做观测值个数减去待估参数的个数,称为回归的标准误(SER,standard error of the regression),该值越小,说明Y的实际值越接近根据回归模型得到的估计值。,15,16,标准误,标准误,方差,方差,3.2普通最小二乘估计量的方差与标准误,16,17,3.2普通最小二乘估计量的方差与标准误,17,18,Se= (16.9061)(0.000245),3.2普通最小二乘估计量的方差与标准误,数学S.A.T一例P45,文章中回归结果的输出形式,参数估计值,标准误,18,19,当模型参数估计出后,需考虑参
7、数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。,一个用于考察总体的估计量,可从如下几个方面考察其优劣性: (1)线性性,即它是否是另一随机变量的线性函数; (2)无偏性,即它的均值或期望值是否等于总体的真实值; (3)有效性,即它是否在所有线性无偏估计量中具有最小方差。,3.3最小二乘估计量的性质-为什么使用OLS,19,20,3.3最小二乘估计量的性质-为什么使用OLS,高斯马尔柯夫定理(Gauss-Markov theorem),如果满足古典线性回归模型的基本假定,,则在所有线性估计量中,,OLS估计是最优线性无偏估计量,(Best Linear Unbia
8、sed Estimator, BLUE),简单易行,很强的理论性质,20,21,21,22,平均而言,参数估计值与其真值是一致的。,平均而言,误差方差的估计值收敛于其真值,;误差方差的估计量也是无偏的,22,23,证明最小方差性,其中,ci=ki+di,di为不全为零的常数则容易证明,23,24,第二节 参数估计-小结,古典线性回归模型的基本假设,最小二乘估计量的性质,普通最小二乘估计量的方差与标准误,参数的普通最小二乘估计,i=1,2,n,24,结构参数,分布参数,25,25,假定7:随机误差项i服从零均值、同方差的正态分布。,iN(0, 2 ) i=1,2, ,n,中心极限定理:随着变量个
9、数增加,iid随机变量近似服从正态分布,Yi服从正态分布,服从正态分布,正态变量的线性函数仍然服从正态分布,“线性性”: 是Yi的线性组合,3.4 OLS估计量的抽样分布或概率分布,26,3.5假设检验,尽管从统计性质上已知,若有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。,那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行假设检验。,26,若知道某个估计量的概率分布,则可建立从样本到总体的联系。,第三节 假设检验,27,27,3.5假设检验,由于 服从正态分布,则变量Z服从标准正态分布,由于 未知
10、,需用 代替,则变量t服从t分布,如何建立从样本到总体间的联系,数学S.A.T一例,28,28,假设检验,先给定对总体参数值的原假设和备择假设, 然后根据样本信息,对原假设下的结果进行分析, 判断是否拒绝原假设。(拒绝原假设;不拒接原假设),29,29,3.5.1置信区间法,数学S.A.T一例,设定自由度为d.f;假定显著性水平为 ,可得,因为,H0: 1= ,H1:1,Step1:,Step2:,Step3:,Step4:,如果原假设的 值落在该区间中,则不拒绝原假设,否则,拒绝原假设。,30,检验步骤:,H0: 1=*, H1:1 *,(2)以原假设H0构造t统计量,并由样本计算其值,(3
11、)给定显著性水平,查t分布表,得临界值,|t| t /2(n-2),则拒绝H0|t| t /2(n-2),则不拒绝H0,(1)对总体参数提出假设,(4) 比较 判断,3.5.2变量的显著性检验,计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的,双边检验,t /2(n-2),t (n-2),单边检验,右侧检验t t (n-2)或左侧检验t临界值3.355:在1%的显著性水平下拒绝1=0的零假设。,t=5.4354所对应的P值约为0.0006。P值越低越能拒绝原假设。,P值:统计量的精确显著水平;拒绝零假设最低的显著水平,双边检验,P377,36,36,3.5.2变量的显著性检验,
12、数学S.A.T一例,单边检验,H0: 10, H1:10,这是因为预期的收入系数为正,显著性水平,临界值,0.011%,0.055%,0.1010%,2.896,1.860,1.397,t=5.43542.896:在1%的显著性水平下拒绝零假设。,给定显著性水平 ,查临界值:t (8),对应的P值非常小,37,37,二、变量的显著性检验,说明:,2、在经验分析中,常用的显著性水平 有1%、5%、10%。为了避免选择显著水平的随意性,通常求出P值(精确地显著水平)。如果计算的P值充分小,则拒绝零假设。,1、计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的,以判断X是否对Y具有显著
13、的线性性影响。 即H0: 1=0,38,38,四、回归分析结果的报告P56,Se= (16.9061)(0.000245),t= (25.5774)(0.0006) r2=0.7849P值=(5.85*10-9)(0.0006) d.f.=8,数学S.A.T一例,样本回归函数,估计的回归系数的标准误,t值=估计的系数/其标准误,t值所对应的P值,判定系数,如果没有设定特殊的零假设,习惯性地规定零假设:总体参数为零。,若拒绝零假设,检验统计量是显著的,说明真实的总体参数不为零。,H0: 1=0,H1:10,H0: 0=0,H1:00,预先设定一个可接受的P值水平,通常为1%、5%、10%,临界P
14、值计算P值,不能拒绝零假设,拒绝零假设,39,39,P值=(5.85*10-9)(0.0006) d.f.=8,H0: 1=0,H1:10,H0: 0=0,H1:00,H0: 0=450,H1:0450,接上例:,如果:,对应的P值为0.3287,若设定的临界P值为10%,由于本例中计算的P值大于临界P值,所以不拒绝零假设,若设定的临界P值为1%,由于本例中计算的P值小于临界P值,所以拒绝零假设,即每个估计系数是统计显著的。,40,3.6拟合优度检验,对样本回归直线与样本观测值之间拟合程度的检验。,问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?,
15、判定系数(可决系数)R2,40,41,总离差平方和的分解,样本回归直线,由X的变异所解释的部分,Yi的变异,未解释部分或残差的变异,41,42,42,如果Yi=i 即实际观测值落在样本回归“线”上,则拟合最好。即“离差”全部来自回归线,而与“残差”无关。,43,总体平方和,回归平方和,残差平方和,43,(Total Sum of Squares),(Explained Sum of Squares),(Residual Sum of Squares ),TSS=ESS+RSS,44,44,总体平方和,回归平方和,残差平方和,度量的是回归模型对Y变异的解释比例,拟合优度、(样本)可决系数/判定系
16、数(coefficient of determination),判定系数,45,45,r2越接近1,说明实际观测点离样本线越近,拟合优度越高。,判定系数是一个非负的统计量,判定系数的取值范围:0,1,3.6拟合优度检验,46,46,数学S.A.T一例,判定系数,即收入变量X解释了数学分数79%的变异。,因此可以认为该样本回归线很好地拟合了总体回归函数,47,47,四、回归分析结果的报告,r2=0.7849,数学S.A.T一例,判定系数,P56,P57,48,48,判定系数r2,相关系数r,度量了两个变量X与Y之间的线性相关程度,数学S.A.T一例,说明数学分数与家庭年收入高度正相关,49,49
17、,第四节 模型预测,数学S.A.T一例,回归分析的目的之一是:,根据解释变量的值,应变量的均值,预测,假定解释变量的值为某一固定值X0,需要估计,注意:严格地说,这只是被解释变量的预测值的估计值,而不是预测值。,原因1:参数估计量不确定,原因2:随机项的影响,50,50,第四节 模型预测,数学S.A.T一例,根据前述(3-46)的回归分析的结果可知,参数估计量是显著的,模型通过了统计检验,可以进行预测。,需要估计该收入下数学分的实际均值,假定家庭年收入值X0=78000,当家庭年收入为78000美元时,预测的数学平均分数为534分。,51,51,0是条件均值E(Y|X=X0) 的一个无偏估计,
18、当X=X0时,可见,0是条件均值E(Y|X=X0)的无偏估计。,但对于任一给定样本, 是一个估计量, ,两者之差称为预测误差。,为了估计这个误差,需要求出 的抽样分布,一方面,另一方面,52,52,第四节 模型预测,总体均值预测值的置信区间,由于,可以证明,在1-的置信度下,总体均值E(Y|X0)的置信区间为:,以 代替,53,53,第四节 模型预测,总体均值预测值的置信区间,总体均值E(Y|X0)95%的置信区间为:,数学S.A.T一例,若家庭年收入为78000美元,预测的数学平均分数以95%的置信度落在507.9559.8之间,一个最优估计值为533.8。,(3-55),54,54,第四节
19、 模型预测,总体回归线的置信带,如果对表2-2中的每个X值建立诸如(3-55)的一个95%的置信区间,则可以得到对应于每个家庭年收入水平下的真实数学分数的置信区间或置信带,即总体回归线的置信带。,55,55,第四节 模型预测,总体回归线的置信带,当 时,置信带的宽度最小,在此附近进行预测精度越大,越远离均值,置信带越宽,预测可信度下降,56,56,五、正态性检验,上述的统计检验过程以误差项服从正态分布为基础,真实的误差项无法直接观察,因此,通过残差来获悉误差项的正态性。检验方法有:,然而,上例中的误差项是否服从正态分布呢?,残差直方图,雅克-贝拉检验(JB test),正态概率图,57,57,
20、回归分析概述,参数估计,模型检验,模型预测,双变量线性回归模型-小结,58,58,双变量线性回归模型-小结,这两章介绍了回归分析的基本思想与基本方法。从总体回归模型与总体回归函数、样本回归模型和样本回归函数这两组概念开始,建立了回归分析的基本思想。,总体回归函数是对总体变量间关系的定量表述,由总体回归模型若干基本假设下得到,但它只是建立在理论之上,在现实中只能先从总体中抽取一个样本,获得样本回归函数,并用它对总体回归函数做出统计推断。,59,由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。,如何缩小置信区间?,59,60,如何缩小置信区间? (1)增大样本容量n,因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小; (2)提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。,60,61,作业,复习时思考3.10综合实例、问题练习本作业3.7;3.8;3.11;3.14(其中b、c两问不用做在练习本上);3.20;3.21,