《线性回归模型2.ppt》由会员分享,可在线阅读,更多相关《线性回归模型2.ppt(77页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第2章一元线性回归模型(2)思考题:1、CLRM关于随机误差项的五个假设是什么?2、影响SRF中斜率估计量方差的两个因素是什么?3、OLS估计量具有哪两个优良性质?4、假设检验的基本原理是什么?5、显著性水平和第一类错误指的是什么?思考题:6、对稻草人假设进行检验的标准是什么?7、拟合优度的含义和度量指标是什么?8、正态性检验的目的是什么?复习第2章(1)思考题:1、回归分析中的变量有何特点?2、被解释变量的两个组成部分的含义是什么?3、刻划被解释变量的两个参数分别是什么?4、样本回归模型与总体回归模型有何区别?5、最小二乘估计法的核心思想是什么?6、回归模型参数的估计量是什么?复习第2章(1
2、)思考题:7、一元线性回归具有哪三个性质?8、如何解释回归模型参数的含义?假设1、随机误差项与解释变量X之间不相关 问题:回归分析的基本原理是什么?2.1 2.1 古典线性回归模型(古典线性回归模型(CLRMCLRM)假设2、随机误差项具有零均值 E(i)=0 i=1,2,n 如果假设2不成立:0 假设3、随机误差项具有同方差 Var(i)=2 i=1,2,n 假设4、各个随机误差项之间无自相关 Cov(i,j)=0 ij i,j=1,2,n 假设5、服从正态分布 iN(0,2)i=1,2,n 如果假设5不成立:样本容量n30 中心极限定理 被解释变量服从正态分布 Y=f(X)+被称为被称为随
3、机随机误差项,代表所有其他影响因素的总误差项,代表所有其他影响因素的总和和因此,因此,Y Y是一个随机变量是一个随机变量刻划随机变量的两个参数:期望值期望值 方差方差2.2 普通最小二乘估计量的方差 计量研究目标1、X对Y的具体影响:2、其他因素对Y的平均影响幅度:VarVar(Y Y)VarVar()Y Y的标准差:的标准差:1、随机误差项、随机误差项 的方差的方差 2的估计的估计2称为总体方差总体方差,反映了随机变量Y围绕其均值波动的平均幅度。Y Y的方差:的方差:VarVar(Y Y)VarVar()由于随机误差项 i不可观测,只能从 i的估计残差ei i出发,对总体方差进行估计。理想但
4、未知的总体回归模型近似但已知的样本回归模型 可以证明可以证明,双变量模型中2的无偏估计量为 回归标准误:SER:SERRSSn2Eviews 估计Salary 的标准误2、OLS估计量的方差估计量的方差2、OLS估计量的方差估计量的方差斜率和截距估计量的方差斜率和截距估计量的方差请解释斜率方差的决定因素斜率方差的决定因素1、解释变量的变化程度解释变量的变化程度越大,对斜率的估计越精确0101 斜率方差的决定因素2、总体方差总体方差越小,对斜率的估计越精确01XY斜率估计量的标准差斜率估计量的标准误 2.3 OLS估计量的性质估计量的性质 当模型参数估计出后,需考虑参数估计值的精度,即是否能代表
5、总体参数的真值。可从如下几个方面考察估计量的优劣性:(1)无偏性)无偏性,即它的均值或期望值是否等于总体的真实值;(2)有效性)有效性,即它是否在所有线性无偏估计量中具有最小方差。说明:线性指估计量为随机变量Y的线性函数估计量估计总体的公式总体均值的估计量:样本均值估计量估计总体的公式总体均值的估计量:样本均值估计量与估计值随机样本:无数个样本一个具体的样本:1、样本中每个随机变量都取定一个观察值2、根据估计量的公式计算估计值 高斯高斯马尔可夫定理马尔可夫定理 给定CLRM的假设1-4,最小二乘估计量是具有最小方差的线性无偏估计量。无偏性成立的关键条件CLRM的假设1:和Xi不相关案例分析学生
6、的数学考试成绩被解释变量:在一次高中10年级标准化数学考试中通过学生的百分比解释变量:有资格接受联邦政府午餐补助学生的百分比math10=0+1 lnchprg+1的含义1 0EviewsMATH10=32.14 0.319*LNCHPRG请解释0.319的含义其他影响因素:例如学生的贫穷率学生的贫穷率与受补助学生比例正相关,学生的贫穷率与数学考试通过率负相关线性:帽是Y的线性函数 1的正态分布2.4 OLS估计量的概率分布2.5 假设检验不同的样本,得到不同的估计值,根据某一个具体样本得到的估计值质量如何?可以通过特定的检验指标来衡量x(收入收入)y(支支出出)80100 120 140 1
7、60 180 200 220 240 26050100150200第一个样本回第一个样本回归直线归直线第一个样本第一个样本第二个样本第二个样本第二个样本回第二个样本回归直线归直线 显著性检验法显著性检验法 回归分析回归分析是要判断解释变量解释变量X是否是被解被解释变量释变量Y的一个显著性的影响因素。计量经计学中计量经计学中,主要是针对变量的参数真,主要是针对变量的参数真值是否为零来进行显著性检验的。值是否为零来进行显著性检验的。稻草人假设:斜率参数为零稻草人假设:斜率参数为零 解释变量的显著性如果1等于零,则X对Y没有影响1的估计值不等于零但是1真的不等于零吗?问题:如何说服我们相信你高考的数
8、学成绩不是零分?1、假设检验概述、假设检验概述 假设检验采用的逻辑推理方法是反证法。假设检验采用的逻辑推理方法是反证法。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。判断结果合理与否,是基于判断结果合理与否,是基于“小概率事件不易发小概率事件不易发生生”这一原理的。这一原理的。如果结果是个小概率事件,那我们认为这是不可能如果结果是个小概率事件,那我们认为这是不可能发生的。会发生不可能发生的事情,一定是假设前发生的。会发生不可能发生的事情,一定是假设前提错了。提错了。上述上述“小概率事件小概率事件”的概率被称为检验的的概率被称为检验的“显著性显著性
9、水平水平”,或者,或者“犯第一类错误的概率犯第一类错误的概率”(拒绝了正(拒绝了正确的虚拟假设)确的虚拟假设)问题显著性水平或犯错误概率在反证法推理中应当设定得越小越好,还是越大越好?t分布t分布t分布的均值为0t分布的方差为n/(n-2);n=30,1.07nnn2(1-)t分布t落在红色区域中的概率为5|t|2被认为是一个小概率事件02.5-22.5假设检验的基本思想1、设计一个服从特定分布的随机变量,例如t2、选择一个取值范围,上述随机变量落在该取值范围内的概率很小,例如53、根据样本数据计算上述随机变量的数值4、判断该数值是否落在上述取值范围之内5、如果是,则认为发生了不可能发生的事情
10、。因此得出结论:假设前提错了 2、解释变量的显著性检验、解释变量的显著性检验 斜率1的显著性检验在上述t统计量中假设1等于零,得到 t=统计量t的解释t是一个随机变量,对应于不同的样本,t取不同的值给定一个具体样本,t是斜率的估计值和斜率的样本标准差的比率。被称为t比率 t=c(1-)t分布临界值c|t|c的概率?在实践中,一般取5,确定一个小概率事件tt(n-2)给定样本容量n和显著性水平,就可以计算c0/2(1-)-c/2yi=0+1xi iH0:1=0 H1:1 0c0/2(1-)-c/2双侧检验拒绝域拒绝域+双边检验的步骤 (1)对总体参数提出假设 H0:1=0,H1:10(2)以原假
11、设H0构造t统计量,并由样本计算其值(3)给定显著性水平,查t分布表,得临界值ct/2(n-2)(4)比较,判断 若|t|t/2(n-2),则拒绝H0,接受H1;若|t|t/2(n-2),则拒绝H1,接受H0;简易判断法则当n 30时,t分布近似于正态分布给定显著性水平为5,临界值c约为2如果t的绝对值大于2,就可以拒绝稻草人假设,说明斜率1显著地不等于零因此,解释变量X对被解释变量Y具有影响案例分析工资被解释变量:工资(1976年每小时美元数)解释变量:教育(年数)计量模型:wage=0+1 educ+t10.17问题:如何对待稻草人假设?关于5202.5%95%-22.5%拒绝域拒绝域p值
12、p值是给定t比率后,能拒绝稻草人假设的最小显著性水平(犯错误水平)即给定显著性水平为p,根据样本计算的t比率刚好可以拒绝稻草人假设如果显著性水平大于p,则仍然可以拒绝如果显著性水平小于p,则不可以拒绝问题:对于计量研究而言,p值越大还是越小好?案例分析工资被解释变量:工资(1976年每小时美元数)解释变量:教育(年数)计量模型:wage=0+1 educ+p0.0000思考题假设p值为0.01,如果研究者采用的显著性水平为5,我们能否拒绝虚拟假设?如果研究者采用的显著性水平为0.5,我们能否拒绝虚拟假设 2.6 2.6 判定系数判定系数 拟合优度检验拟合优度检验:对样本回归直线与样本观测值之间
13、拟合程度的检验。度量拟合优度的指标度量拟合优度的指标:判定系数判定系数 R2 2 问题:问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?计算判定系数1.总离差平方和的分解我们知道:样本观测值(xi,yi),i=1,2,n,的回归直线为:而观测值而观测值 Yi 可分解为:可分解为:eYYx(收入收入)y(支支出出)eeeeeeYYYYYY被解释变量围绕其均值的波动波动中被回归线所解释的部分波动中没有被回归线所解释的部分可以证明:其中总平方和总平方和(Total Sum of Squares)解释平方和解释平方和(Explained Sum of Sq
14、uares)残差平方和残差平方和(Residual Sum of Squares)TSS=ESS+RSSTSS=ESS+RSS Y的观测值围绕其均值波动的总平方和总平方和可分解为两部分:一部分来自回归线一部分来自回归线(ESS),另一部分则来,另一部分则来自随机势力自随机势力(RSS)。从解释平方和RSS与残差平方和ESS的意义可知,在TSS中ESS所占的比重越大,则样本回归直线与样本观测值拟合程度就越好。2、判定系数、判定系数R2 2称 R2 为(样本)(样本)判定系数判定系数/可决系数可决系数R的解释:反映变量间的线性关系1、R 0Y和X没有线性关系2、R 1Y和X具有完全的线性关系含义:
15、Y=0+1X1 案例分析CEO的薪水被解释变量:CEO的薪水(千美元)解释变量:净资产回报率(百分数)样本回归函数:Salary 963.191 18.501 roeEviewsR0.013因此,净资产回报率仅解释了薪水变化的1.3案例分析选举结果两位候选人A和B被解释变量:选举结果(得票百分数)解释变量:竞选支出(支出百分比)样本回归函数:voteA 26.81+0.46shareAEviewsR0.86因此,竞选支出的比例解释了竞选结果变化的862.7 正态性检验:JB检验w基本原理:JB统计量服从卡方分布JB检验的步骤1、虚拟假设:随机误差项服从正态分布2、设定检验的显著性水平:53、计算p值4、拒绝标准:p 5Eviews 1、完成模型的估计2、viewresidual testsnormality test案例分析CEO的薪水被解释变量:CEO的薪水(千美元)解释变量:净资产回报率(百分数)样本回归函数:Salary 963.191 18.501 roeEviewsP=0.002.8 预测移至第3章