《一元线性回归模型.ppt》由会员分享,可在线阅读,更多相关《一元线性回归模型.ppt(67页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章 一元线性回归模型(教材第二、三章),第三章 一元线性回归模型,3.1 回归的涵义 3.2 随机扰动项的来源 3.3 参数的最小二乘估计 3.4 参数估计的性质 3.5 显著性检验 3.6 拟合优度 3.7 预测 学习要点 回归模型的涵义,参数的OLS估计及其性质,显著性检验,3.1 回归的涵义,回归分析(regression analysis) 用于研究一个变量(称为被解释变量或应变量)与另一个或多个变量(称为解释变量或自变量)之间的关系。 Y代表被解释变量,X代表解释变量;解释变量有多个时,用X1,X2,X3等表示。 例:商品的需求量与该商品价格、消费者收入以及其他竞争性商品价格之间
2、的关系。,总体回归函数(population regression function,PRF) 例:学生的家庭收入与数学分数有怎样的关系?,3.1 回归的涵义,3.1 回归的涵义,总体回归函数(population regression function,PRF) 根据上面数据做散点图,3.1 回归的涵义,总体回归函数(population regression function,PRF) 上图中,圆圈点称为条件均值;条件均值的连线称为总体回归线。 总体回归线表明了Y的均值与每个X的变动关系。 上图近似线性的总体回归线可以表示成: 表示给定的X值所对应的Y的均值; 、 称为参数(paramet
3、ers),也称回归系数(regression coefficients); 称为截距(intercept), 称为斜率(slope)。 斜率系数度量了X每变动一单位,Y(条件)均值的变化率。举例: ,含义?,3.1 回归的涵义,样本回归函数(sample regression function, SRF) 实际中往往无法获得整个总体的数据,怎么估计总体回归函数?即如何求参数B1、B2? 通常,我们仅仅有来自总体的一个样本。 我们的任务就是根据样本信息估计总体回归函数。 怎么实现?,3.1 回归的涵义,样本回归函数(sample regression function, SRF) 表2-2、2-
4、3的数据都是从表2-1中随机抽取得到的。,3.1 回归的涵义,样本回归函数(sample regression function, SRF) 通过散点得到两条“拟合”样本数据的样本回归线。,3.1 回归的涵义,样本回归函数(sample regression function, SRF) 可用样本回归函数(SRF)表示样本回归线: 其中, 总体条件均值 的估计量; 并非所有样本数据都准确地落在样本回归线上,因此建立随机样本回归函数: 其中, 是 的估计量,称 为残差(residual)。 表示了Y的实际值与样本回归估计值的差。,3.1 回归的涵义,样本回归函数(sample regressio
5、n function, SRF) 回归分析:根据样本回归函数估计总体回归函数。,3.1 回归的涵义,“线性”回归的特殊含义 对“线性”有两种解释:变量线性和参数线性。 变量线性:例如前面的总体(或样本)回归函数;下面的函数不是变量线性的: 参数线性:参数B1、B2仅以一次方的形式出现。下面的模型是参数非线性的: 本书主要关注参数线性模型。从现在起,线性回归(linear regression)是指参数线性的回归,而解释变量并不一定是线性的。,3.2 随机扰动项的来源,总体回归函数说明在给定的家庭收入下,美国学生 平均的数学分数。 但对于某一个学生,他的数学分数可能与该平均水平有偏差。 可以解释
6、为,个人数学分数等于这一组的平均值加上或减去某个值。用数学公式表示为: 其中, 表示随机扰动项,简称扰动项。扰动项是一个随机变量,通常用概率分布来描述。,3.2 随机扰动项的来源,对于回归模型 称为 被解释变量(explained variable) 也称 应变量或因变量(dependent variable) 称为 解释变量(explanatory variable) 也称 自变量(independent variable) 称为 参数(parameter) 称为 随机扰动项(random error term),3.2 随机扰动项的来源,上式如何解释? 可以认为,在给定家庭收入水平 上,第
7、i个学生的数学分数可以表达为两部分之和: 一是 ,即 ,是该收入水平上的平均数学分数。这一部分称为系统或确定性部分。 二是 ,称为非系统或随机成本,由收入以外的因素决定。 此时,称 为随机总体回归函数(stochastic PRF)。,3.2 随机扰动项的来源,3.2 随机扰动项的来源,性质1:扰动项代表了未纳入模型变量的影响。例如个人健康状况、居住区域等等。 性质2:反映了人类行为的内在随机性。即使模型中包括了决定数学分数的所有变量,其内在随机性也不可避免,这是做任何努力都无法解释的。 性质3:还代表了度量误差,例如收入的数据可能不等于真实值。 性质4:“奥卡姆剃刀原则”即描述应该尽可能简单
8、,只要不遗漏重要的信息,此时可以把影响Y的次要因素归入随机扰动项。,3.3 参数的最小二乘估计,参数估计:普通最小二乘法(OLS) 根据样本回归函数估计总体回归函数,要回答两个问题: 如何估计PRF? 如何验证估计的PRF是真实的PRF的一个“好”的估计值? 这里先回答第一个问题。 回归分析中使用最广泛的是普通最小二乘法(method of ordinary least squares, OLS),3.3 参数的最小二乘估计,参数估计:普通最小二乘法(OLS) 最小二乘原理:由于不能直接观察PRF: 所以用SRF 来估计它,因而 最好的估计方法是,选择 使得残差 尽可能小。,3.3 参数的最小
9、二乘估计,参数估计:普通最小二乘法(OLS) 普通最小二乘法就是要选择参数 ,使得残差平方和(residual sum of squares, RSS) 最小。 即,3.3 参数的最小二乘估计,参数估计:普通最小二乘法(OLS) 如何确定 的值? 根据微积分,当 对 的一阶偏导数为0时,Q达到最小。即,3.3 参数的最小二乘估计,参数估计:普通最小二乘法(OLS) 以上联立方程组称为正规方程组(normal equations)。 求解 ,得 注意: ,即小写字母代表了变量与其均值的离差。 上面给出的估计量称为OLS估计量(OLS estimator)。,3.3 参数的最小二乘估计,参数估计:
10、普通最小二乘法(OLS) OLS估计量的一些重要性质 用OLS法得出的样本回归线经过样本均值点,即 残差的均值 总为0。 对残差和解释变量的积求和,其值为零,即 对残差与 (估计的 )的积求和,其值为零,即,3.3 参数的最小二乘估计,例子:数学S.A.T分数,3.3 参数的最小二乘估计,例子:数学S.A.T分数 根据公式可以得到回归结果:,3.3 参数的最小二乘估计,例子:数学S.A.T分数 根据公式可以得到回归结果: 对估计结果的解释: 斜率系数0.0013表示在其他条件保持不变的情况下,家庭年收入每增加1美元,数学S.A.T.分数平均提高0.0013分 截距432.4138表示,当家庭年
11、收入为0时,数学平均分大约为432.4138。(这样的解释没有什么经济意义) 对截距最好的解释是,它代表了回归模型中所有省略变量对Y的平均影响。,3.3 参数的最小二乘估计,例子:受教育年限与平均小时工资 预期平均工资随受教育年限的增加而增加 回归结果:,3.3 参数的最小二乘估计,例子:股票价格与利率 经济理论表明,股票价格和利率之间存在反向关系。,3.3 参数的最小二乘估计,例子:股票价格与利率 看起来两个变量之间的关系不是线性的(即不是直线),因此,假设实际关系如下: 回归结果为: 作为比较,线性回归结果为: 引发的一个重要问题:哪一个模型更好?如何进行判断?在模型选择中使用那些检验?后
12、面将逐一回答。,3.4 参数估计的性质,古典线性回归模型(CLRM)的假定 前面我们回答了“如何估计PRF”的问题OLS。 下面我们要回答“怎样判别它是真实PRF的一个好的估计”的问题。 只有假定了随机扰动项u的生成过程,才能判定SRF对PRF拟合得是好是坏。 OLS估计量的推导与随机扰动项的生成过程无关; 但根据SRF进行假设检验时,就必须对随机扰动项的生成做一些特殊的假定,否则无法进行假设检验。 下面仍然沿用一元线性回归模型来讨论。,3.4 参数估计的性质,古典线性回归模型(CLRM)的假定 假定1. 回归模型是参数线性的,但不一定是变量线性的。回归模型形式如下(可扩展到多个解释变量):
13、假定2. 解释变量 与随机扰动项 不相关。 如果X是非随机的,该假定自动满足; 即使X是随机的,如果样本容量足够大,也不会对分析产生严重影响。,3.4 参数估计的性质,古典线性回归模型(CLRM)的假定 假定3. 给定 ,扰动项的均值为零。即,3.4 参数估计的性质,古典线性回归模型(CLRM)的假定 假定4. 同方差(homoscedastic),即,3.4 参数估计的性质,古典线性回归模型(CLRM)的假定 假定5. 无自相关(no autocorrelation),即两个扰动项之间不相关:,3.4 参数估计的性质,古典线性回归模型(CLRM)的假定 假定6. 回归模型是正确设定的,即模型
14、不存在设定偏差或设定误差。 为什么需要以上6个假定?这些假定现实吗?如果不满足这些假定,情况又会怎样?如何得知是否满足所有这些假定? 这些重要的问题暂时没有答案,事实上,教材“第二部分”都是围绕“如果假定不满足时会怎样”而展开的。,3.4 参数估计的性质,OLS估计量的方差与标准差 有了上述假定后可以计算出估计量的方差和标准差。 OLS估计量是随机变量,因为其值随样本的不同而变化,这些估计量的抽样变异性通常由估计量的方差或其标准差来度量。 OLS估计量的方差(variance)及标准差(standard error): 怎么估计 ?,3.4 参数估计的性质,OLS估计量的方差与标准差 根据下式
15、估计 : (n-2)称为自由度。在一元线性回归模型中有两个参数,在计算这两个未知参数时,失去了两个自由度。因此,虽然有n个观察值,但自由度仅为(n-2)。 顺便指出, 称为回归标准差(standard error of the regression,SER)。,3.4 参数估计的性质,OLS估计量的方差与标准差:数学S.A.T一例(教材有误),3.4 参数估计的性质,估计结果的报告 估计的数学SAT函数如下(括号内数字为标准差): OLS估计量的性质 可以概括为高斯-马尔柯夫定理(Gauss-Markov theorem): 如果满足古典线性回归模型的基本假定,则在所有线性估计两种,OLS估计
16、量具有最小方差性,即OLS估计是最优线性无偏估计量(BLUE)。 具体见教材PP46。,3.5 显著性检验,OLS估计量的抽样分布或概率分布 知道如何计算OLS估计量及其标准差仍然不够,必须求出其抽样分布才能进行假设检验。 为了推导抽样分布,再增加一条假定。 假定7. 在总体回归函数 中,扰动项 服从均值为0,方差为 的正态分布。即 为什么可以作这样一个假定?,3.5 显著性检验,OLS估计量的抽样分布或概率分布 可以证明, 是 的线性函数,根据“正态变量的线性函数仍服从正态分布”,得知 服从正态分布。 中心极限定理: 随着样本量的增加,独立同分布随机变量构造的统计量近似服从正态分布。,3.5
17、 显著性检验,OLS估计量的抽样分布或概率分布,3.5 显著性检验,假设检验 假定:家庭年收入对学生的数学成绩没有影响 数值结果表明: 。因此,零假设不成立? 不能仅看数值结果,抽样波动性会导致数值结果因样本变化而不同 需要进行假设检验。怎么进行? 前面指出: 当我们知道估计量的抽样分布后,假设检验将不成问题。讨论以下两种方法: (1)置信区间法 (2)显著性检验法,3.5 显著性检验,假设检验 能否使用上式进行假设检验?问题在哪里? 问题在于真实的 是未知的! 可以用 来估计它,则有:,3.5 显著性检验,假设检验:置信区间法 在数学S.A.T一例中,共有10个观察值,因此自由度为(10-2
18、)=8。 假定 ,显著性水平或犯第一类错误(弃真)的概率为5%,于是有 即,3.5 显著性检验,假设检验:置信区间法 整理 或 上式给出了 的一个95%的置信区间:重复上述过程,100个这样的区间中将有95个包括真实的 。 代入 ,得 区间不包括0,所以拒绝零假设 :家庭年收入对数学S.A.T没有影响。,3.5 显著性检验,假设检验:置信区间法 图形 (教材有误) 0.00074 0.00187,3.5 显著性检验,假设检验:置信区间法 按照上述过程,同样可得截距 95%的置信区间: 如果 ,则显然拒绝零假设,因为上述95%的置信区间不包括0。 如果 ,则不能拒绝该假设,因为95%的置信区间包
19、括了这个值。,3.5 显著性检验,假设检验:显著性检验法 核心思想是根据从样本数据求得的检验统计量的值决定接受或拒绝零假设。 前面曾介绍 如果令 ,其中, 是 的某个给定数值(例如, ),则根据样本数据很容易求得 可用计算出的t值作为检验统计量,它服从自由度为(n-2)的t分布。相应的检验过程称为t检验。,3.5 显著性检验,假设检验:显著性检验法 在具体进行t检验时 (1)对于一元线性回归模型(双变量模型),自由度为(n-2)。 (2)常用的显著水平 有1%、5%或10%。为了避免选择显著水平的随意性,通常求出p值(精确的显著水平),如果计算的p值充分小,则拒绝零假设。 (3)可用单边或双边
20、检验。,3.5 显著性检验,假设检验:显著性检验法 先看双边检验(two-tailed test) 假设 ,有 自由度为8时,t的(双边)临界值 如果计算得到的 超过临界值,则拒绝零假设。,3.5 显著性检验,假设检验:显著性检验法 本例t=5.4354,拒绝零假设。相伴概率p约为0.0006,说明如果拒绝零假设,犯错的概率只有万分之六。,3.5 显著性检验,假设检验:显著性检验法 再看单边检验(one-tailed test) 由于预期家庭收入对数学成绩的影响是正向的,因此假设 (备择假设是单边的)。 此时犯第一类错误的概率不是均等分布在t分布的两侧,而是集中于一侧。左侧还是右侧? 自由度为
21、8时,临界t值(右侧)为: 结论:拒绝零假设!,3.5 显著性检验,假设检验:显著性检验法 单边t检验:,3.6 拟合优度,拟合回归直线的优度:判定系数r2 t检验表明样本回归函数很好地拟合了样本数据。 但并非每一个Y值都准确地落在了估计的PRF上。 能否建立一个“拟合优度”的判定规则,从而辨别估计的回归线拟合真实的Y值的优劣程度? 判定系数r2(coefficient of determination) 前面讲到 ,作恒等变化,得,由X变异所解释的部分,未解释部分或残差的变异,Yi的变异,3.6 拟合优度,拟合回归直线的优度:判定系数r2 小写字母表示与均值的离差,得 或写为 两边同时平方再
22、求和,得,由X变异所解释的部分,未解释部分或残差的变异,Yi的变异,3.6 拟合优度,拟合回归直线的优度:判定系数r2 上式出现的各种平方和定义如下: (total sum of squares, TSS),真实Y值围绕其均值 的总变异。 (explained sum of squares, ESS),估计的Y值围绕其均值 的变异,也称回归平方和(由解释变量解释的部分)。 (residual sum of squares, RSS),即Y变异未被解释的部分。 于是上式可以简化为:,3.6 拟合优度,拟合回归直线的优度:判定系数r2 表明Y与其均值的总离差可分解为两部分:一部分归于回归线,另一部
23、分归于随机因素。,3.6 拟合优度,拟合回归直线的优度:判定系数r2 对于 ,一般的情形是:ESS和RSS均不为零,如果ESS远大于RSS,则SRF在很大程度上解释了Y的变异;如果RSS远大于ESS,则SRF只能部分解释Y的变异。 如何量化“拟合优度”? 两边同时除以TSS,得: 定义 ,称 为判定系数。 度量回归线的拟合优度,或者说度量了回归模型对Y变异的解释比例。,3.6 拟合优度,拟合回归直线的优度:判定系数r2 计算公式: 数学S.A.T一例: 该 值已经相当大了,收入变量X解释数学S.A.T分数79%的变异。,3.6 拟合优度,拟合回归直线的优度:判定系数r2 的两个重要性质:(1)
24、非负性;(2) 趋于1表示拟合得好,反之表示拟合得不好。 引起 较低的若干原因: 引入的X不合适,其解释能力较差; 数据中被解释变量个别观测值具有较大的变差,使总平方和TSS变大。 实际使用中,不可一味追求 趋于1。,3.6 拟合优度,拟合回归直线的优度:判定系数r2 样本相关系数 ,度量了两个变量X与Y之间的线性相关程度,公式为 相关系数能够通过判定系数 得到 数学S.A.T一例中, ,可见数学分数与家庭年收入高度正相关。,3.6 拟合优度,回归分析结果的报告 学术论文的一般报告模式: 习惯性地规定零假设为:总体参数为零。 以上 存在什么关系? 如果拒绝零假设,则表示真实的总体参数值不为零。
25、,3.7 预测,预测 回归分析的目的之一是根据解释变量的值预测被解释变量的均值。 例如:假定 美元,那么 根据估计结果,有 虽然计量经济理论表明在CLRM的假定下, 是真实均值的无偏估计量,但对任一给定样本, 不可能等于真实均值。两者之差称为预测误差(prediction error)。 为了估计预测误差,需要求出 的抽样分布。,3.7 预测,预测 可以证明, 服从正态分布 其中, X的样本均值; 与 离差平方和; 的方差; 样本容量 由于实践中 是未知的,如果用其无偏估计量 代替,则,3.7 预测,预测 因此,对于给定的 ,Y的真实均值的置信区间: 对于数学SAT一例,首先 然后,自由度为8显著水平为5%时,t临界值为2.306。 最后,给定年收入为78000时,95%的置信区间为,3.7 预测,预测 对每个X都建立95%的置信区间,可得如下置信带。特点:当 时,置信带的宽度最小。,