简单回归模型.ppt

上传人:wuy****n92 文档编号:90613115 上传时间:2023-05-17 格式:PPT 页数:64 大小:1.28MB
返回 下载 相关 举报
简单回归模型.ppt_第1页
第1页 / 共64页
简单回归模型.ppt_第2页
第2页 / 共64页
点击查看更多>>
资源描述

《简单回归模型.ppt》由会员分享,可在线阅读,更多相关《简单回归模型.ppt(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第二章第二章简单回归模型简单回归模型回归的历史含义回归的历史含义lF.加尔顿最先使用“回归(regression)”。l父母高,子女也高;父母矮,子女也矮。l给定父母的身高,子女平均身高趋向于“回归”到全体人口的平均身高。简单回归模型的定义简单回归模型的定义 回归的现代释义回归的现代释义 回归分析回归分析用于研究一个变量关于另一个(些)变量的用于研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。具体依赖关系的计算方法和理论。关注对象关注对象:(1)用)用x来解来解释释y (2)研究)研究y如何随如何随x而而变变化化l商品需求函数:l警察和犯罪率:l除x外其他影响y的因素如何处理?

2、ly和x函数关系如何设定?简单回归的几个问题:简单回归的几个问题:y=0+1 x+uu扰动项u的引入。ux和y的非线性关系怎么办?u生产函数:yx因变量(dependent V.)自变量(independent V.)被解释变量(explained V.)解释变量(explainatory V.)响应变量(response V.)控制变量(control V.)被预测变量(predicted V.)预测变量(predictor V.)回归子(regressand)回归元(regressor)u误误差差项项(error term)扰动项扰动项、干、干扰项扰项(disturbance)两个例子两个

3、例子yield=0+1 fertilizer+uwage=0+1 educ+ul其他因素不变,u=0,则:1=yield/fertilizer 1=wage/educl 变化解释变量fertilizer或educ时,能假定其他因 素不变吗?解释变量x和扰动项u关于均值独立:均值独立比“不相关”更强相关关系度量的是变量间的线性关系。若x表示受教育水平,u是个人能力,假定可能成立吗?关于关于u的假定的假定E(u|x)=E(u)对于模型:如方程包含常数项,可以假定:若E(u)=a0,可将模型调整为:零条件均值假定:零条件均值假定:y=0+1 x+uE(u)=0y=0+a+1 x+u1E(u|x)=0

4、 总体回归函数(总体回归函数(PRF)E(y|x)=0+1 x PRF是确定的,未知的总体回归函数总体回归函数(传统思路)(传统思路)假想案例 总体回归函数的随机设定 随机误差项的意义 XY8010012014016018020022024026055657980102110120135137150607084931071151361371451526574909511012014014015517570809410311613014415216517875859810811813514515717518088113125140160189185115162191户数户数5657665765总

5、支出总支出32546244570767875068510439661211 假设一个国家只有假设一个国家只有60户居民,他们的可支配收户居民,他们的可支配收入和消费支出数据如下(单位:美元):入和消费支出数据如下(单位:美元):假想案例 描出散点图发现:随着收入的增加,消费描出散点图发现:随着收入的增加,消费“平均地说平均地说”也在增加,且也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线总体回归线。E(Y|Xi)=0+1Xi=17.00+0.6Xi“天行有常,不为尧存,不为桀亡。应之以天行有常,不为尧存,不为桀亡。应之以治

6、则吉,应之以乱则凶。治则吉,应之以乱则凶。”-荀子天论E(Y|Xi)=0+1Xil 总体回归函数总体回归函数其中:其中:Y被解释变量;被解释变量;X解释变量;解释变量;0,1回归系数(待定系数或待估参数)回归系数(待定系数或待估参数)总体回归模型的随机设定l 对于某一个家庭,如何描述可支配收入和消费支出的关系对于某一个家庭,如何描述可支配收入和消费支出的关系?XiYi.E(Y|Xi)=0+1 XiY1Y2Y3u1u2u3总体回归直线总体回归直线uiYi-E(Y|Xi)误差项误差项某个家庭的消费支出分为两部分:一是某个家庭的消费支出分为两部分:一是E(Y|Xi)=0+1 Xi,称,称为系统成分或

7、确定性成分;二是为系统成分或确定性成分;二是ui,称为非系统或随机性成分。,称为非系统或随机性成分。Yi=E(Y|Xi)+ui=0+1 Xi+uiYi=0+1 Xi+uiE(Y|Xi)=0+1 Xi,随机性总体回归函数随机性总体回归函数确定性总体回归函数确定性总体回归函数 随机误差项u的意义l 反映被忽略掉的因素对被解释变量的影响。或者理论不够完善,或者数据缺失;或者影 响轻微。l模型设定误差l度量误差l 人类行为内在的随机性普通最小二乘法普通最小二乘法l对于一元回归模型:l 两个条件:l两个未知数:l所有的yi和xi都是已知数据。E(u)=0E(u|x)=0E(xu)=0yi=0+1 xi+

8、ui 0 和和 1 l方程组:l 用样本矩代替总体矩:E(y-0-1 x)=E(u)=0Ex(y-0-1 x)=E(xu)=0l当满足条件:lOLS估计量:l 实际上就是y和x的样本协方差与x的样本方 差之比。l拟合值 :给定截距和斜率估计值,y在x=xi时的预测值 该函数为样本回归函数样本回归函数(SRF)l残差 :普通最小二乘法(传统思路)普通最小二乘法(传统思路)l如何得到一条能够较好地反映这些点变化规律 的直线呢?Q=通过通过Q最小确定这条直线,即确定最小确定这条直线,即确定 ,以,以 为变量,把它们看作是为变量,把它们看作是Q的函数,就变成了一个求极值的函数,就变成了一个求极值的问题

9、,可以通过求导数得到。的问题,可以通过求导数得到。l残差的平方和最小l求求QQ对对 两个待估参数两个待估参数 的偏导数:的偏导数:即即 XY8010012014016018020022024026055135137609310711565749511012014017594103144178759810813517588113125189115162191户数户数4226331333总支出总支出255162192627342370144337501544样本回归函数样本回归函数 为研究总体,我们需要抽取一定的样本。第第一一个个样样本本样本回归线样本回归线样本均值连线样本均值连线 XY80100

10、1201401601802002202402606579102120135607084931151451527490155801161441521657585118145180140160189185115户数户数2532323343总支出总支出135374253208336255409447654517样本回归函数样本回归函数 第二个样本第二个样本样本回归线样本回归线样本均值连线样本均值连线 总体回归模型和样本回归模型的比较总体回归模型和样本回归模型的比较 几个例子几个例子l首席执行官的薪水和股本回报率?l工资和受教育程度l投票结果与竞选支出:Xiyiy1y2y3u1u2u3E(y|xi)=

11、0+1 xi注意:分清几个关系式和表示符号注意:分清几个关系式和表示符号(2)样本(估计的)回归直线:)样本(估计的)回归直线:(3)总体(真实的)回归模型:)总体(真实的)回归模型:(4)样本(估计的)回归模型:)样本(估计的)回归模型:(1)总体(真实的)回归直线:)总体(真实的)回归直线:ui随机误差项随机误差项 残差项残差项OLS操作技巧操作技巧(1)残差和及样本均值都等于零)残差和及样本均值都等于零 OLS OLS估计量代数性质估计量代数性质=(2)回归元和残差的样本协方差为零)回归元和残差的样本协方差为零(3)总在总在OLS回归线上回归线上(4)拟合值)拟合值 的样本均值等于的样本

12、均值等于yi的样本均值的样本均值 (5)拟合值和残差的样本协方差为零)拟合值和残差的样本协方差为零.yxyi xi A0=+总离差总离差 =回归差回归差 +残差残差 回归差:由样本回归直线解释的部分回归差:由样本回归直线解释的部分 残差:不能由样本回归直线解释的部分残差:不能由样本回归直线解释的部分 可以证明可以证明:离差平方和分解离差平方和分解 总平方和总平方和 解释平方和解释平方和 残差平方和残差平方和 SST =SSE +SSR SST =SSE +SSR=+利用性利用性质质(1)和性)和性质质(5):):=1解解释释平平方方(SSE)和和在在总总平平方方和和(SST)中中所所占占的的比

13、比重重越越大大,说说明明样样本本回回归归模模型型对对样样本本数数据据拟拟合合的的程程度度越越好好。因因此此,用用来来表表示示拟拟合合优优度度的的可决系数定义为:可决系数定义为:R2R2 的取值范围是的取值范围是 0,1。对于一组数据,对于一组数据,T TSS是不变,所以是不变,所以E ESS(),),R RSS()拟合优度与判定系数拟合优度与判定系数(可决系数可决系数)R2 2=0=0时时 表明解释变量表明解释变量x与被解与被解释变释变量量y之之间间不存在线性关系;不存在线性关系;R2 2=1=1时时 表明样本回归线与样本值重合;表明样本回归线与样本值重合;一一般般情情况况下下,R2 2越越接

14、接近近1 1表表示示拟拟合合程程度度越越好好,x对对y的的解解释释能能力力越强;越强;看似很低的看似很低的R2 2值,并不意味着值,并不意味着OLSOLS回归方程没有用!回归方程没有用!R2 2=(R)2度量单位和函数形式度量单位和函数形式改变度量单位对改变度量单位对OLS估计量的影响估计量的影响l首席执行官的薪水和股本回报率?若salarydol=1000salary,即将薪水单位由千美元 调整为美元,模型估计结果为:若股本回报率由百分比调整为小数,即roedoc=roe/100,模型估计结果为:若将薪水单位调整为美元,股本回报率调整为小数,模型估计结果?判定系数R2为什么不变?弹弹性度量:

15、双性度量:双对对数模型数模型 yt=a xtb 两侧同取对数,加入扰动项:Lnyt=Lna+b Lnxt+ut 令a*=Lna,yt*=Lnyt,xt*=Lnxt,上式表示为 yt*=a*+bxt*+utCobb-Douglas生产函数 Q=A L K 模型的非线性模型的非线性双双对对数模型与数模型与线线性模型的区性模型的区别别双双对数模型中斜率系数数模型中斜率系数b为y对x的的弹性性E:Lnyt=a*+b Lnxt+ut b=E=线性模型中斜率系数性模型中斜率系数b为x 对y的的边际影响:影响:yt=a+bxt+utb=dy/dx 从而弹性E=(dy/dx)(x/y)=b(x/y)双双对数数

16、模模型型中中弹性性E是是不不变的的,线性性模模型型中中弹性性随随着着x/y的的变化而化而变化。化。增增长率率测度:半度:半对数模型数模型 Lnyt=a+bxt+utl b反映x一单位变动导致y的相对变动:l当x表示时间时,b为y的增长率。令 yt=y0(1+r)t 两侧同时取对数:Lnyt=Lny0+tLn(1+r)当r很小时,b=Ln(1+r)rl人力资本研究中,通常会使用半对数模型:这里wage为工资收入,edu为受教育年限,ability为能力,work为工作经验。引入work2是因为人们通常认为存在最优工作年限!半对数模型中,参数1的含义为:1=如果使用线性模型,即被解释变量为wage

17、,则参数1的含义为 线线性性对对数模型数模型 yt=a+b Ln xt+ut (b0)l 家庭预算的截面研究中,一类支出y和收入x的关系。l预算花费在这种商品之前,收入要达到一个确定的临界水平e-a/b。而且支出随着收入的增加而单调增加,但其增长率递减,该商品消费的边际倾向(b/x)和弹性(b/y)都随着收入增加而递减。倒数模型倒数模型 yt=a+b/xt+ut yxy=a0yt=a+b/xt b0,a0yx0yt=a+b/xt b0菲利普斯曲线恩格尔消费曲线多项式模型:二次函数:yt=b0+b1 xt+b2 xt2+ut 交叉乘积项:yt=b0+b1 x1t+b2 x2t+b3 x1tx2t

18、+ut吸烟与肺癌关于参数线性,而不是关于变量线性!可以通过变量替换,转化为线性模型!“线性线性”回归的含义回归的含义OLS估计量的期望值和方差估计量的期望值和方差 高斯高斯-马尔可夫定理(参见马尔可夫定理(参见P97)如果满足古典线性回归模型的基本假定,则在所有的如果满足古典线性回归模型的基本假定,则在所有的线线性估计量性估计量中,中,OLS估计量是最优线性无偏估计量估计量是最优线性无偏估计量(BLUE)。)。线性性线性性 无偏性无偏性 有效性有效性简单回归的高斯马尔科夫假定假定假定1:关于参数:关于参数线线性性 y=0+1 x+u (1)假定假定2:随机抽:随机抽样样 有一个服从总体模型(1

19、)的随机样本(xi,yi):i=1,2,n,n为样本容量假定假定3:解:解释变释变量的量的样样本有本有变变异异 xi的样本实现值,xi:i=1,2,n不是完全相同的数值假定假定4:零条件均:零条件均值值 E(u|x)=0假定假定5:同方差性:同方差性 Var(u|x)=2 线性性线性性可以表示可以表示为为因因变变量数据量数据yi的的线线性函数。性函数。证明:证明:=其中其中=线性估计量分布的推导比非线性估计量容易 无偏性无偏性证明:证明:=11无偏估计量 有偏估计量1=OLS估计量的方差比其他估计量的方差比其他线性无偏估计量线性无偏估计量的方差都小。的方差都小。最小方差性与有效性最小方差性与有

20、效性1 一致性(参见一致性(参见P158)1概率密度 OLS估计量的抽样方差估计量的抽样方差为什么要估计方差?方差反映了数据的离散程度和估计结果的精确性。受教育年限与每小时工资1XY0XY0同方差(递增型)异方差 假定假定4:零条件均:零条件均值值 E(u|x)=0假定假定5:同方差性:同方差性 Var(u|x)=2 估计0时,最好有 ,此时0估计量的方差最小,但1估计量的方差不受影响。为什么?2的估计量(无偏):的估计量(无偏):扰动项方差(扰动项方差(2)的估计)的估计 OLS估计量的样本方差和标准误估计量的样本方差和标准误当x=0时,y的期望值为零收入为零,收入税所得为零木材砍伐量为零,木材剩余物为零模型形式:残差平方和最小:过原点回归过原点回归注意:对于过原点回归:标准的可决系数(R2)可能为负。如果真实情况下0 0,使用过原点回归模型会导致1的 估计量有偏且不一致。如果0=0,使用含截距项的回归模型,由于没有利用 0=0的信息,会有信息损失(方差变大)。因此,很少使用过原点回归模型!如果模型没有解释变量,即 0 的OLS估计量是多少?可决系数(R2)等于多少?问题:问题:

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁