《计量经济学答案简单线性回归模型.pptx》由会员分享,可在线阅读,更多相关《计量经济学答案简单线性回归模型.pptx(104页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、需要研究经济变量之间数量关系的方法需要研究经济变量之间数量关系的方法为了不使问题复杂化为了不使问题复杂化,我们先在某些标准的我们先在某些标准的(古典的古典的)假定条件下,用最简单的模型,对最简单的变量间数假定条件下,用最简单的模型,对最简单的变量间数量关系加以讨论量关系加以讨论显然,对旅游起决定性影响作用的是显然,对旅游起决定性影响作用的是“中国居民的收入中国居民的收入水平水平”以及以及“入境旅游人数入境旅游人数”等因素。等因素。“旅游业总收入旅游业总收入”(Y Y)与)与“居民平均收入居民平均收入”(X1X1)或)或者者“入境旅游人数入境旅游人数”(X2X2)有怎样的数量关系呢?有怎样的数量
2、关系呢?能否用某种线性或非线性关系式能否用某种线性或非线性关系式 Y=f(X)Y=f(X)去表现这去表现这 种数量关系呢种数量关系呢?具体该具体该怎样去表现和计量呢怎样去表现和计量呢?第1页/共104页2 第一节第一节 回归分析与回归函数回归分析与回归函数 一、相关分析与回归分析一、相关分析与回归分析(对统计学的回顾)1 1、经济变量之间的相互关系、经济变量之间的相互关系 性质上可能有三种情况:确定性的函数关系 Y=f(X)可用数学方法计算 不确定的统计关系相关关系 Y=f(X)+(为随机变量)可用统计方法分析 没有关系不用分析 第2页/共104页 相关关系的描述 最直观的描述方式坐标图(散布
3、图、散点图)3函数关系相关关系(线性)没有关系相关关系(非线性)2、相关关系第3页/共104页44 相关关系的类型类型 从涉及的变量数量看从涉及的变量数量看简单相关多重相关(复相关)从变量相关关系的表现形式看从变量相关关系的表现形式看线性相关散布图接近一条直线非线性相关散布图接近一条曲线从变量相关关系变化的方向看从变量相关关系变化的方向看正相关变量同方向变化,同增同减负相关变量反方向变化,一增一减不相关第4页/共104页5 3、相关程度的度量相关系数 如果和总体的全部数据都已知,和的方差和协方差也已知,则 X和Y的总体线性相关系数总体线性相关系数:其中:-X的方差-Y的方差-X和Y的协方差特点
4、:特点:总体相关系数只反映总体两个变量总体相关系数只反映总体两个变量 和和 的线性相关程度的线性相关程度对于特定的总体来说,对于特定的总体来说,和和 的数值是既定的,总体相关系的数值是既定的,总体相关系数数 是客观存在的特定数值。是客观存在的特定数值。总体的两个变量总体的两个变量 和和 的全部数值通常不可能直接观测,所的全部数值通常不可能直接观测,所以总体相关系数一般是未知的。以总体相关系数一般是未知的。第5页/共104页6如果只知道X和Y的样本观测值,则X和Y的样本线性相关系数为:其中:和分别是变量X和Y的样本观测值,和分别是变量X和Y样本值的平均值注意:是随抽样而变动的随机变量。X和Y的样
5、本线性相关系数样本线性相关系数:相关系数较为简单相关系数较为简单,也可以在一定程度上测定变量也可以在一定程度上测定变量间的数量关系间的数量关系,但是对于具体研究变量间的数量规律但是对于具体研究变量间的数量规律性还有局限性。性还有局限性。第6页/共104页 X X和和Y Y 都是相互对称的随机变量,都是相互对称的随机变量,线线性性相相关关系系数数只只反反映映变变量量间间的的线线性性相相关关程程度度,不能说明非线性相关关系不能说明非线性相关关系 样样本本相相关关系系数数是是总总体体相相关关系系数数的的样样本本估估计计值值,由由于于抽抽样样波波动动,样样本本相相关关系系数数是是随随抽抽样样而而变变动
6、动的的随随机机变量,变量,其统计显著性还有待检验其统计显著性还有待检验 7对相关系数的正确理解和使用对相关系数的正确理解和使用第7页/共104页84 4、回归分析、回归分析回归的古典意义古典意义:高尔顿遗传学的回归概念 (父母身高与子女身高的关系)子女的身高有向人的平均身高子女的身高有向人的平均身高 回归回归 的趋势的趋势回归的现代意义现代意义:一个被解释变量对若干个解释变量依存关系的研究回归的目的目的(实质实质):由解释变量去估计被解释变量的平均值第8页/共104页9被解释变量Y Y的条件分布和条件概率:当解释变量X X取某固定值时(条件),Y Y 的值不确定,Y Y的不同取值会形成一定的分
7、布,这是 Y Y 的条件分布。X X取某固定值时,Y Y 取不同值的概率称为条件概率。被解释变量 Y Y 的条件期望:对于 X X 的每一个取值,对 Y Y 所形成的分布确 定其期望或均值,称 为 Y Y 的条件期望或条件均 值,用 表示。注意注意:Y:Y的条件期望是随的条件期望是随X X的变动而变动的的变动而变动的 YX明确几个概念明确几个概念(为深刻理解“回归”)第9页/共104页10回归线:对于每一个X的取值,都有Y的条件期望与之对应,代表Y的条件期望的点的轨迹形成的直线或曲线称为回归线。回归函数:被解释变量Y的条件期望随解释变量X的变化而有规律的变化,如果把Y的条件期望表现为X的某种函
8、数,这个函数称为回归函数。回归函数分为:总体回归函数和样本回归函数回归函数分为:总体回归函数和样本回归函数XY第10页/共104页11每每月月家家庭庭可可支支配配收收入入X2000250030003500400045005000550060006500131215301631184320372277246929243515352113401619172619742210238828893338372139541400171317862006232525263090365038654108每每1548175018352265241926813156380240264345月月1688181418
9、852367252228873300408741654812家家173819851943248526653050332142984380庭庭180020412037251527993189365443124580消消19022186207826892887335338424413费费220021792713291335344074支支231222982898303837104165出出2316292331673834Y Y238730533310249831873510268932861591191520922586275430393396385340364148举例:假如已知由假如已知由10
10、0100个家庭构成的总体的数个家庭构成的总体的数据据 (单位:元)二、总体回归函数二、总体回归函数(PRF)第11页/共104页12消费支出的条件期望与收入关系的图形消费支出的条件期望与收入关系的图形对于本例的总体,家庭消费支出的条件期望对于本例的总体,家庭消费支出的条件期望与家庭收入与家庭收入 基本是线性关系基本是线性关系,可以把家庭消费支出可以把家庭消费支出的条件均值表示为家庭收入的线性函数:的条件均值表示为家庭收入的线性函数:第12页/共104页13 1.1.总体回归函数的概念总体回归函数的概念前提:假如已知所研究的经济现象的总体的被解释变量Y和解释变量X的每个观测值(通常这是不可能的!
11、),那么,可以计算出总体被解释变量Y的条件期望,并将其表现为解释变量X的某种函数这个函数称为总体回归函数(PRF)本质本质:总体回归函数实际上表现的是特定总体中被解释变总体回归函数实际上表现的是特定总体中被解释变量随解释变量的变动而变动的某种规律性。量随解释变量的变动而变动的某种规律性。计量经济学的根本目的是要探寻变量间数量关系的规律计量经济学的根本目的是要探寻变量间数量关系的规律,也也就要努力去寻求总体回归函数就要努力去寻求总体回归函数。第13页/共104页14条件期望表现形式例如Y的条件期望是解释变量X的线性函数,可表示为:个别值表现形式(随机设定形式)对于一定的,Y的各个别值并不一定等于
12、条件期望,而是分布在的周围,若令各个与条件期望的偏差为,显然是个随机变量则有2.2.总体回归函数的表现形式总体回归函数的表现形式PRF第14页/共104页作为总体运行的客观规律,总体回归函数是客观存在的,但在实际的经济研究中总体回归函数通常是未知的,只能根据经济理论和实践经验去设定。计量经济学研究中“计量”的根本目的就是要寻求总体回归函数。我们所设定的计量模型实际就是在设定总体回归函数的具体形式。总体回归函数中 Y Y 与 X X 的关系可以是线性的,也可以是非线性的。153.3.如何理解总体回归函数如何理解总体回归函数第15页/共104页16计量经济学中计量经济学中计量经济学中计量经济学中,
13、线性回归模型的线性回归模型的线性回归模型的线性回归模型的“线性线性线性线性”有两种解释有两种解释有两种解释有两种解释:就变量而言就变量而言就变量而言就变量而言是线性的是线性的是线性的是线性的 Y Y Y Y的条件期望(均值)是的条件期望(均值)是的条件期望(均值)是的条件期望(均值)是X X X X的线性函数的线性函数的线性函数的线性函数 就参数而言就参数而言就参数而言就参数而言是线性的是线性的是线性的是线性的 Y Y Y Y的条件期望(均值)是参数的条件期望(均值)是参数的条件期望(均值)是参数的条件期望(均值)是参数的线性函数的线性函数的线性函数的线性函数例如:例如:对变量、参数均为对变量
14、、参数均为“线性线性”对参数对参数“线性线性”,对变量,对变量”非线性非线性”对变量对变量“线性线性”,对参数,对参数”非线性非线性”注意:注意:在计量经济学中,线性回归模型主要指在计量经济学中,线性回归模型主要指就参数而言就参数而言是是“线线性性”的的,因为只要对参数而言是线性的因为只要对参数而言是线性的,都可以用类似的方法去估都可以用类似的方法去估计其参数,都可以归于线性回归。计其参数,都可以归于线性回归。“线性线性”的判断的判断第16页/共104页概念 在总体回归函数中,各个 的值与其条件期望 的偏差 有很重要的意义。若只有 的影响,与 不应有偏差。若偏差 存在,说明还有其他影响因素。实
15、际代表了排除在模型以外的所有因素对 Y 的影响。性质 是其期望为 0 有一定分布的随机变量重要性:随机扰动项的性质决定着计量经济分析结 果的性质和计量经济方法的选择17三、随机扰动项三、随机扰动项第17页/共104页 是是未知未知影响因素影响因素的代表的代表(理论的模糊性)是是无无法法取取得得数数据据的的已已知知影影响响因因素素的的代代表表(数据欠缺)是是众多细小影响因素众多细小影响因素的综合代表的综合代表(非系统性影响)模型可能存在模型可能存在设定误差设定误差(变量、函数形式的设定)模模型型中中变变量量可可能能存存在在观观测测误误差差(变量数据不符合实际)变变量量可可能能有有内内在在随随机机
16、性性(人类经济行为的内在随机性)18引入随机扰动项引入随机扰动项的原因的原因第18页/共104页样本回归线:对于X的一定值,取得Y的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹,称为样本回归线。样本回归函数:如果把被解释变量Y的样本条件均值 表示为解释变量X的某种函数,这个函数称为样本回归函数(SRF)19XYSRF四、样本回归函数四、样本回归函数(SRF)第19页/共104页20 样本回归函数如果为线性函数,可表示为 其中:是与 相对应的 Y 的样本条件均值 和 分别是样本回归函数的参数 个别值(实际值)形式:被解释变量Y的实际观测值 不完全等于样本条件均值 ,二者之差用 表示,称
17、为剩余项或残差项:则 或 样本回归函数的函数形式样本回归函数的函数形式条件均值形式:第20页/共104页样本回归线随抽样波动而变化:每次抽样都能获得一个样本,就可以拟合一条样本回归线,(SRF不唯一)样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。样本回归线只是样本条件均值的轨迹,还不是总体回归线,它至多只是未知的总体回归线的近似表现。21样本回归函数样本回归函数的特点的特点SRF1SRF2YX第21页/共104页 A X 22PRFSRF样本回归函数与总体回归函数的关系样本回归函数与总体回归函数的关系第22页/共104页 如果能够通过某种方式获得 和 的数值,显然:和 是对总体回
18、归函数参数 和 的估计 是对总体条件期望 的估计 在概念上类似总体回归函数中的 ,可视 为对 的估计。23对比:对比:总体回归函数总体回归函数 样本回归函数样本回归函数对样本回归的理解对样本回归的理解第23页/共104页24 目的:计量经济分析的目标是寻求总体回归函数。即用样本回归函数SRF去估计总体回归函数PRF。由于样本对总体总是存在代表性误差,SRF总会过高或过低估计PRF。要解决的问题:要解决的问题:寻求一种规则和方法,使其得到的SRF的参数和尽可能“接近”总体回归函数中的参数和的真实值。这样的“规则和方法”有多种,如矩估计、极大似然估计、最小二乘估计等。其中最常用的是最小二乘法。回归
19、分析的目的回归分析的目的第24页/共104页用样本去估计总体回归函数,总要使用特定的方法,而任何估计参数的方法都需要有一定的前提条件假定条件 一、简单线性回归的基本假定一、简单线性回归的基本假定 为什么要作基本假定?只有具备一定的假定条件,所作出的估计才具有良好的统计性质。模型中有随机扰动项,估计的参数是随机变量,显然参数估计值的分布与扰动项的分布有关,只有对随机扰动的分布作出假定,才能比较方便地确定所估计参数的分布性质,也才可能进行假设检验和区间估计等统计推断。假定分为:对模型和变量的假定对随机扰动项的假定 25第二节第二节 简单线性回归模型的最小二乘估计简单线性回归模型的最小二乘估计第25
20、页/共104页例如对于 假定模型设定是正确的(变量和模型无设定误差)假定解释变量X在重复抽样中取固定值。假定解释变量X是非随机的,或者虽然X是随机的,但与扰动项u是不相关的。(从变量X角度看是外生的)注意:解释变量非随机在自然科学的实验研究中相对容易满足,经济领域中变量的观测是被动不可控的,X X非随机的假定并不一定都满足。261.1.对模型和变量的假定对模型和变量的假定第26页/共104页 假定假定1 1:零均值假定:零均值假定:在给定在给定X X的条件下,的条件下,的条件期望为零的条件期望为零 假定假定2 2:同方差假定:同方差假定:在给定在给定X X的条件下,的条件的条件下,的条件方差为
21、某个常数方差为某个常数 27XY2.2.对随机扰动项对随机扰动项u u的假定的假定第27页/共104页28 假定假定3 3:无自相关假定无自相关假定:随机扰动项随机扰动项 的逐次值互不相关的逐次值互不相关 假定假定4 4:解释变量解释变量 是非随机的,或者虽然是非随机的,或者虽然 是随是随机的但与扰动项机的但与扰动项 不相关不相关(从随机扰动从随机扰动 角度看角度看)第28页/共104页29假定假定5 5:对随机扰动项分布的对随机扰动项分布的对随机扰动项分布的对随机扰动项分布的正态性假定正态性假定,即假定即假定即假定即假定 服从均值为零、方差为服从均值为零、方差为服从均值为零、方差为服从均值为
22、零、方差为 的正态分布的正态分布的正态分布的正态分布 (说明:说明:正态性假定并不影响对参数的点估计,所以有时不列正态性假定并不影响对参数的点估计,所以有时不列正态性假定并不影响对参数的点估计,所以有时不列正态性假定并不影响对参数的点估计,所以有时不列入基本假定,但这对确定所估计参数的分布性质是需要的。且入基本假定,但这对确定所估计参数的分布性质是需要的。且入基本假定,但这对确定所估计参数的分布性质是需要的。且入基本假定,但这对确定所估计参数的分布性质是需要的。且根据中心极限定理,当样本容量趋于无穷大时,根据中心极限定理,当样本容量趋于无穷大时,根据中心极限定理,当样本容量趋于无穷大时,根据中
23、心极限定理,当样本容量趋于无穷大时,的分布会趋的分布会趋的分布会趋的分布会趋近于正态分布。所以正态性假定有合理性)近于正态分布。所以正态性假定有合理性)近于正态分布。所以正态性假定有合理性)近于正态分布。所以正态性假定有合理性)第29页/共104页由于其中的 和 是非随机的,是随机变量,因此Y是随机变量,的分布性质决定了 的分布性质。对 的一些假定可以等价地表示为对 的假定:假定1:零均值假定 假定2:同方差假定 假定3:无自相关假定 假定5:正态性假定 30在对在对 的基本假定下的基本假定下 Y Y 的分布性质的分布性质第30页/共104页1.OLS的基本思想 对于 ,不同的估计方法可以得到
24、不同的样本回归参数 和 ,所估计的 也就不同。理想的估计结果应使估计的 与真实的 的差(即剩余 )总的来说越小越好 因 可正可负,总有 ,所以可以取 最小,即在观测值Y和X确定时,的大小决定于 和 。要解决的问题::如何寻求能使 最小的 和 。31二、普通最小二乘法(二、普通最小二乘法(OLSOLS)(rdinary Least Squares)rdinary Least Squares)第31页/共104页用克莱姆法则求解得以观测值表现的OLS估计量:32取偏导数并令其为0,可得正规方程或整理得即2.正规方程和估计量正规方程和估计量第32页/共104页33 为表达得更简洁,或者用离差形式的O
25、LS估计量:容易证明由正规方程:注意:其中:本课程中本课程中:大写的大写的 和和 均表示观测值;均表示观测值;小写的小写的 和和 均表示观测值的离差均表示观测值的离差而且由样本回归函数可用离差形式写为 用离差表现的用离差表现的OLSOLS估计量估计量第33页/共104页 剩余项 的均值为零 OLS回归线通过样本均值 估计值 的均值等于实际观测 值 的均值 34(由OLS第一个正规方程直接得到)(由OLS正规方程两边同除n得到)3.OLS3.OLS回归线的数学性质回归线的数学性质第34页/共104页 解释变量与剩余项不相关 由OLS正规方程有:被解释变量估计值 与剩余项 不相关第35页/共104
26、页36面临的问题面临的问题:参数参数估计值估计值参数真实值参数真实值对参数估计式的优劣需要有评价的标准为什么呢为什么呢?参数无法直接观测,只能通过样本去估计。样本的获得存参数无法直接观测,只能通过样本去估计。样本的获得存 在在抽样波动抽样波动,不同样本的估计结果不一致。,不同样本的估计结果不一致。估计参数的方法有多种,不同方法的估计结果可能不相同,估计参数的方法有多种,不同方法的估计结果可能不相同,通过样本估计参数时,估计方法及所确定的估计量不一定通过样本估计参数时,估计方法及所确定的估计量不一定 完备,不一定能得到理想的总体参数估计值。完备,不一定能得到理想的总体参数估计值。对各种估计方法优
27、劣的比较与选择需要有评价标准。对各种估计方法优劣的比较与选择需要有评价标准。估计准则的基本要求:估计准则的基本要求:参数估计值应尽可能地接近总体参数真实值”。什么是什么是“尽可能地接近尽可能地接近”原则呢?原则呢?用统计语言表述就是:无偏性、有效性、一致性等 4.OLS 4.OLS估计量的统计性质估计量的统计性质第36页/共104页37 (1)无偏性 前提:重复抽样中估计方法固定、样本数不变、由重复抽样得到的观测值,可得一系列参数估计值 ,的分布称为 的抽样分布,其密度函数记为概念:如果 ,则称 是参数 的无偏估计量,如果 ,则称 是有偏的估计,其偏倚为 (见下页图)第37页/共104页38概
28、率密度估计值偏倚第38页/共104页39 (2)(2)有效性有效性前提:样本相同、用不同的方法估计参数,可以找到若干个不同的无偏估计式目标:努力寻求其抽样分布具有最小方差的估计量 (见下页图)既是无偏的同时又具有最小方差特性的估计量,称为最佳(有效)估计量。第39页/共104页40概率密度估计值第40页/共104页思想:当样本容量较小时,有时很难找到方差最小的无偏估计,需要考虑样本扩大后的性质(估计方法不变,样本数逐步增大)一致性:当样本容量 n 趋于无穷大时,如果估计式 依概率收敛于总体参数的真实值,就称这个估计式 是 的一致估计式。即 或 (渐近无偏估计式是当样本容量变得足够大时其偏倚趋于
29、零的估计式)(见下页图)渐近有效性:当样本容量 n 趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。413、渐近性质(大样本性质)第41页/共104页42概率密度估计值图 4第42页/共104页先明确几点:由OLS估计式可以看出 都由可观测的样本值 和 唯一表示。因存在抽样波动,OLS估计 是随机变量 OLS估计式是点估计量 43OLS估计是否符合“尽可能地接近总体参数真实值”的要求呢?4.分析OLS估计量的统计性质第43页/共104页 2、无偏特性 可以证明 (证明见教材P38)44OLSOLS估计式的统计性质估计式的统计性质高斯定理高斯定理(注意:无偏性的证明中用到了基本假定中零均
30、值等假定)1 1、线性特征线性特征 是是Y Y的线性函数的线性函数第44页/共104页3、最小方差特性(有效性)(证明见教材P68附录21)可以证明:在所有的线性无偏估计中,OLS估计 具有最小方差(注意:最小方差性的证明中用到了基本假定中的同方差、无自相关等假定)结论(高斯定理)(高斯定理):在古典假定条件下,OLSOLS估计量是最佳线性无偏估计量(BLUEBLUE)45第45页/共104页概念概念:样本回归线是对样本数据的一种拟合。不同的模型(不同函数形式)可拟合出不同的样本回归线相同的模型用不同方法去估计参数,也可以拟合出不同的回归线拟合的回归线与样本观测值总是有偏离。样本回归线对样本观
31、测数据拟合的优劣程度,可称为拟合优度。如何度量拟合优度呢?拟合优度的度量建立在对 Y 的总变差分解的基础上46 第三节第三节 拟合优度的度量拟合优度的度量第46页/共104页 分析Y的观测值 、估计值 与平均值 有以下关系 将上式两边平方加总,可证得(提示:交叉项 )(TSS)(ESS)(RSS)或者表示为 总变差 (TSS):被解释变量Y的观测值与其平均值的离差平 方和(总平方和)(说明 Y 的总变动程度)解释了的变差 (ESS):被解释变量Y的估计值与其平均值的 离差平方和(回归平方和)剩余平方和 (RSS):被解释变量观测值与估计值之差的平方 和(未解释的平方和)47 一、总变差的分解一
32、、总变差的分解第47页/共104页 Y X 48变差分解的图示变差分解的图示(以某一个观测值为例以某一个观测值为例)第48页/共104页 以TSS同除总变差等式 两边:或 定义:回归平方和(解释了的变差ESS)在总变 差(TSS)中所占的比重称为可决系数,用 或 表示:49或 二、可决系数二、可决系数第49页/共104页 可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系数越小,说明模型对样本观测值的拟合程度越差。可决系数的特点可决系数的特点:可决系数取值范围:随抽样波动,样本可决系数 是随抽样而变 动的随机变量 可决系数是非负的统计量50可决系数的作
33、用可决系数的作用第50页/共104页联系:数值上可决系数是相关系数的平方51可决系数与相关系数的关系可决系数与相关系数的关系第51页/共104页区别:可决系数 相关系数 是就模型而言 是就两个变量而言 说明解释变量对被解释 说明两变量线性依存程度 变量的解释程度 度量不对称的因果关系 度量对称的相关关系 取值 0 1 取值-1r1 有非负性 可正可负52第52页/共104页53第四节第四节 回归系数的区间估计和假设检验回归系数的区间估计和假设检验为什么要作区间估计?为什么要作区间估计?运用OLS法可以估计出参数的一个估计值,但OLS估计只是通过样本得到的点估计,它不一定等于真实参数,还需要寻求
34、真实参数的可能范围,并说明其可靠性。为什么要作假设检验?为什么要作假设检验?OLS估计只是用样本估计的结果,是否可靠?是否抽样的偶然结果呢?还有待统计检验。区间估计和假设检验都是建立在确定参数估计区间估计和假设检验都是建立在确定参数估计值值 概率分布性质的基础上。概率分布性质的基础上。第53页/共104页54一、一、OLSOLS估计的分布性质估计的分布性质基本思想基本思想是随机变量,必须确定其分布性质才可能进行区间估计和假设检验怎样确定的分布性质呢?是服从正态分布的随机变量,决定了也是服从正态分布的随机变量;是的线性函数,决定了也服从正态分布正态正态 正态正态 正态正态只要确定的期望和方差,即
35、可确定的分布性质线性特征(线性估计的重要性)第54页/共104页55的期望:(已证明是无偏估计)的方差和标准误差(证明见P39、P40)(标准误差是方差的平方根)注意:注意:以上各式中以上各式中 均未知,但是个常数,其余均是已均未知,但是个常数,其余均是已知的样本观测值,这时知的样本观测值,这时 和和 都不是随机变量。都不是随机变量。的期望和方差第55页/共104页56基本思想:是的方差,而不能直接观测,只能从由样本得到的去获得有关的某些信息,去对作出估计。可以证明(见附录2.2)其无偏估计为 (这里的n-2为自由度,即可自由变化的样本观测值个数)注意区别:是未知的确定的常数;是由样本信息估计
36、的,是个随机变量对随机扰动项方差对随机扰动项方差 的估计的估计第56页/共104页57对作标准化变换为什么要对作标准化变换?在正态性假定下,由前面的分析已知但在对一般正态变量作实际分析时,要具体确定的取值及对应的概率,要通过正态分布密度函数或分布函数去计算是很麻烦的,为了便于直接利用“标准化正态分布的临界值”,需要对作标准化变换。标准化的方式:标准正态分布函数第57页/共104页58在在 已知时已知时对 作标准化变换,所得Z统计量为标准正态变量。1.1.已知时,对已知时,对 作标准化变换作标准化变换注意:这时和都不是随机变量(X、都是非随机的)第58页/共104页59条件:条件:当未知时,可用
37、(随机变量)代替去估计参数的标准误差。这时参数估计的标准误差是个随机变量。样本为大样本时样本为大样本时,作标准化变换所得的统计量作标准化变换所得的统计量Z Zk k,也可以也可以 视为标准正态变量视为标准正态变量(根据中心极限定理)(根据中心极限定理)。样本为小样本时样本为小样本时,用估计的参数标准误差对作标准化变换,所得的统计量用t表示,这时t将不再服从正态分布,而是服从t分布(注意这时分母是随机变量):2.2.未知时,对未知时,对 作标准化变换作标准化变换第59页/共104页基本思想:对对参参数数作作出出的的点点估估计计是是随随机机变变量量,虽虽然然是是无无偏偏估估计计,但但还还不不能能说
38、说明明这这种种估估计计的的可可靠靠性性和和精精确确性性。如如果果能能找找到到包包含含真真实实参数参数的的一一个个范范围围,并并确确定定这这样样的的范范围围包包含含参参数数真真实实值值的的可可靠靠程程度,度,将是对真实参数更深刻的认识将是对真实参数更深刻的认识。方方法法:如果在确定参数估计式概率分布性质的基础上,可找到两个正数和 ,能使得这样的区间 包含真实 的概率为 ,即这样的区间称为所估计参数的置信区间。讨论:“如果已经得出了 的特定估计值,并确定了某个置信区间,这说明真实参数落入这个区间的概率为1-1-”。这种说法对吗?60 二、回归系数的区间估计第60页/共104页61样本容量充分大样本
39、容量较小总体方差已知总体方差未知Z将接近标准正态分布服从t分布三种情况基本思想:利用标准化后统计量的分布性质去寻求:置信区间:标准正态分布第61页/共104页(1)当总体方差 已知时(Z 服从正态分布)取定 (例如 =0.05),查标准正态分布表得与 对应的临界值z(例如z为1.96),则标准化变量Z*(统计量)因为 或 即62回归系数的区间估计回归系数的区间估计 (分三种情况寻找合适的分三种情况寻找合适的 )第62页/共104页方法:可用无偏估计 去代替未知的 ,由于样本容量充分大,标准化变量Z*(统计量)将接近标准正态分布注意:这里的“”,表示“估计的”,这时区间估计的方式也可利用标准正态
40、分布只是这时632.2.当总体方差 未知,且样本容量充分大时第63页/共104页方法:用无偏估计 去代替未知的 ,由于样本容量较小,“标准化变量”t(统计量)不再服从正态分布,而服从 t 分布。这时可用 t 分布去建立参数估计的置信区间。选定,查 t 分布表得显著性水平为 ,自由度为n-2的临界值 (n-2),则有即 643 3、当总体方差 未知,且样本容量较小时第64页/共104页例1:研究某市城镇居民人均鲜蛋需求量Y(公斤)与人均可支配收入X(元,1980年不变价计)的关系设定模型设定模型:1995-2005年样本数据:估计参数:估计参数:年份19951996199719981999200
41、020012002200320042005Y14.414.414.414.717.016.318.018.518.219.317.1X847.3821.0884.2903.7984.11035.31200.91289.81432.91539.01633.6第65页/共104页计算可决系数计算可决系数例1:由前面的估计结果可计算出 由数据Y 可计算出:则估计结果:第66页/共104页 估计 :给定 查df=n-2=9df=n-2=9的t t分布临界值参数区间估计参数区间估计:若给定 查df=9df=9的t t分布临界值67若给定则若给定则则第67页/共104页6868统计量t计算的统计量为:相对
42、于显著性水平的临界值为:(单侧)或(双侧)基本概念回顾:临界值与概率、大概率事件与小概率事件0(大概率事件)(小概率事件)目的:简单线性回归中,检验X对Y是否真有显著影响三、三、回归系数的假设检验回归系数的假设检验第68页/共104页69 回归系数的检验方法回归系数的检验方法 确立假设:确立假设:原假设为备择假设为 (本质本质:检验是否为0,即检验是否对Y有显著影响)(1)当已知或样本容量足够大时 可利用正态分布作Z检验 给定,查正态分布表得临界值Z如果则不拒绝原假设如果或则拒绝原假设第69页/共104页70(2)当未知,且样本容量较小时只能用去代替,可利用t分布作t检验:给定,查t分布表得如
43、果或者则拒绝原假设而不拒绝备择假设如果则不拒绝原假设第70页/共104页用用 P 值判断参数的显著性值判断参数的显著性假设检验的假设检验的 p p 值值:p p 值是基于既定的样本数据所计算的统计量,拒绝值是基于既定的样本数据所计算的统计量,拒绝原假设的最低显著性水平。原假设的最低显著性水平。统计分析软件中通常都给出了检验的统计分析软件中通常都给出了检验的 p p 值值P统计量t计算的统计量:相对于显著性水平的临界值:或注意:t检验是比较和P值检验是比较和p与相对应与P相对应第71页/共104页72用P值判断参数显著性的方法方法方法:将给定的显著性水平与p值比较:若值,必有,则在显著性水平下拒
44、绝原假设,即认为对Y有显著影响若值,必有,则在显著性水平下不拒绝原假设,即认为对Y没有显著影响规则规则:当时,P值越小,越能拒绝原假设第72页/共104页73举例举例:对例对例1 1参数的显著性检验参数的显著性检验给定查df=9的t分布临界值计算统计量判断:因拒绝说明显著不为0,X对Y确有显著影响用用P P值检验值检验:(需要确定与 对应的P P值)由,df=9,查t分布表知道P0.0005(t=4.781时)因t=5.00时的P值0.0005(t=4.781)p=0.0000表明,人均GDP对居民消费水平确有显著影响。模型检验应拒绝第94页/共104页95 4.4.经济意义检验:估计的解释变
45、量的系数为03864,说明人均GDP每增加1元,人均年消费支出平均将增加03864元。这符合经济理论的界定。第95页/共104页96点预测:如果2008年人均GDP将比2007年增长16.2%将达到,22001元/人,利用所估计的模型可预测2008年居民可能达到的年消费水平。经济预测(元)区间预测:平均值区间预测上下限:已知:第96页/共104页97由X和Y的描述统计结果平均值区间预测区间预测即是说:当2008年=22001元时,居民人均消费水平平均值置信度95%的预测区间为(8445.38,9006.96)元。第97页/共104页9898个别值区间预测:即是说:当2008年=22001元时,
46、居民人均消费水平个别值置信度95%的预测区间为(8200.66,9251.68)元。第98页/共104页 本章小结本章小结1、变量间的关系分为函数关系与相关关系。相关系数是对变量间线性相关程度的度量。2、现代意义的回归是一个被解释变量对若干个解释变量依存关系的研究,回归的实质是由解释变量去估计被解释变量的平均值。3、总体回归函数(PRF)是将总体被解释变量Y的条件均值表现为解释变量X的某种函数。样本回归函数(SRF)是将被解释变量Y的样本条件均值表示为解释变量X的某种函数。总体回归函数与样本回归函数的区别与联系。99第99页/共104页4、随机扰动项是被解释变量实际值与条件均值的偏差,代表排除
47、在模型以外的所有因素对Y的影响。5、简单线性回归的基本假定:对模型和变量的假定、对随机扰动项u的假定(零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定)6、普通最小二乘法(OLS)估计参数的基本思想及估计量;OLS 估计量的分布性质及期望、方差和标准误差;OLS估计式是最佳线性无偏估计量。100第100页/共104页7、简单线性回归模型极大似然估计的思想和方法。8、对回归系数区间估计的思想和方法。9、拟合优度是样本回归线对样本观测数据拟合的优劣程度,可决系数是在总变差分解基础上确定的。可决系数的计算方法、特点与作用。10、对回归系数假设检验的基本思想。对回归系数t检验的思想与方法;用P值判断参数的显著性。101第101页/共104页11、被解释变量平均值预测与个别值预测的关系,被解释变量平均值的点预测和区间预测的方法,被解释变量个别值区间预测的方法。12、运用EViews软件实现对简单线性回归模型的估计和检验。102第102页/共104页103103第二章结束了!第二章结束了!第103页/共104页104感谢您的观看!第104页/共104页