《线性回归模型精选PPT.ppt》由会员分享,可在线阅读,更多相关《线性回归模型精选PPT.ppt(87页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于线性回归模型关于线性回归模型第1页,讲稿共87张,创作于星期二2022/9/162 2.1 模型的建立及其假定条件模型的建立及其假定条件1变量之间的关系变量之间的关系2回归分析的概念回归分析的概念3一元线性回归模型一元线性回归模型4随机误差项的假定随机误差项的假定第2页,讲稿共87张,创作于星期二2022/9/163 2.1 模型的建立及其假定条件模型的建立及其假定条件1变量之间的关系变量之间的关系经济变量之间的关系,大体可分为两类:经济变量之间的关系,大体可分为两类:确定性关系或函数关系:确定性关系或函数关系:变量之间存在确定的函数关系变量之间存在确定的函数关系例如:某企业的销售收入例如
2、:某企业的销售收入Y与其产品价格与其产品价格P和销售量和销售量X的关的关系为:系为:Y=PX第3页,讲稿共87张,创作于星期二2022/9/1642.1 模型的建立及其假定条件模型的建立及其假定条件统计依赖或相关关系:统计依赖或相关关系:变量之间存在非确定的依赖关变量之间存在非确定的依赖关系系.研究的是非确定现象随机变量间的关系。研究的是非确定现象随机变量间的关系。例如:某企业资金投入例如:某企业资金投入X与产出与产出Y的关系。的关系。Y=f(X)+u 对变量间统计依赖关系的考察主要是通过对变量间统计依赖关系的考察主要是通过相关分析相关分析(correlation analysis)或或回归分
3、析回归分析(regression analysis)来完成的来完成的第4页,讲稿共87张,创作于星期二2022/9/1652.1 模型的建立及其假定条件模型的建立及其假定条件2 回归分析的概念回归分析的概念 回归分析回归分析研究一个变量关于另一个(些)变量的研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。具体依赖关系的计算方法和理论。其用意其用意:在于通过后者的已知或设定值,去估计在于通过后者的已知或设定值,去估计(或)预测前者的(总体)均值(或)预测前者的(总体)均值。第5页,讲稿共87张,创作于星期二2022/9/1662.1 模型的建立及其假定条件模型的建立及其假定条件
4、回归分析的基本思想和方法以及回归分析的基本思想和方法以及“回归回归”名称的由来名称的由来 英国统计学家高尔顿(英国统计学家高尔顿(F.alton,18221911)和他)和他的学生皮尔逊(的学生皮尔逊(.Pearson,18561936)在研究父母身高)在研究父母身高与其子女身高的遗传问题时,观察了与其子女身高的遗传问题时,观察了1078对夫妇,以每对对夫妇,以每对夫妇的平均身高作为自变量,而取他们的一个成年儿子的夫妇的平均身高作为自变量,而取他们的一个成年儿子的身高作为因变量,将结果在平面直角坐标系上绘成散点图身高作为因变量,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线,计算出的
5、回归直线方程为:,发现趋势近乎一条直线,计算出的回归直线方程为:y33.730.516 x 这一方程表明:父母平均身高每增减一个单位时,其年这一方程表明:父母平均身高每增减一个单位时,其年子女的身高仅平增减子女的身高仅平增减0.516个单位个单位第6页,讲稿共87张,创作于星期二2022/9/167 这项研究结果表明,虽然高个子父辈有生高个子儿子的这项研究结果表明,虽然高个子父辈有生高个子儿子的趋势,矮个子的父辈有生矮个子儿子的趋势,但父辈身高趋势,矮个子的父辈有生矮个子儿子的趋势,但父辈身高增减一个单位,儿子身高仅增减半个单位左右。通俗地说,增减一个单位,儿子身高仅增减半个单位左右。通俗地说
6、,一群特高个子父辈一群特高个子父辈 的儿子们在同龄人中平均仅为高个子,的儿子们在同龄人中平均仅为高个子,一群高个子父辈的儿子们在同龄人中平均仅为略高个子;一群高个子父辈的儿子们在同龄人中平均仅为略高个子;一群特矮个子父辈的儿子们在同龄人中平均仅为矮个子,一群特矮个子父辈的儿子们在同龄人中平均仅为矮个子,一群矮个子父辈的儿子们在同龄人中平均仅为略矮个子,一群矮个子父辈的儿子们在同龄人中平均仅为略矮个子,即子代的平均身高向中间回归了。所以高尔顿引用了即子代的平均身高向中间回归了。所以高尔顿引用了“回回归归”(regression)一词来描述父辈身高与子代身高之间的关)一词来描述父辈身高与子代身高之
7、间的关系。尽管系。尽管“回归回归”这个名称的由来具有特定的含义,但是,人这个名称的由来具有特定的含义,但是,人们在研究大量的经济变量间的统计关系时已远远超出了这一特们在研究大量的经济变量间的统计关系时已远远超出了这一特定的含义了,我们现在使用回归这一名称仅仅是接受了高尔顿定的含义了,我们现在使用回归这一名称仅仅是接受了高尔顿先生的回归分析基本思想和方法先生的回归分析基本思想和方法 第7页,讲稿共87张,创作于星期二2022/9/1682.1 模型的建立及其假定条件模型的建立及其假定条件3 一元线性回归模型一元线性回归模型 一元线性回归模型一元线性回归模型表示如下:表示如下:yi=01xi+ui
8、 yi 称为称为 被解释变量被解释变量(因变量)(因变量)xi 称为称为解释变量解释变量(自变量)(自变量)0、1 回归系数回归系数(待定系数或待定参数)(待定系数或待定参数)0称作常数项(截称作常数项(截距项),距项),1称作斜率系数。称作斜率系数。ui 是计量经济模型区别于数学模型的最关键的标志,称是计量经济模型区别于数学模型的最关键的标志,称之为之为随机扰动项随机扰动项或或误差项误差项。正是。正是u 的随机性使得我们可以采的随机性使得我们可以采用统计推断方法对模型的设定进行严格的检验。用统计推断方法对模型的设定进行严格的检验。第8页,讲稿共87张,创作于星期二2022/9/1692.1
9、模型的建立及其假定条件模型的建立及其假定条件 线性回归模型线性回归模型”中的中的“线性线性”一词在这里的含一词在这里的含义义:是指被解释变量是指被解释变量y与解释变量与解释变量x之间为线性关系,即之间为线性关系,即解释变量解释变量x仅以一次方的形式出现在模型之中。仅以一次方的形式出现在模型之中。第9页,讲稿共87张,创作于星期二2022/9/16102.1 模型的建立及其假定条件模型的建立及其假定条件一般来说,回归模型的随机误差项中可能包括如一般来说,回归模型的随机误差项中可能包括如下几项内容。下几项内容。(1)未在模型中列出的影响)未在模型中列出的影响y变化的非重要解变化的非重要解释变量。如
10、消费模型中家庭人口数、消费习惯、释变量。如消费模型中家庭人口数、消费习惯、物价水平差异等因素的影响都包括在随机误差项物价水平差异等因素的影响都包括在随机误差项中。中。(2)人的随机行为。经济活动都是人参与的。)人的随机行为。经济活动都是人参与的。人的经济行为的变化也会对随机误差项产生人的经济行为的变化也会对随机误差项产生影响。影响。第10页,讲稿共87张,创作于星期二2.1 模型的建立及其假定条件模型的建立及其假定条件(3)数学模型形式欠妥。对于同一组观测值,若)数学模型形式欠妥。对于同一组观测值,若拟合的数学模型形式不同,则相应的随机误差项拟合的数学模型形式不同,则相应的随机误差项的值也不同
11、。当模型形式欠妥时,会直接对随机的值也不同。当模型形式欠妥时,会直接对随机误差项的值带来影响。误差项的值带来影响。(4)归并误差。模型中被解释变量的值常常是归)归并误差。模型中被解释变量的值常常是归并而成的。当归并不合理时,会产生误差。如由并而成的。当归并不合理时,会产生误差。如由不同种类粮食合并构成的粮食产量的不合理归并不同种类粮食合并构成的粮食产量的不合理归并会带来归并误差。会带来归并误差。(5)测量误差。当对被解释变量的测量存在误)测量误差。当对被解释变量的测量存在误差时,这种误差将包括在随机误差项中差时,这种误差将包括在随机误差项中第11页,讲稿共87张,创作于星期二2022/9/16
12、122.1 模型的建立及其假定条件模型的建立及其假定条件4 随机误差项的假定条件随机误差项的假定条件(1)零均值假定)零均值假定 E(ui)=0 i=1,2,这表示对这表示对X的每个观测值来说的每个观测值来说,u可以取可以取不同的值不同的值,有些大于零有些大于零,有些小于零有些小于零,考虑考虑u的的所有可能取值所有可能取值,他们的总体平均值等于零他们的总体平均值等于零.第12页,讲稿共87张,创作于星期二2.1 模型的建立及其假定条件模型的建立及其假定条件(2)同方差性假定)同方差性假定 Var(ui)=u2 i=1,2,这表明在各次观测中这表明在各次观测中u具有相同的方差具有相同的方差,也也
13、就是各次观测所受的随机影响的程度相同就是各次观测所受的随机影响的程度相同.第13页,讲稿共87张,创作于星期二协方差的定义协方差的定义 E(X-E(X)(Y-E(Y)称为随机变量称为随机变量X和和Y的的协方差协方差,记作,记作COV(X,Y),即,即COV(X,Y)=E(X-E(X)(Y-E(Y).计算公式为计算公式为:Cov(X,Y)=E(XY)-E(X)E(Y)协方差可以度量两个变量之间的相关关系协方差可以度量两个变量之间的相关关系,如果如果两个变量的协方差为零两个变量的协方差为零,则表明这两个变量之间不则表明这两个变量之间不存在相关关系存在相关关系.第14页,讲稿共87张,创作于星期二2
14、.1 模型的建立及其假定条件模型的建立及其假定条件(3)无序列相关假定)无序列相关假定 Cov(ui,uj)=0 ij i,j=1,2,这表明这表明,在任意两次观测时在任意两次观测时,ui,uj是不相关的是不相关的,即即u在某次观测中取的值与任何其它次观测中取的值互在某次观测中取的值与任何其它次观测中取的值互不影响不影响.第15页,讲稿共87张,创作于星期二2.1 模型的建立及其假定条件模型的建立及其假定条件(4)解释变量与误差项不相关假定)解释变量与误差项不相关假定 Cov(Xi,ui)=0 i=1,2,这一假定表明随机项这一假定表明随机项u与自变量与自变量x不相关不相关.提出这提出这一假定
15、是因为在建立回归模型时一假定是因为在建立回归模型时,我们用随机项我们用随机项u综合了未包含在模型中的那些自变量以及其它因综合了未包含在模型中的那些自变量以及其它因素对因变量素对因变量Y的影响的影响.因此因此,应该把应该把X对对Y的影响和的影响和u对对Y的影响区分开来的影响区分开来.如果两者相关如果两者相关,就不可能把各就不可能把各自对自对Y的影响区分开来的影响区分开来第16页,讲稿共87张,创作于星期二2022/9/16172.1 模型的建立及其假定条件模型的建立及其假定条件(5)正态分布假定正态分布假定 uiN(0,u2)i=1,2,第17页,讲稿共87张,创作于星期二2022/9/1618
16、2.2 一元线性回归模型的参数估计一元线性回归模型的参数估计1 几个重要的概念几个重要的概念 对于一元线性回归模型对于一元线性回归模型 ,随机误差,随机误差项满足古典假设条件,这个线性回归模型称为项满足古典假设条件,这个线性回归模型称为X,Y之间的之间的总体回归模型。总体回归模型。两边取条件均值,得一元线性回归方程:两边取条件均值,得一元线性回归方程:简称简称总体回归方程总体回归方程(总体回归线总体回归线)。其中总体回归系数)。其中总体回归系数 和和 是是未知的,实际上总体回归线是无法求得的,它只是理论上的存在,未知的,实际上总体回归线是无法求得的,它只是理论上的存在,所以称为理论回归方程所以
17、称为理论回归方程第18页,讲稿共87张,创作于星期二2022/9/16192.2 一元线性回归模型的参数估计一元线性回归模型的参数估计如果变量如果变量 x 和和y之间存在线性相关关系之间存在线性相关关系,对于任意抽取的若干个观测对于任意抽取的若干个观测(样本)值(样本)值(xi,yi),有),有 (2.2.1)我们称(我们称(2.2.1)为样本回归模型)为样本回归模型,、为为 、的的估计估计值值或或估计量估计量。样本回归模型由两部分组成。样本回归模型由两部分组成:称为称为系统分量,是可以被系统分量,是可以被x解释的部分,也称为可解释分量;解释的部分,也称为可解释分量;是不能被解释的部分,称为是
18、不能被解释的部分,称为残差残差(Residual),它是随机项它是随机项 ui 的代表值,也称为不可解释分量。将系统分量表示为的代表值,也称为不可解释分量。将系统分量表示为 (2.2.2)第19页,讲稿共87张,创作于星期二2022/9/16202.2 一元线性回归模型的参数估计一元线性回归模型的参数估计 式(2.2.2)称为一元线性样本回归方程,简称样本回归方程。又因(2.2.2)式的建立依赖于样本观测值(xi,yi),所以我们又称其为经验回归方程。、为样本回归系数。其中 是估计的回归直线在y轴截距,是直线的斜率。的实际意义为x每变动一个单位时,y的平均变动值,即x的变动对y变动的边际贡献率
19、;是实际观测值 y 的拟合值或估计值我们用一个图来表示yi,E(yi,)、ui、ei第20页,讲稿共87张,创作于星期二2022/9/16212.2 一元线性回归模型的参数估计一元线性回归模型的参数估计 Y iY ie iY Xi X 第21页,讲稿共87张,创作于星期二2022/9/16222.2 一元线性回归模型的参数估计一元线性回归模型的参数估计2 普通最小二乘法普通最小二乘法 给定一组样本观测值(给定一组样本观测值(Xi,Yi)()(i=1,2,n)要求)要求样本回归函数尽可能好地拟合这组值样本回归函数尽可能好地拟合这组值.普通最小二乘法普通最小二乘法(Ordinary least s
20、quares,OLS)给出的判断标准是:)给出的判断标准是:二者之差的平方和最小二者之差的平方和最小即在给定样本观测值之下,选择出即在给定样本观测值之下,选择出 、能使能使 y yi i ,之之差的平方和最小(即为使残差平方和最小)差的平方和最小(即为使残差平方和最小)第22页,讲稿共87张,创作于星期二2022/9/16232.2 一元线性回归模型的参数估计一元线性回归模型的参数估计方程组(方程组(*)称为)称为正规方程组正规方程组(normal equations)。第23页,讲稿共87张,创作于星期二2022/9/16242.2 一元线性回归模型的参数估计一元线性回归模型的参数估计记记
21、上述参数估计量可以写成:上述参数估计量可以写成:上式称为上式称为OLSOLS估计量的估计量的离差形式离差形式。由于参数的估计结果是通过最小二乘法得到的,故由于参数的估计结果是通过最小二乘法得到的,故称为称为普通普通最小二乘估计量最小二乘估计量(ordinary least squares estimators)。第24页,讲稿共87张,创作于星期二2022/9/16252.2 一元线性回归模型的参数估计一元线性回归模型的参数估计3 最小二乘直线的性质最小二乘直线的性质(1)残差)残差ei的均值等于的均值等于0因为因为 ,所以,所以(2)残差)残差ei与解释变量与解释变量xi不相关不相关即即(3
22、)样本回归直线经过点()样本回归直线经过点()(4)被解释变量的样本平均值等于其估计值的平均值)被解释变量的样本平均值等于其估计值的平均值第25页,讲稿共87张,创作于星期二2022/9/16262.2 一元线性回归模型的参数估计一元线性回归模型的参数估计4 截距为零的一元线性回归模型的参数估计截距为零的一元线性回归模型的参数估计 截距为零的一元线性回归模型的一般形式为:截距为零的一元线性回归模型的一般形式为:这个模型只有一个参数这个模型只有一个参数 需要估计,其最小二乘估计量需要估计,其最小二乘估计量的表达式为的表达式为 第26页,讲稿共87张,创作于星期二2022/9/16272.2 一元
23、线性回归模型的参数估计一元线性回归模型的参数估计例例2.2.1题:一个假想的生活小区有题:一个假想的生活小区有100户家庭组成户家庭组成,要研究该小区每月,要研究该小区每月家庭消费支出家庭消费支出Y与每月与每月家庭可家庭可支配收入支配收入X的关系。的关系。首先得到这首先得到这100户家庭的每月家庭消费支出和每户家庭的每月家庭消费支出和每月家庭可支配收入的数据,并把月家庭可支配收入的数据,并把100户家庭划分为户家庭划分为组内收入差不多的组内收入差不多的10组,以分析每一收入组的家庭组,以分析每一收入组的家庭消费支出,分组如下:消费支出,分组如下:第27页,讲稿共87张,创作于星期二2022/9
24、/1628第28页,讲稿共87张,创作于星期二2022/9/1629建立变量建立变量X与与Y之间的样本回归模型:之间的样本回归模型:利用分组数据估计模型参数,参数估计的计算可通过下面的表进利用分组数据估计模型参数,参数估计的计算可通过下面的表进行行 iX iY ix iy iiyx 2ix 2iy 2iX 2iY 1 800 594-1350-973 1314090 1822500 947508 640000 352836 2 1100 638-1050-929 975870 1102500 863784 1210000 407044 3 1400 1122-750-445 334050 56
25、2500 198381 1960000 1258884 4 1700 1155-450-412 185580 202500 170074 2890000 1334025 5 2000 1408-150-159 23910 22500 25408 4000000 1982464 6 2300 1595 150 28 4140 22500 762 5290000 2544025 7 2600 1969 450 402 180720 202500 161283 6760000 3876961 8 2900 2078 750 511 382950 562500 260712 8410000 43180
26、84 9 3200 2585 1050 1018 1068480 1102500 1035510 10240000 6682225 10 3500 2530 1350 963 1299510 1822500 926599 12250000 6400900 求和 21500 15674 5769300 7425000 4590020 53650000 29157448 平均 2150 1567 第29页,讲稿共87张,创作于星期二2022/9/16302.2 一元线性回归模型的参数估计一元线性回归模型的参数估计因此,由该样本估计的回归方程为:因此,由该样本估计的回归方程为:第30页,讲稿共87张
27、,创作于星期二2022/9/16312.3最小二乘估计量的统计性质最小二乘估计量的统计性质 第31页,讲稿共87张,创作于星期二2022/9/16322 2、无偏性无偏性,即估计量估计量0b、1b的均值(期望)等于总体回归的均值(期望)等于总体回归参数真值参数真值b0与b1 证明证明:易知易知故故同样地,容易得出同样地,容易得出 第32页,讲稿共87张,创作于星期二2022/9/16332.3最小二乘估计量的统计性质最小二乘估计量的统计性质 3 3、有效性(最小方差性)、有效性(最小方差性),即在所有线性无偏估计量即在所有线性无偏估计量中,最小二乘估计量中,最小二乘估计量0b、1b具有最小方差
28、具有最小方差。(1)先先求求0b与与1b的的方方差差 第33页,讲稿共87张,创作于星期二2022/9/1634(2)证明最小方差性其中,其中,ci=ki+di,di为不全为零的常数为不全为零的常数则容易证明则容易证明假设*1b是其他估计方法得到的关于b1的线性无偏估计量:普通最小二乘估计量普通最小二乘估计量(ordinary least Squares Estimators)称为)称为最佳线性无偏估计量最佳线性无偏估计量(best linear unbiased estimator,BLUE)第34页,讲稿共87张,创作于星期二例例:令令kids表示一名妇女生育孩子的数目,表示一名妇女生育孩
29、子的数目,educ表表示该妇女接受过教育的年数。生育率对教育年数的示该妇女接受过教育的年数。生育率对教育年数的简单回归模型为简单回归模型为:(1)随机扰动项)随机扰动项 包含什么样的因素?它们可能包含什么样的因素?它们可能与教育水平相关吗?与教育水平相关吗?(2)上述简单回归分析能够揭示教育对生育率在)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。其他条件不变下的影响吗?请解释。第35页,讲稿共87张,创作于星期二(1)收入、年龄、家庭状况、政府的相关政策)收入、年龄、家庭状况、政府的相关政策等也是影响生育率的重要的因素,在上述简单回等也是影响生育率的重要的因素,在上述
30、简单回归模型中,它们被包含在了随机扰动项之中。有归模型中,它们被包含在了随机扰动项之中。有些因素可能与增长率水平相关,如收入水平与教些因素可能与增长率水平相关,如收入水平与教育水平往往呈正相关、年龄大小与教育水平呈负育水平往往呈正相关、年龄大小与教育水平呈负相关等。相关等。(2)当归结在随机扰动项中的重要影响因素与)当归结在随机扰动项中的重要影响因素与模型中的教育水平模型中的教育水平educ相关时,上述回归模型不相关时,上述回归模型不能够揭示教育对生育率在其他条件不变下的影响,能够揭示教育对生育率在其他条件不变下的影响,因为这时出现解释变量与随机扰动项相关的情形,因为这时出现解释变量与随机扰动
31、项相关的情形,基本假设基本假设4不满足。不满足。第36页,讲稿共87张,创作于星期二例已知回归模型,例已知回归模型,式中式中E为某类公司为某类公司一名新员工的起始薪金(元),一名新员工的起始薪金(元),N为所受教育水为所受教育水平(年)。随机扰动项的分布未知,其他所有假平(年)。随机扰动项的分布未知,其他所有假设都满足。设都满足。(1)从直观及经济角度解释)从直观及经济角度解释 和和 。(2)OLS估计量估计量 和和 满足线性性、无偏性及有满足线性性、无偏性及有效性吗?简单陈述理由。效性吗?简单陈述理由。第37页,讲稿共87张,创作于星期二(1)为接受过为接受过N年教育的员工的总体平均起年教育
32、的员工的总体平均起始薪金。当始薪金。当N为零时,平均薪金为才为零时,平均薪金为才 ,因此,因此 表示没有接受过教育员工的平均起始薪金。表示没有接受过教育员工的平均起始薪金。是是每单位每单位N变化所引起的变化所引起的E的变化,即表示每多接受的变化,即表示每多接受一年学校教育所对应的薪金增加值。一年学校教育所对应的薪金增加值。(2)OLS估计量估计量 和和 仍满足线性性、无偏性仍满足线性性、无偏性及有效性,因为这些性质的的成立无需随机扰动及有效性,因为这些性质的的成立无需随机扰动项的正态分布假设。项的正态分布假设。第38页,讲稿共87张,创作于星期二2022/9/16392.4用样本可决系数检验回
33、归方程的拟合优度用样本可决系数检验回归方程的拟合优度 回归分析回归分析是要通过样本所估计的参数来代替总体的真实是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复尽管从统计性质上已知,如果有足够多的重复 抽样,抽样,参数的估计值的期望(均值)就等于其总体的参数真值,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多那么,在一次抽样中,参数的估计值与真值的
34、差异有多大,是否显著,这就需要进一步进行大,是否显著,这就需要进一步进行统计检验统计检验。主要包括主要包括拟合优度检验拟合优度检验、变量的、变量的显著性检验显著性检验及参数的及参数的区区间估计间估计。第39页,讲稿共87张,创作于星期二2022/9/16402.4用样本可决系数检验回归方程用样本可决系数检验回归方程的拟合优度的拟合优度 拟合优度检验拟合优度检验拟合优度检验拟合优度检验:对样本回归直线与样本观测值之间拟合对样本回归直线与样本观测值之间拟合程度的检验。程度的检验。基本思路:因变量基本思路:因变量Y的变异,能够被的变异,能够被X的变异解释的的变异解释的比例越大,则比例越大,则OLS回
35、归线对总体的解释程度就越好。也回归线对总体的解释程度就越好。也即是样本观测值距回归线越近,拟合优度越好,即是样本观测值距回归线越近,拟合优度越好,X对对Y的解释程度就越强的解释程度就越强 度量拟合优度的指标度量拟合优度的指标度量拟合优度的指标度量拟合优度的指标:样本决定系数样本决定系数r r2 2第40页,讲稿共87张,创作于星期二2022/9/16412.4用样本可决系数检验回归方程用样本可决系数检验回归方程的拟合优度的拟合优度1 总离差平方和的分解总离差平方和的分解 已知由一组样本观测值(已知由一组样本观测值(Xi,Yi),),i i=1,2,n得得到如下样本回归直线:到如下样本回归直线:
36、而而Y Y的第的第i i个观测值与样本均值的离差个观测值与样本均值的离差可分解为两部分之和:可分解为两部分之和:第41页,讲稿共87张,创作于星期二2022/9/1642 如果如果Yi=i 即实际观测值落在样本回归即实际观测值落在样本回归“线线”上,则上,则拟合最好拟合最好。可。可认为,认为,“离差离差”全部来自回归线,而与全部来自回归线,而与“残差残差”无关。无关。第42页,讲稿共87张,创作于星期二2022/9/1643 对于所有样本点,则需考虑这些点与样本均值离对于所有样本点,则需考虑这些点与样本均值离差的平方和差的平方和,可以证明:可以证明:记:记:总离差平方和总离差平方和(Total
37、 Sum of Squares)回归平方和回归平方和(Explained Sum of Squares)残差平方和残差平方和(Residual Sum of Squares)第43页,讲稿共87张,创作于星期二2022/9/16442.4用样本可决系数检验回归方程用样本可决系数检验回归方程的拟合优度的拟合优度 即:即:TSS=ESS+RSS Y的观测值围绕其均值的总离差可分解为两部分的观测值围绕其均值的总离差可分解为两部分:一部分来自回归线一部分来自回归线(ESS),另一部分则来自随机,另一部分则来自随机势力势力(RSS)。在给定样本中,在给定样本中,TSS不变,如果实际观测点离样不变,如果实
38、际观测点离样本回归线越近,则本回归线越近,则ESS在在TSS中占的比重越大,因中占的比重越大,因此定义此定义拟合优度拟合优度:回归平方和:回归平方和ESS/总离差总离差TSS第44页,讲稿共87张,创作于星期二2022/9/16452.4用样本可决系数检验回归方程的拟合优度用样本可决系数检验回归方程的拟合优度2 样本可决系数样本可决系数也可表示为也可表示为称称 r2 为为(样本)决定系数样本)决定系数/判定系数,可决系数判定系数,可决系数可决系数可决系数的取值范围取值范围:0,1 r2越接近越接近1,说明实际观测点离样本线越近,拟合,说明实际观测点离样本线越近,拟合优度越高优度越高。第45页,
39、讲稿共87张,创作于星期二2022/9/16462.4用样本可决系数检验回归方程用样本可决系数检验回归方程的拟合优度的拟合优度在例在例2.1.1的的收入收入-消费支出消费支出例中例中第46页,讲稿共87张,创作于星期二 这表示在消费支出的变异中,有这表示在消费支出的变异中,有97.66%的变异的变异是由收入的变异所解释。即家庭每月的消费支出的是由收入的变异所解释。即家庭每月的消费支出的97.66%取决于收入。取决于收入。第47页,讲稿共87张,创作于星期二2022/9/16482.4用样本可决系数检验回归方程用样本可决系数检验回归方程的拟合优度的拟合优度3 样本相关系数样本相关系数 样本相关系
40、数是变量样本相关系数是变量X与与Y之间线性相关程度的度量指标之间线性相关程度的度量指标,其定义为:,其定义为:样本相关系数表示样本相关系数表示x和和y的线性相的线性相 关关系的密切程度。其关关系的密切程度。其取值范围为取值范围为|r|1,即,即-1 r 1。当当r=-1时,表示时,表示x与与y之间完全负相关之间完全负相关;当当r=1时,表示时,表示x与与y之间完全正相关;当之间完全正相关;当r=0时,表示时,表示x与与y之间无线性相关关系之间无线性相关关系,即说明,即说明x与与y可能无相关关系或可能无相关关系或x与与y之间存在非线性相关之间存在非线性相关 关系关系第48页,讲稿共87张,创作于
41、星期二下表列出若干对自变量与因变量。对每一对变量,你认为下表列出若干对自变量与因变量。对每一对变量,你认为它们之间的关系如何?是正的、负的、还是无法确定?并它们之间的关系如何?是正的、负的、还是无法确定?并说明理由。说明理由。因因变变量量自自变变量量个人个人储储蓄蓄利率利率小麦小麦产产出出降雨量降雨量美国国防开支美国国防开支前前苏联苏联国防开支国防开支老老师师的的计计量量经济经济学教学学教学学生的学生的计计量量经济经济学成学成绩绩总统总统声誉声誉任任职时间职时间学生学生计计量量经济经济学成学成绩绩其其统计统计学成学成绩绩日本汽日本汽车车的的进进口量口量美国人均国民收入美国人均国民收入第49页,
42、讲稿共87张,创作于星期二2022/9/16502.4用样本可决系数检验回归方程用样本可决系数检验回归方程的拟合优度的拟合优度样本相关系数的检验样本相关系数的检验 由于一元线性回归方程研究的是变量由于一元线性回归方程研究的是变量x与变量与变量y之间的线之间的线性相关关系,所以我们可以用反映变量性相关关系,所以我们可以用反映变量x与变量与变量y之间的相之间的相关关系密切程度的相关系数来检验回归方程的显著性。关关系密切程度的相关系数来检验回归方程的显著性。检验的步骤为:检验的步骤为:(1)提出原假设)提出原假设H0:=0 备择假设备择假设H1:(2)构造)构造t统计量统计量 第50页,讲稿共87张
43、,创作于星期二2022/9/16512.4用样本可决系数检验回归方程用样本可决系数检验回归方程的拟合优度的拟合优度(3)给出显著性水平)给出显著性水平 ,查自由度,查自由度v=n-2的的t分布表,得分布表,得临界值临界值(4)当)当 时,接受原假设,认为总体相关系数等于零,时,接受原假设,认为总体相关系数等于零,X与与Y之间没有显著的线性相关关系之间没有显著的线性相关关系 当当 时,拒绝原假设,接受备择假设,认为时,拒绝原假设,接受备择假设,认为X与与Y 之间具有显著的线性相关关系。之间具有显著的线性相关关系。第51页,讲稿共87张,创作于星期二2022/9/16522.5回归系数估计值的显著
44、性检验回归系数估计值的显著性检验与置信区间与置信区间1 随机变量随机变量u的方差的方差 我们在证明最小二乘估计量的有效性的时候已经得出参我们在证明最小二乘估计量的有效性的时候已经得出参数数 和和 的概率分布为:的概率分布为:在估计的参数在估计的参数 和和 的方差表达式中,都还有随机扰的方差表达式中,都还有随机扰动项动项ui的方差的方差 ,由于,由于 实际上是未知的,因此实际上是未知的,因此 和和 的方差实际上是无法计算的,这就需要对其进行估计。的方差实际上是无法计算的,这就需要对其进行估计。第52页,讲稿共87张,创作于星期二2022/9/16532.5回归系数估计值的显著性检验回归系数估计值
45、的显著性检验与置信区间与置信区间 由于随机项由于随机项u ui i不可观测,只能从不可观测,只能从ui i的估计的估计残差残差ei i出发,出发,对总体方差进行估计对总体方差进行估计。可以证明可以证明 的最小二乘估计量为的最小二乘估计量为 它是关于它是关于 的无偏估计量的无偏估计量 第53页,讲稿共87张,创作于星期二在随机误差项ui的方差估计出后,参数0b和1b的方差方差和标准差标准差 的估计量分别是:1b的样本方差:=221ixSb 1b的样本标准差:=21ixSb 0b的样本方差:=2220iixnXSb 0b的样本标准差:=220iixnXSb 第54页,讲稿共87张,创作于星期二20
46、22/9/16552.5回归系数估计值的显著性检验回归系数估计值的显著性检验与置信区间与置信区间2 回归系数估计值的显著性检验回归系数估计值的显著性检验t检验检验 回归分析回归分析是要判断是要判断解释变量解释变量X是否是是否是被解释变量被解释变量Y的一个显著性的影响因素。的一个显著性的影响因素。在在一元线性模型一元线性模型中,就是要判断中,就是要判断X是否对是否对Y具有具有显著的线性性影响。这就需要进行显著的线性性影响。这就需要进行变量的显著性检变量的显著性检验。验。即是检验系数即是检验系数 是否显著地不等于零是否显著地不等于零,也就是也就是 检验样本是否取自其真实参数为零的总体检验样本是否取
47、自其真实参数为零的总体.第55页,讲稿共87张,创作于星期二第56页,讲稿共87张,创作于星期二 检验步骤:检验步骤:(1)对总体参数提出假设)对总体参数提出假设 H0:1=0,H1:1 0(2)以原假设)以原假设H0构造构造t统计量,并由样本计算其值统计量,并由样本计算其值(3)给定显著性水平)给定显著性水平,查,查t分布表,得临界值分布表,得临界值t /2(n-2)(4)比较,判断比较,判断 若若|t|t /2(n-2),则拒绝,则拒绝H0,接受,接受H1;若若|t|t /2(n-2),则拒绝,则拒绝H1,接受,接受H0;t=第57页,讲稿共87张,创作于星期二 对于一元线性回归方程中的对
48、于一元线性回归方程中的 0 0,可构造如下,可构造如下t统统计量进行显著性检验:计量进行显著性检验:在上述收入在上述收入-消费支出例中,首先计算消费支出例中,首先计算 的估计值的估计值 第58页,讲稿共87张,创作于星期二t t统计量的计算结果分别为:统计量的计算结果分别为:给定显著性水平给定显著性水平=0.05,查,查t分布表得临界值分布表得临界值 t 0.05/2(8)=2.306|t1|2.306,说明,说明家庭可支配收入在家庭可支配收入在95%95%的置信度下的置信度下显著,即是消费支出的主要解释变量;显著,即是消费支出的主要解释变量;|t|t0 0|2.306,表表明明在在95%95
49、%的的置置信信度度下下,无无法法拒拒绝绝截截距距项为零的假设。项为零的假设。第59页,讲稿共87张,创作于星期二3 回归系数回归系数 的置信区间的置信区间 为了反映回归系数的估计精度,需为了反映回归系数的估计精度,需给出其区间估计,即在置信水平为给出其区间估计,即在置信水平为 下下的置信区间。置信区间长度越短,的置信区间。置信区间长度越短,说明估计值说明估计值 和和 与与 参数参数 和和 就越接近,估计值就越就越接近,估计值就越精确;反之,就越不精确精确;反之,就越不精确第60页,讲稿共87张,创作于星期二区间估计的区间估计的步骤步骤:1)找一个含有该参数的统计量找一个含有该参数的统计量;2)
50、构造一个概率为构造一个概率为 的事件的事件;3)通过该事件解出该参数的区间估计通过该事件解出该参数的区间估计.第61页,讲稿共87张,创作于星期二 1.对于参数对于参数 ,我们知道统计量,我们知道统计量 中含有参中含有参数数2.构造关于统计量构造关于统计量t的概率为的概率为 的事件的事件 事件为:事件为:把把 代入上面的式子整理得到:代入上面的式子整理得到:3.得到得到 的的 的的 置信区间置信区间 第62页,讲稿共87张,创作于星期二根据同样的方法我们可以求出根据同样的方法我们可以求出 的置信区间的置信区间第63页,讲稿共87张,创作于星期二2.6一元线性回归方程的预测一元线性回归方程的预测