《数理统计课件 61回归分析.pdf》由会员分享,可在线阅读,更多相关《数理统计课件 61回归分析.pdf(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第六章第六章 回归分析回归分析 回归分析是研究变量之间相关关系的数学方法。回归分析是研究变量之间相关关系的数学方法。在自然界中,变量之间的关系是多种多样的,但大致分为两类:确定性关系,相关关系在自然界中,变量之间的关系是多种多样的,但大致分为两类:确定性关系,相关关系 例例1 圆面积 圆面积 s 与半径与半径 r 之间的关系是确定性关系之间的关系是确定性关系 例例2 人的年龄 人的年龄 x 与血压与血压 Y 之间的关系是非确定性关系之间的关系是非确定性关系 例例3 一个学生的高考成绩 一个学生的高考成绩 x 与大学在校成绩与大学在校成绩 Y 之间的关系是非确定性关系之间的关系是非确定性关系 例
2、例4 小麦的亩产量 小麦的亩产量Y与施肥量与施肥量x之间的关系是非确定性关系之间的关系是非确定性关系 通常称变量之间的非确定性关系为通常称变量之间的非确定性关系为相关关系相关关系 类似的例子还很多。对这类问题,人们经常需要寻找存在于两个类似的例子还很多。对这类问题,人们经常需要寻找存在于两个(或多个或多个)变量之间的函数关系,并希望利用观测数据拟合系统的数学模型,其中最简单的模型是线性模型。本章先从一元线性回归模型分析开始,介绍线性回归分析的主要内容和方法,然后讨论多元线性回归分析。变量之间的函数关系,并希望利用观测数据拟合系统的数学模型,其中最简单的模型是线性模型。本章先从一元线性回归模型分
3、析开始,介绍线性回归分析的主要内容和方法,然后讨论多元线性回归分析。6.1 一元线性回归一元线性回归 一、一、一元线性回归模型一元线性回归模型 例例 6.1 在农业生产中,小麦的亩产量在农业生产中,小麦的亩产量Y与施肥量与施肥量x有一定关系,在一定范围内,若施肥量较大,则小麦的亩产也较大,但我们希望知道有一定关系,在一定范围内,若施肥量较大,则小麦的亩产也较大,但我们希望知道Y与与x间的函数关系。间的函数关系。按照数理统计处理问题的方法,先做一些试验,分别给按照数理统计处理问题的方法,先做一些试验,分别给x赋赋n个不同的值个不同的值1(,)?Tnxx,假设其他条件不变,则相应地得到,假设其他条
4、件不变,则相应地得到n个个Y的观测值的观测值1(,)?Tnyy。一般可假设。一般可假设Y为随机变量,为随机变量,x为非随机变量,在此基础上寻求它们之间的关系为非随机变量,在此基础上寻求它们之间的关系 (,)Yf x=这里这里 为随机变量为随机变量(通常表示误差通常表示误差),f为未知函数,当为未知函数,当f为线性函数且为线性函数且2(0,)N 时,考虑如下数学模型时,考虑如下数学模型 Yx=+=+我们希望利用试验得到的数据,估计上式中的未知参数我们希望利用试验得到的数据,估计上式中的未知参数,2,并进行某些假设检验及亩产量,并进行某些假设检验及亩产量Y的预测。的预测。现把例现把例 6.1 中的
5、模型做一般性的描述,进而给出一元线性回归模型的定义。设随机变量中的模型做一般性的描述,进而给出一元线性回归模型的定义。设随机变量Y和非随机变量和非随机变量x(也称为可控制变量)服从线性关系(也称为可控制变量)服从线性关系 Yx=+=+,(6.1)(,)(1,)?iiY xin=是是(,)Y x的的n个观测,它们满足关系个观测,它们满足关系 2(0,),1,?iiiiYxNin=+=+=(6.2)其中其中i 相互独立相互独立.称上述模型为一元线性回归模型,或一元线性正态回归模型。称上述模型为一元线性回归模型,或一元线性正态回归模型。关于定义中的假设需注意以下几点:关于定义中的假设需注意以下几点:
6、(1)由于假设由于假设i 相互独立且服从相互独立且服从2(0,)N,则则iY亦相互独亦相互独 立服从立服从(,iNx +2),但均值不等。一般将但均值不等。一般将(,)iiY x1,?in=称为回归观测值称为回归观测值(或回归样本或回归样本),它与一般简单样本是不同的;,它与一般简单样本是不同的;(2)关于关于Y与与x的线性假设是根据实际问题提出的,也是为了数学上处理的方便,有时的线性假设是根据实际问题提出的,也是为了数学上处理的方便,有时Y与与x间的关系是非线性的。间的关系是非线性的。(3)由假设知由假设知iiEYx =+,故,故iiiYEY=+。对于一元线性回归模型,通常所考虑的统计推断问
7、题是:对于一元线性回归模型,通常所考虑的统计推断问题是:1.利用已知的观测值利用已知的观测值(,)iiy x(1,?in=),估计未知参数,估计未知参数,和和2;2.对对,的某种假设进行检验,的某种假设进行检验,3.对对Y进行预报等。进行预报等。二、未知参数的估计 二、未知参数的估计 1.1.(,)的最小二乘估计 对一组回归观测值的最小二乘估计 对一组回归观测值(,)iiy x(1,?in=),它满足:,它满足:iiiyx=+=+,2(0,)iN ,1,?in=最小二乘法是寻找未知参数最小二乘法是寻找未知参数(,)的估计的估计(,),使得,使得 22,11()min()nniiiiiiyxyx
8、 =(6.4)满足式满足式(6.4)的估计的估计,称为称为(,)的最小二乘估计。的最小二乘估计。一般采用微分法求解。记一般采用微分法求解。记 21(,)()niiiQyx =,令令 (,)(,)(,)(,)0,0,QQ =(6.5)则则(6.5)式可写为式可写为 211,nniiiiinnxnynxxx y=+=+=+=+=(6.6)其中其中1111,nniiiixxyynn=.由于假设由于假设ix互不相同,故互不相同,故(6.6)式的系数行列式 式的系数行列式 2222111()0nnniiiiiinnxnxnxnxxnxx=故方程组故方程组(6.6)有惟一解,其解为有惟一解,其解为 112
9、2211()()()nniiiiiinniiiiyxx ynxyxxyyxnxxx=上述推导是对一组回归观测值上述推导是对一组回归观测值(,)iiy x(1,?in=)做出的,若将做出的,若将(,)iiy x换为换为(,)iiY x时便得时便得(,)的最小二乘估计量 的最小二乘估计量 121()()()niiiniiYxxx YYxx=(6.7)2.(,)的最大似然估计 的最大似然估计 由于由于iY(1,)?in=相互独立且相互独立且2(,)iiYNx+,则,则1(,)?nYY的联合概率密度函数为 的联合概率密度函数为 22111exp()22niiiLyx=22111()exp()22nni
10、iiyx=要求要求(,)使似然函数使似然函数L取得最大值,只要 取得最大值,只要 21(,)()niiiQyx =取得最小值即可。这回到了最小二乘估计的情形,也即对一元正态线性回归模型、最小二乘估计与最大似然估 取得最小值即可。这回到了最小二乘估计的情形,也即对一元正态线性回归模型、最小二乘估计与最大似然估计是等价的。将计是等价的。将,代入代入EYx =+=+,得,得 Yx =+=+,(6.8)一般将式一般将式(6.8)称为称为Y关于关于x的线性回归方程。的线性回归方程。3.3.2 的估计 的估计 由于由于22DE=,故可以用,故可以用211niin=对对2 做估计,而做估计,而iiiYx=是
11、未知的,以是未知的,以,的相应估计量代入,可得 的相应估计量代入,可得 2211()niiiYxn=(6.9)式 式(6.9)可看作近似矩估计。由于可看作近似矩估计。由于Yx =,为计算方便起见,将为计算方便起见,将2 变形,可写为变形,可写为 21()niiiYx=1(niiYY=+=+x 2)ix =222111()2()()()nnniiiiiiiYYxx YYxx=+221()2niiYY=22211()()nniiiixxxx=+=22211()()nniiiiYYxx=即即 22221111()()nniiiiYYxxnn=例例6.2 表表6.1给出了给出了12个父亲和他们长子的身
12、高分别为个父亲和他们长子的身高分别为(,)(1,12)?iixyi=这样一组观测值:这样一组观测值:(1)做做(,)iixy的散点图;的散点图;(2)求求Y关于关于x的线性回归方程。表 6.1(单位:in)的线性回归方程。表 6.1(单位:in)父亲的身高父亲的身高x 65 63 67 64 68 62 70 66 68 67 69 71 儿子的身高儿子的身高Y 68 66 68 65 69 66 68 65 71 67 68 70 解:解:(1)图图 6.1 给出表给出表 6.1 的散点图的散点图(2)将表将表 6.1 的数据代入式的数据代入式(6.6)中,有中,有 128008118005
13、341854107+=+=+=+=进而可求得进而可求得 35.82,0.476=因此,得到因此,得到Y关于关于x的线性回归方程:的线性回归方程:35.820.476Yx=+=+这个例子表明虽然高个子的先代会有高个子的后代,但后代的增高并不与先代的增高等量。例如,若父亲身高超过祖父身高这个例子表明虽然高个子的先代会有高个子的后代,但后代的增高并不与先代的增高等量。例如,若父亲身高超过祖父身高 6in。则儿子超过父亲身高大约为。则儿子超过父亲身高大约为3in。称这一现象为向平常高度的回归,回归一词即来源于此。称这一现象为向平常高度的回归,回归一词即来源于此。回归这个术语最早是英国生物学家高尔顿在研
14、究遗传现象时引进的(回归这个术语最早是英国生物学家高尔顿在研究遗传现象时引进的(1866 年)年).作为统计术语一直沿用至作为统计术语一直沿用至今,不过当时高尔顿,皮尔逊和今,不过当时高尔顿,皮尔逊和 A.Lee 研究了研究了 1087 个家庭,得到的线性回归方程为个家庭,得到的线性回归方程为 0.51633.73Yx=+=+在例在例 6.2 中,对数据做了简化后只列出中,对数据做了简化后只列出 12 个家庭,当然方程也有所不同。一般称个家庭,当然方程也有所不同。一般称2 =为估计的标准差。为估计的标准差。三、参数估计量的分布三、参数估计量的分布 为了对参数估计量进行检验,先讨论它们的分布。为
15、了对参数估计量进行检验,先讨论它们的分布。1、的分布的分布 1122111()()()()()nniiiiniiiinniiiiixx YYxx YaYxxxx=这 里这 里21()()iiniixxaxx=,由 于,由 于1(,)nYY?相 互 独 立 且相 互 独 立 且2(,)iiYNx+分布,则分布,则 服从正态分布,均值为服从正态分布,均值为 12111()()()()()niinniiiiiniiiixxxxEa EYaxxx=+=+=,说明说明 是是 的无偏估计。方差为的无偏估计。方差为 222212 22111()()()()niniiinniiiiixxDa DYxxxx=故
16、故 221(,/()niiNxx =2.的分布的分布 由由 211()1()niinijjxx xYxYnxx=知知 亦服从正态分布,均值亦服从正态分布,均值 11()niiEEYExxxn=+=+=,即即 亦是亦是 的无偏估计。由于的无偏估计。由于111()()0nnniiiiiixx xxxxxxnxnxnx=故故 的方差为的方差为 221122222122211()1()()11()()niinijjniinniiiixx xDDYnxxxxxxnnxxxx =+=+=+=+故故 22211,()niixNnxx=+,3.当当0 xx=时,回归方程时,回归方程00Yx=+=+的分布的分布
17、 由由000211()()1()niinijjxxxxYxYnxx=+=+=+=+,知知0Y为为1(,)TnYY?的线性组合,的线性组合,0Y服从正态分布,从而服从正态分布,从而 000()EYExx =+=+=+=+22200022111()()()11()()niinnijjjjxxxxxxDYDYnnxxxx=+=+=+=+,所以所以 2200021()1,()njjxxYNxnxx=+。4.2 的分布的分布 2221122122221222212221()()()()()()(1)()(1)()nniiiiniiiniiniiniiEYYEYnE YDYEYn DYEYxnxnnxnx
18、nxx=+=+=+=+=+=+=+=+(E 222211()()()nniiiixxxxE=D=niiExx221()()=+2222112221()()()niniiiniixxxxxx=+=+=+=+进而有进而有 222211()()(2)nniiiiEYYxxn =所以所以 222nEn =,说明说明2 不是不是2 的无偏估计,若记的无偏估计,若记 2*211()2niiiYxn=,则有则有 2*2E =,即,即2*是是2 的无偏估计,一般称的无偏估计,一般称2*为为2 的修正估计,的修正估计,*为估计的修正标准差。为估计的修正标准差。定理定理 6.1 假设假设(,)iiY x满足式满足
19、式(6.2)和式和式(6.3),则,则 2*22(2)(2)nn (6.10)且且2*分别与分别与,独立。独立。在下节将给出一般多元情形的证明,这里关于一元的证明略去。在下节将给出一般多元情形的证明,这里关于一元的证明略去。四、参数四、参数 的显著性检验的显著性检验 对于给定的一组回归观测值,当它们之间存在线性对于给定的一组回归观测值,当它们之间存在线性关系时,可按参数估计的讨论,得到一元线性回归方程。但要注意,当两变量之间不存在线性关系时,也能按参数估计公式求出一个直线方程。所以,严格来讲需对有关假设进行检验。关系时,可按参数估计的讨论,得到一元线性回归方程。但要注意,当两变量之间不存在线性
20、关系时,也能按参数估计公式求出一个直线方程。所以,严格来讲需对有关假设进行检验。检验一元线性正态回归模型是否成立检验一元线性正态回归模型是否成立,一般需检验:一般需检验:(1).在给定在给定x的情况下,的情况下,Y服从正态分布且方差相同;服从正态分布且方差相同;(2).对于给定的范围,对于给定的范围,EY是是x的线性函数;的线性函数;(3).12,nY YY?相互独立。相互独立。本节主要对本节主要对EY是否是是否是x的线性函数做检验,这可以转化为检验假设:的线性函数做检验,这可以转化为检验假设:01:0:0HH =是否成立。当是否成立。当0H成立时,可认为成立时,可认为Y与与x的线性回归是不显
21、著的,所求的回归方程无意义;若的线性回归是不显著的,所求的回归方程无意义;若0H不成立,则认为所求回归方程有意义。但应注意,当不成立,则认为所求回归方程有意义。但应注意,当0H成立时,成立时,Y与与x可能有以下几种情况:可能有以下几种情况:(1)除了除了x之外,影响之外,影响Y的可能还有其他变量;的可能还有其他变量;(2)Y与与x有关系,但不是线性的;有关系,但不是线性的;(3)Y与与x无关。无关。为了检验假设为了检验假设 01:0:0HH =我们构造统计量我们构造统计量 2*1()niiTxx=,(6.11)由于由于221(,/()niiNxx =,故,故221(0,1)/()niiUNxx
22、=又又2*22(2)(2)nVn=,且,且 U 与与 V 独立,于是当独立,于是当0H成成 立时,立时,2*1()(2)/(2)niiUxxt nVn=有了有了T的分布,根据假设检验方法,对于给定的显著性水平的分布,根据假设检验方法,对于给定的显著性水平,查,查 t 分布表得到临界值分布表得到临界值2(2)tn ,使得,使得 2|(2)P Ttn =拒绝域为拒绝域为2W|(2)Ttn.对给定的一组回归观测值,代入式对给定的一组回归观测值,代入式(6.11)计算得计算得T的值的值t,若若2|(2)ttn,则拒绝,则拒绝0H,否则接受,否则接受0H。例例 6.3 对例对例 6.2 中的参数估计中的
23、参数估计 进行检验,取进行检验,取0.05=解解 对对0.05=,210n=,查表得,查表得 0.0250.025(10)2.2281,3.128|3.1282.2281(10)tttt=拒绝拒绝0H,说明,说明Y与与x的线性回归是显著的。的线性回归是显著的。五、预测五、预测 下面讨论回归分析中的预测问题。所谓预测问题是指,给定自变量下面讨论回归分析中的预测问题。所谓预测问题是指,给定自变量x的某个观察值的某个观察值0 x,对因变量,对因变量 Y 的相应取值的相应取值0Y作区间估计作区间估计.当当0 xx=(0 x与与12,nxxx?都不相同)时,我们有都不相同)时,我们有 000Yx=+,0
24、0Yx=+=+其中其中20(0,)N ,0 与与12,n?相互独立,则相互独立,则0Y与与12,nY YY?相互独立,考虑:相互独立,考虑:0000()YYYx=+=+由于由于0Y,0Y相互独立,且均服从正态分布,故相互独立,且均服从正态分布,故00YY 服从正态分布,由服从正态分布,由 0000()()0E YYEYx=+=+=,00()D YY 2200021()11()niixxDYDYnxx=+=+=+=+可知可知 2200021()10,1()niixxYYNnxx=+根据根据00YY 与与2*相互独立,相互独立,2*22(2)(2)nn ,则,则 002*021()(2)()11(
25、)niiYxTt nxxnxx=+=+=+对于给定的置信度对于给定的置信度1 ,查,查t分布表可得临界值分布表可得临界值2(2)tn ,使得,使得 2|(2)1P Ttn =,于是可得于是可得0Y的置信区间的置信区间 0 x +*2(2)tn 2021()11,()niixxnxx=+2*00221()1(2)1()niixxxtnnxx=+(6.12)令令 2*00221()1()(2)1()niixxxtnnxx=+=+,于是在于是在0 xx=处,处,0Y的置信下限为的置信下限为 100000()()()y xxxYx=+=+=置信上限为置信上限为 200000()()()yxxxYx=+=+=+=+当当0 x变动时,可得曲线变动时,可得曲线 12()()()()y xYxyxYx=+=+这两条曲线形成一个包含回归直线的带形域(如图这两条曲线形成一个包含回归直线的带形域(如图 6.2所示 所示