ch07相关与回归分析.ppt

上传人:赵** 文档编号:64017256 上传时间:2022-11-28 格式:PPT 页数:85 大小:1,012.50KB
返回 下载 相关 举报
ch07相关与回归分析.ppt_第1页
第1页 / 共85页
ch07相关与回归分析.ppt_第2页
第2页 / 共85页
点击查看更多>>
资源描述

《ch07相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《ch07相关与回归分析.ppt(85页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Ch7 相关与回归分析统计学原理统计学原理n7.1 相关与回归的基本概念n7.2 相关分析n7.3 一元线性回归分析n7.4 多元线性回归分析(new)n7.5 回归诊断与残差分析(new)主要介绍:相关分析,回归技术,回归诊断方法。Ch7 主要内容Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)Ch7 学习目的学习目的1,掌握相关与回归的基本概念2,掌握相关分析技术3,掌握一元线性回归方法4

2、,掌握多元线性回归方法5,掌握回归诊断方法Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)Ch7 相关与回归分析统计学原理统计学原理n7.1 相关与回归的基本概念n7.2 相关分析n7.3 一元线性回归分析n7.4 多元线性回归分析(new)n7.5 回归诊断与残差分析(new)7.1 相关与回归的基本概念n7.1.1 确定性关系与相关关系n7.1.2 回归函数与经验方程n7.1.3 相关与回

3、归分析n7.1.4 相关表与相关图n7.1.5 相关关系的种类Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)返回n关系给定一个X,就可以确定一个Y,Y值随X的值变化。Y(X=X t)是这两个变量之间的函数表达式。这个函数表达式,对应着一个具体的因果数学定理。特征是,“2个以上变量的变化方向大致是规则的”,变量Y,X之间的近似规则关系,只是一个经验关系是Y与(X=X t)的偏差,且总假定E()

4、=0关系确定性关系相关关系经验关系Y (X=X t)+函数关系统计关系Y (X=X t)7.1.1 确定性关系与相关关系Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念 7.1.1 确定性关系与相关关系n确定性关系也叫函数关系。n Y(X=X t),(7.1.1)n即只要给定一个X,就可以确定一个Y,Y值随X的值变化,则变量Y,X之间,就是一种确定性的函数关系。Y(X=X t)是这两个变量之间的函数表达式。这个函数表达式,对应着一个具体的因果数学定理。nn相关关系也叫统计关系或者经验关系。n相关关系的特征是,“2个以上变量的变化方向大致是规则的”,n变量Y,

5、X之间的某种近似规则关系,不是一种精确的确定性关系,只是一个经验关系n Y(X=X t)+;(7.1.2)n是Y与(X=X t)的偏差,且总假定E()=0。n这种经验关系就是统计相关关系。n统计相关关系,常常表现为一种统计定律。统计定律和相关关系,是相关回归分析的主要研究对象。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念返回 7.1.2 回归函数与经验方程n存在统计相关关系的变量Y,X之间,有nY(X=X t)+;(7.1.2)n因为,E()=0,所以,E(Y|X=X t)(X t)是给定X=X t条件下Y的期望值,(X t)就是Y关于X的期望函数。它实

6、际反映的是Y,X之间存在的统计规律。n因为统计规律,总是可以在日常的实践过程中,不断回归重现。于是,期望函数,也称为Y关于X的回归方程或回归函数,记为n (X=X t)E(Y|X=X t)(7.1.3)n回归函数的具体表达式,通常也叫经验函数或者经验公式。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念返回 7.1.3 相关与回归分析n相关与回归分析:n是研究相关关系的一种有力数学工具。它是建立在对客观事物进行大量试验和观察的基础上,在不确定的现象中,寻找隐藏的统计规律性的数理统计方法。具体步骤是:n第一步,根据研究的目的,通过观察和实验取得资料。n第二步,

7、整理资料。分组编制相关表,以便进行分析。n第三步,绘制相关图。把成对的相关资料,绘成散布图或曲线图,从图形中,初步判断变量之间是否存在相关关系,以及相关的基本形式。n第四步,相关关系的解析。建立回归方程,计算估计标准误差、相关系数等,以反映变量之间的关系、误差大小及密切程度,并运用数理统计方法,进行检验和评价。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念返回 7.1.4 相关表与相关图n相关表与相关图,是研究相关关系的直观工具。一般在进行详细的定量分析之前,可以先利用它们,对现象之间存在的相关方向、形式和密切程度,作大致的判断。n相关表,是一种反映变量之

8、间相关关系的统计表。将某一变量,按其取值的大小顺序排列,然后再将与其相关的另一变量的值,对应排列,便可得到简单的相关表。n利用相关表,便可得到相关图。相关图又称散布图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量的值,用坐标点(Xt,Y t)的形式描绘出来,用来反映两变量之间相关关系的图形。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念 7.1.4 相关表与相关图n【例7-1】利用某国1951-1970年的消费Y和可支配收入X数据,可整理得相关表与相关图。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念年

9、份序号t可支配收入Xt消费Yt19511226.6206.319522238.3216.719533252.623019544257.4236.519555275.3254.419566293.2266.719577308.5281.419588318.8290.119599337.3311.2196010350325.2196111364.4335.2196212385.3355.1196313404.6375196414438.1401.2196515473.2432.8196616511.9466.3196717546.3492.1196818591.2535.8196919631.65

10、77.5197020684.7616.8图图71 消费消费Y 和可支配收入和可支配收入X相关图相关图YX0200200600400400600返回 7.1.5 相关关系的种类n按相关的程度可分为完全相关、不完全相关、不相关n按相关的方向可分为正相关、负相关n按相关的形式可分为线性相关和非线性相关n按所研究的变量的多少可分为单相关、复相关和偏相关Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念正线性相关正线性相关负线性相关负线性相关YX0YX=1+2X.0非线性相关非线性相关非线性相关非线性相关YX0YX图图72 线性相关与非线性相关线性相关与非线性相关0返回

11、 7.2 相关分析n7.2.1 相关系数n7.2.2 相关系数与相关程度n7.2.3 相关系数的检验n7.2.4 等级相关系数及其检验Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)返回 7.2.1 相关系数n相关系数也叫单相关系数。n它是在线性相关的条件下,用来测定变量Y,X之间相关程度的一个重要指标。通常以表示总体的相关系数,以表示样本的相关系数。n存在线性相关的变量总体(Y,X),定义为

12、n(7.2.1)n式中:Cov(X,Y)是变量X和Y的协方差,Var(X)和Var(Y)分别是X和Y的方差。n对来自总体(Y,X)的n组样本观察值(Y t,X t),t=1,2,3,n-1,n,记为n(7.2.2)n其中SX,Y=Cov(Xt,Yt)是样本(Y t,Xt)的协方差,SX和SY分别是X和Y 的样本标准差。样本相关系数,是根据样本观察值计算的。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析 7.2.1 相关系数n总体值为常数,在很多情况下,是无法直接按定义计算的,只能通过样本相关系数,去估计值。n容易证明,样本相关系数,是总体相关系数的一致估计量。n可以证明,存在线性

13、相关的变量之间,不论是总体相关系数,还是样本相关系数,均有0|1,0|1。n为便于计算,引进如下符号:nn(7.2.3)Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析 7.2.1 相关系数n【例7-2】利用某国1951-1970年的消费Y和可支配收入X数据,计算它们之间的相关系数。n解:根据相关系数的公式,有nn于是Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析年份序号t可支配收入Xt消费Yt19511226.6206.319522238.3216.719533252.623019544257.4236.519555275.3254.419566293.2266.7

14、19577308.5281.419588318.8290.119599337.3311.2196010350325.2196111364.4335.2196212385.3355.1196313404.6375196414438.1401.2196515473.2432.8196616511.9466.3196717546.3492.1196818591.2535.8196919631.6577.5197020684.7616.8年份序号t可支配收入Xt消费YtXtXtYtYtXtYt19511226.6206.351347.5642559.6946747.5819522238.3216.75

15、6786.8946958.8951639.6119533252.623063806.76529005809819544257.4236.566254.7655932.2560875.119555275.3254.475790.0964719.3670036.3219566293.2266.785966.2471128.8978196.4419577308.5281.495172.2579185.9686811.919588318.8290.1101633.484158.0192483.8819599337.3311.2113771.396845.44104967.8196010350325.2

16、122500105755113820196111364.4335.2132787.4112359122146.9196212385.3355.1148456.1126096136820196313404.6375163701.2140625151725196414438.1401.2191931.6160961.4175765.7196515473.2432.8223918.2187315.8204801196616511.9466.3262041.6217435.7238699196717546.3492.1298443.7242162.4268834.2196818591.2535.834

17、9517.4287081.6316765196919631.6577.5398918.6333506.3364749197020684.7616.8468814.1380442.2422323合计-7889.37206.3347155928881293166305平均-394.465360.315173578144406.5158315.3返回 7.2.2 相关系数与相关程度n如果|=1,表明(Y,X)之间是完全线性相关,完全线性相关,是一种精确的线性函数关系;n如果|=0,表明(Y,X)之间没有关系或者线性无关;n如果0|1,(Y,X)是一种线性统计关系,线性统计关系,是最常见的相关关系;0

18、1是正的线性相关;-10是负的线性相关。n|值越大,则线性关比较系密切,反之,则线性关系不密切。n同理,|=1,表示样本(Y t,X t)为完全线性相关;=1,表示(Y t,X t)为完全正线性相关,样本的所有点(Y t,X t)都在一条直线上;=-1,表示(Y t,X t)为完全负线性相关,样本的所有点(Y t,X t)也都在一条直线上;n=0,表示样本点(Y t,X t)在散点图上的分布是杂乱无章的,(Y t,X t)之间无相关关系;n0|t/2,拒绝H0,表示Y,X之间相关显著。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析 7.2.3 相关系数的检验nF统计量检验n作统计

19、假设n零假设H0:=0,备择假设H1:0。n计算样本相关系数的F值n,n选择显著性水平,取=1%或者=5%。根据和自由度1,n-2,求F分布的两个 临 界 值 F1-/2(1,n-2),F/2(1,n-2),且 F1-/2(1,n-2)F/2(1,n-2)或FF1-/2(1,n-2),拒绝H0,表示Y,X之间相关显著。n说明:F检验是双侧检验,有两个临界值F1-/2(1,n-2),F/2(1,n-2),且F1-/2(1,n-2)/2,拒绝H0,表示Y,X之间相关显著。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析 7.2.3 相关系数的检验n【例7-3】利用某国1951-1970

20、年的消费Y和可支配收入X的相关系数,在=5%时,是否可以认为Y和X之间存在显著性的线性相关关系。n解:作统计假设nH0:=0,H1:0。n计算样本相关系数的t值。已知=0.999689,求得t=170.071。n选择显著性水平,取=5%。根据和自由度n-2,求得t分布的临界值t/2(n-2)=t2.5%(20-2)=2.102。因为|t|=170.071t/2=2.102,所以拒绝H0,表示Y,X之间相关显著。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析返回 7.2.4 等级相关系数及其检验n等级相关系数(又称为顺序相关系数)。n设有Xt和Yt两个数列,依数量的大小或者品质的优

21、劣,分为1,2,3,n-1,n个等级,以VX,t表示各个Xt的等级数,以VY,t表示各个Yt的等级数,则等级相关系数s为n(7.2.6)n式中,n是样本容量。n该公式可由两个等级变量的相关系数,推导而来。n与相关系数类似,s的取值范围为0|s|1。s为正值,存在正的等级相关关系,s取负值,存在负的等级相关。s=1,表明两种现象的等级完全相同,存在完全正相关;s=-1,表明两种现象的等级完全相反,存在完全负相关。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析非参数相关分析。多做定性研究。7.2.4 等级相关系数及其检验n等级相关系数检验。n当样本容量n20时,可利用以下的t统计量,

22、进行s的检验n(7.2.7)n当总体等级相关系数s=0时,可以证明:t统计量服从自由度为n-2的t分布。在给定显著性水平下,如果|t|t/2(n-2),接受H0,表示Y,X之间相关不显著;若|t|t/2(n-2),拒绝H0,表示Y,X之间相关显著。n同样也可以参照样本相关系数的检验方法,构造新的统计量t2去进行F检验,或者直接查相关系数表检验。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析 7.2.4 等级相关系数及其检验n【例7-4】某校对学生某专业课程的复习时间和考试成绩进行调查。抽查10同学的有关数据如下表。计算复习时间与考试成绩的相关系数和等级相关系数。根据以上结果,能否

23、得出复习时间越长考试成绩越高的结论。n解:Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析序号t 复习时间 考试成绩 Dt2=(VX,t-VX,t)2 时间Xt 排队等级VX,t 成绩Yt 排队等级VX,t 133863024487403114104228520555936168691517108958.5 0.25 89794709119958.5 0.25 10131096100合计-55-552.5 7.2.4 等级相关系数及其检验n解:首先对复习时间X与考试成绩Y按从小到大的顺序确定等级。对于Xt或者Yt相同的,取其应得等级的平均数。n其次,计算相关系数。根据公式,得=0.

24、587,t=2.05。在=5%、自由度=n-2=8条件下,得t/2(n-2)=2.306。因为|t|=2.05t/2(n-2)=2.306,表示Y,X之间相关不显著,难以判断复习时间X与考试成绩Y之间存在显著的线性关系。n最后,计算等级相关系数s。根据公式,得s=0.9848,ts=16.04。在=5%、自 由 度=n-2=8条 件 下,得 t/2(n-2)=2.306。因 为|ts|=16.04t/2(n-2)=2.306,表示Y,X之间相关显著,存在复习时间越长考试成绩越高的现象。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析返回 7.3 一元线性回归分析n7.3.1 标准的

25、一元线性回归模型n7.3.2 一元线性回归模型的估计n7.3.3 一元线性回归模型的检验n7.3.4 误差项t的自相关检验 n7.3.5 一元线性回归模型的预测Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)返回 7.3.1 标准的一元线性回归模型n总体回归函数n设因变量为Y,自变量为X;若Y的数学期望存在,且服从如下的分布n YN(1+2X,2)(7.3.1)n式中1,2和2是不依赖于X的未

26、知参数。则方程n Y=1+2X+u;uN(0,2)(7.3.2)n就称为一元线性回归模型(或称为相关方程)。其中,是随机误差项,E()=0。n又由于Y的数学期望是X的函数,n E(YX)=1+2X(7.3.3)nY的取值主要由X的取值决定,因此,E(YX)是一个关于X的回归期望,它从平均意义上表达了Y与X的统计规律性,于是,E(YX)也可以作为Y的估计,故n X=1+2X(7.3.4)n称为总体一元回归估计方程或者回归估计函数,1,2是这个回归方程中的回归系数,其图形表现为一条直线。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析 7.3.1 标准的一元线性回归模型

27、n误差项的标准假定n误差项的期望值恒为零,即nE(tXt)=0(7.3.5)n误差项的方差是同观察时点t无关的常数,即nVar(tXt)=E(t2Xt)=2(7.3.6)n时点不同的误差项之间不相关,即nCov(t,s)=E(ts)=0;ts(7.3.7)nt的概率分布与1,2和X无关。nX是给定的变量(确定变量),即X,不是有统计从属关系的随机变量。nCov(Xt,t)=E(Xtt)=0(7.3.8)nt服从正态分布,即nt N(0,2)(7.3.9)n以上假定最早是由德国数学家高斯提出来的,也称为高斯假定或者标准假定。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归

28、分析图图73 总体回归与随机误差总体回归与随机误差YX=1+2X.0Y=1+2X+u u t 7.3.1 标准的一元线性回归模型n满足以上假定的一元线性回归模型,称为标准的一元线性回归模型。满足假定的一元线性回归模型,称为标准线性正态回归模型。n应当指出的是,在现实的情况是由于种种原因,以上假定常常不能得到满足。其最一般的模型及回归函数为nY=1+2X+u,X=E(YX)=1+2X(7.3.10)nu为随机误差项,E(u)=0,E(2)=2,Y与u同分布,且均为非正态分布,我们以下的讨论均以(7.3.10)式为基础,其余变量的解释如前。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分

29、析一元线性回归分析图图73 总体回归与随机误差总体回归与随机误差YX=1+2X.0Y=1+2X+u u t 7.3.1 标准的一元线性回归模型n样本回归函数,就是根据样本资料(Yt,X t),对总体回归函数进行拟合的估计函数。由于样本(Yt,X t)来源于总体(Y,X),因此,样本回归线与总体回归线,有相同的函数形式。由样本关系方程n(7.3.11)n有样本回归函数n(7.3.12)n式中,Yt和X t分别是Y和X的第t次观察值;t为样本回归线上与X t相对应的值,它是对E(YtX t)的估计;为样本回归系数,是对总体回归系数的1,2的估计;t=Ytt是实际观察值与样本估计值之差,亦称残差,是

30、一个可计算的量;n为样本容量;是对2的估计。n样本回归函数是总体回归函数的近似反映。n回归分析的主要任务,就是充分利用样本的信息,采用适当的方法,使得样本回归函数,尽可能接近真实的总体回归函数。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析返回 7.3.2 一元线性回归模型的估计n回归系数的估计n最小二乘法,简记为OLS法。它的准则是使t的平方和最小,即n(7.3.15)n由极值条件,有联立方程n(7.3.16)n整理得正规方程组n(7.3.17)Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析 7.3.2 一元线性回归模型的估计n回归

31、系数的估计(续)n求解正规方程组,得n(7.3.18)n利用(7.2.3)式,则最小二乘估计量,又可简写为n(7.3.19)Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析 7.3.2 一元线性回归模型的估计n【例7-5】利用某国1951-1970年的消费Y和可支配收入X数据,建立消费对可支配收入的回归估计方程。n解:因为消费Y和可支配收入X之间是显著线性相关,所以,可以建立Y,X之间的一元回归估计模型nY=1+2X+u,X=E(YX)=1+2Xn根据最小二乘估计方法,得回归估计方程nX=5.168775+0.900324X,S=3.174108481,2=0.99

32、93781n(2.205544043)(0.005293811)d=1.225513nCh7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析年份序号t可支配收入Xt消费YtXtXtYtYtXtYtX,tt=Ytt19511226.6206.351347.5642559.6946747.58209.1821-2.88214653819522238.3216.756786.8946958.8951639.61219.7159-3.01593491319533252.623063806.765290058098232.5906-2.59056514819544257.4236.

33、566254.7655932.2560875.1236.9121-0.41211935319555275.3254.475790.0964719.3670036.32253.02791.37208475719566293.2266.785966.2471128.8978196.44269.1437-2.44371113219577308.5281.495172.2579185.9686811.9282.9187-1.5186651619588318.8290.1101633.484158.0192483.88292.192-2.09200022519599337.3311.2113771.39

34、6845.44104967.8308.8482.35200961196010350325.2122500105755113820320.28214.917897442196111364.4335.2132787.4112359122146.9333.24681.953234828196212385.3355.1148456.1126096136820352.06353.03646756196313404.6375163701.2140625151725369.43985.560218361196414438.1401.2191931.6160961.4175765.7399.60061.599

35、371305196515473.2432.8223918.2187315.8204801431.2021.598006182196616511.9466.3262041.6217435.7238699466.04450.255475404196717546.3492.1298443.7242162.4268834.2497.0157-4.915663065196818591.2535.8349517.4287081.6316765537.4402-1.640201357196919631.6577.5398918.6333506.3364749573.81333.686717418197020

36、684.7616.8468814.1380442.2422323621.6205-4.820475975合计2107889.37206.33471559288812931663057206.38.52651E-13平均10.5394.465360.315173578144406.5158315.3360.3154.26326E-14 7.3.2 一元线性回归模型的估计n最小二乘估计量的性质n可以证明,在高斯假定能够得到满足的条件下,n(7.3.20)n其方差n(7.3.21)n回归系数的最小二乘估计量,是最优的线性无偏估计量和一致估计量。n以上性质,在文献中被称为高斯马尔可夫定理。该定理表明,

37、在高斯假定条件下,最小二乘估计量,是一种最佳的估计方式。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析 7.3.2 一元线性回归模型的估计n随机误差项的方差估计n数学上可以证明,2的无偏估计S2可由下式给出:n(7.3.23)n在一元线性回归模型中,残差t必须满足1,2最小二乘估计要求所导出的两个约束条件:n(7.3.24)n因而失去了2个自由度,所以,残差t的自由度为n-2。nS越小,表明实际观测点与所拟的样本回归线的离差程度越小,即回归线具有较强的代表性;反之,S越大,表明实际观测点与所拟合的样本回归的离差程度越大,即回归线的代表性较差。因此,S又叫做回归估计

38、的标准误差。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析 7.3.2 一元线性回归模型的估计n【例7-6】利用例7-2、例7-5的有关数据,计算其消费对可支配收入回归估计方程的回归估计标准误差。n解:已知n=20,(Y)=7206.3,(Y2)=2888129,(XY)=3166305,n(2)=(Y2)-5.168775(Y)-0.900324(XY)n=2888129-5.1687757206.3-0.9003243166305n=181.3493637nS2=(2)/(n-2)=181.3493637/18=10.07496465nS=3.17410848

39、1nLXX=359506.4,(X)=7889.3,(X)/n=394.465n另 外 可 计 算 回 归 系 数1,2估 计 值 的 标 准 差 分 别 为(2.205544043)和(0.005293811)。n上述结果如果用Excel软件计算将更为简单。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析返回 7.3.3 一元线性回归模型的检验n回归模型检验的种类n包括理论意义检验、一级检验和二级检验。n理论意义检验,主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论及其人们的经验不相符,就说明模型不能很好地解释现实的现象。n一级检验,又称为统计学检验

40、,它是利用统计学的抽样理论,来检验回归方程的可靠性,具体可分为拟合程度评价和显著性检验。一级检验,是所有回归分析必须通过的检验。n二级检验,又称为经济计量学检验,它是对标准线性回归模型中的高斯假定条件能否满足,进行检验,具体包括序列相关、异方差性检验等。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析 7.3.3 一元线性回归模型的检验n由于n(7.3.30)nLYY是实际观察值与其样本均值的总的离差平方和,SSR是由回归直线解释的那部分离差平方和,称为回归平方和,SSE是残差平方和,是用回归直线无法解释的部分离差平方和。n公式两端同除以LYY,则n(7.3.31)

41、n显然,各个样本观察值与样本回归线靠得愈近,SSR在LYY中的比例就越大。因此,可定义这一比例为可决系数n(7.3.32)Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析 7.3.3 一元线性回归模型的检验n可决系数2,是对回归模型拟合程度的综合度量指标,2越大,模型拟合程度越高;2越小,模型拟合程度越差。可决系数2具有如下性质:n021;当样本观察值(Yt,X t)都处于回归直线上时,SSE=0,2=1;当观察值(Yt,X t)并不全部处于回归直线上时,SSE0,02t/2,拒绝零假设H0,表示Y,X之间相关显著。n对一元线性回归模型,利用(7.3.18),有n(

42、7.3.36)n可以证明:检验H0:2=0等价于检验H0:=0,如果检验认为20,就意味着0,即认为X对Y的解释作用是真实的。由于tt(n-2),可以证明,t2=FF(1,n-2),于是在一元线性回归模型中,对2的t检验和对LYY的解释平方和做F检验也是完全等效的。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析返回 7.3.4 误差项t的自相关检验 n自相关或称序列相关:n如果误差项之间存在相关关系,nCov(t,s)=E(ts)0;ts;ts(7.3.37)n则称这种现象为误差项t的自相关或称序列相关。n如果进一步有nt=et-1+t;t N(0,2);且E(t

43、 s)=0;ts;ts。(7.3.38)n其中-1e0;ts;如果散布图有一种异号残差相随的倾向,就表明存在负相关E(ts)0;t0,则记为“+”,若残差t|t|。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析 7.3.4 误差项t的自相关检验 n为了进一步判定在各种情况下,是否存在正的或负的自相关的问题,Durbin-Waston对任意的样本容量n和多达5个解释变量的情形,给出了d的分布及d的两个值dL(下界)和dU(上界)。如果d值落在0,dL范围内,则认为存在正自相关;如果d值落入dU,4-dU范围内,则认为存在负自相关;而当d落入dU,4-dU范围内时,则

44、认定不存在自相关;但当d落入dL,dU或者4-dL,4-dU范围内时,则不能认定是否存在自相关。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析不确定区域不确定区域图图75 Durbin-Waston 统计统计f(d)d拒 绝 H0,存在正自相关0H0:e=0,H1:e0。拒 绝 H0,存在负自相关24不拒绝H0dLdU4-dL4-dU 7.3.4 误差项t的自相关检验 nD-W双侧检验的具体步骤:n作统计假设nH0:e=0,H1:e0。n计 算 样 本 残 差t,计 算(7.3.41)式d统计量。n选择显著性水平,取=1%或者=5%。根据,查d统计量表 求 临 界

45、 值 dL/2,dU/2,若d4-dU/2,拒绝H0选择H1存在自相关;若dU/2d4-dU/2,则接受H0,表示不存在自相关;如果dL/2ddU/2,或者4-dL/2dF/2,拒绝零假设H0,表示自变量与因变量的线性关系显著。Ch7 相关与回归分析相关与回归分析7.4 多元线性回归分析多元线性回归分析(new)方差来源自由度平方和均方差F统计量回归p-1SSR=XYSSR/(p-1)(SSR/(p-1)/(SSE/(n-p)残差n-pSSE=eeS2=SSE/(n-p)总和n-1LYY=SSR+SSE,Y Y=XY+ee返回 7.4.4 多元线性回归模型的预测n回归预测的基本公式n0=X0

46、(7.4.25)n其中,0=(0)11,X0=(1,X20,X30,X40,.,X p0)1p,=()1p。n设X 0给定时Y的真值为Y0,且Y0=(Y0)11,u0=(u0)11,e0=(e0)11,=(1,2,3,4,.,p)1p,有n Y0=X0 +u0,u0N(0,2)(7.4.26)n于是预测的残差e0n(7.4.27)n利用期望值与方差的运算规则,以及估计量的期望值与方差,可以证明n(7.4.28)n在此基础上,亦可以证明,0是Y0的最优线性无偏估计预测,即在高斯假定得到满足的条件下,(7.4.25)式就是Y0的最佳预测方式。Ch7 相关与回归分析相关与回归分析7.4 多元线性回归

47、分析多元线性回归分析(new)7.4.4 多元线性回归模型的预测nY0的区间估计:n由(7.4.27)、(7.4.28)式可知,在高斯假定条件下,e0服从于标准正态分布,即ne0 N(0,Var(e0)(7.4.29)n由于Var(e0)中的2是未知的,通常用其无偏估计量S2来代替。用Se0来表示预测的标准误差的估计值,n(7.4.30)n数学上可以证明n(Y0-0)/Se0 t(n-p)(7.4.31)n对于给定的置信度为1-,有nPro0-t/2(n-p)Se0 Y0 0+t/2(n-p)Se0=1-,(7.4.32)n于是可以得出Y0的1-的置信区间为n 0-t/2(n-p)Se0 Y0

48、 0+t/2(n-p)Se0,(7.4.33)n式中,t/2(n-p)是置信度为1-、自由度为n-p的t分布的临界值。该区间以0为中点,长度为2t/2(n-2)Se0。中点0随X0线性地变化。因此,置信区间的上、下限曲线对称地落在回归向量平面两侧,而呈喇叭型。Ch7 相关与回归分析相关与回归分析7.4 多元线性回归分析多元线性回归分析(new)返回 7.5 回归诊断与残差分析n7.5.1 残差分析n7.5.2 异方差性的补救措施n7.5.3 序列相关的补救措施Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元

49、线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)返回 7.5.1 残差分析n即使方程通过了相关系数或F检验,也不能排除数据的异常值和周期性因素干扰问题。这些问题的严重后果是,所有建立在高斯假定基础上的OLSE,可能是一个毫无意义的估计。因为它不仅没有反映现象的现实,相反还夸大了方程估计的可靠性。n如何判断数据中有异常值和周期性因素干扰呢?n残差分析是一个有力的工具。它的具体做法是,编制残差序列图,进行符号检验及序列相关检验,分析和猜测误差的来源,设法改进及剔除之,缩小误差,建立新的稳妥模型。残差分析也叫回归诊断。它是经济计量学

50、检验的一部分。n检查是否有异常数据。n检查数据是否有周期性变化和倾向性变化。n检查回归模型是否合适。n异方差性的检验。n误差项t的序列相关检验。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)7.5.1 残差分析n检查是否有异常数据n所谓异常数据,就是与其它数据产生的条件,有明显的不同的数据。异常数据的存在,使估计结果出现很大的偏差。异常数据产生的原因:第一,未被作为解释变量的因素,比如是质的、制度的因素,在特定的观测期内突然发生了作用,使因变量产生一定的突变;第二,在编制统计资料的阶段,发生了非概率性的观测误差和汇总误差;第三,由非正态分布所产生的概

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁