《教学课件(07)第7章 利用变量间的关系进行预测(第4版).pptx》由会员分享,可在线阅读,更多相关《教学课件(07)第7章 利用变量间的关系进行预测(第4版).pptx(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、教材配套资源页完整PPT课件教学课件(07) 第7章 利用变量间的关系进行预测(第4版)1应用统计学AppliedApplied StatisticsStatistics谭英平2统计名言统计名言n不要过于教条地对待研究的结果不要过于教条地对待研究的结果,尤其当数据的质量受到怀疑时尤其当数据的质量受到怀疑时。 Damodar N.GujaratiDamodar N.Gujarati3第第 7 7 章章 利用变量间的关系进行预测利用变量间的关系进行预测l7.1 7.1 变量之间有什么样的关系变量之间有什么样的关系l7.2 7.2 建立变量之间的数学表达式建立变量之间的数学表达式l7.3 7.3 拟
2、合效果的度量和显著性检验拟合效果的度量和显著性检验l7.4 7.4 所有自变量都有必要放进模型中吗所有自变量都有必要放进模型中吗l7.5 7.5 用自变量预测因变量用自变量预测因变量l7.6 7.6 含有类别自变量的回归含有类别自变量的回归StatisticsStatistics47.1 7.1 变量之间有什么样的关系变量之间有什么样的关系7.1.1 7.1.1 用散点图描述变量间的关系用散点图描述变量间的关系7.1.2 7.1.2 用相关系数度量关系强度用相关系数度量关系强度7.1.3 7.1.3 总体中也存在这样的关系吗总体中也存在这样的关系吗第第 7 7 章章 利用变量间的关系进行预测利
3、用变量间的关系进行预测57.1.1 7.1.1 用散点图描述变量间的关系用散点图描述变量间的关系7.1 7.1 变量之间有什么样的关系变量之间有什么样的关系6应用统计学(第4版)变量间的关系变量间的关系n从统计角度看,变量之间的关系可分为两种:函数关系和相关关系。n函数关系函数关系是一一对应的确定关系。即一个变量的取值可以完全由另一个变量决定,可以用表达式y=f(x)描述。n但实际中变量之间的关系往往并不那么简单。某个变量的取值相同时,另一个变量往往并不取相同的值。因为影响一个变量的因素可能非常之多。n变量之间存在的不确定的数量关系称为相关关系相关关系。7应用统计学(第4版)变量间的关系变量间
4、的关系相关关系相关关系非线性相关非线性相关线性相关线性相关正正相相关关正正相相关关负负相相关关负负相相关关完全相关完全相关不相关不相关8应用统计学(第4版)变量间的关系变量间的关系9应用统计学(第4版)用散点图描述变量间的关系用散点图描述变量间的关系【例7.1】 2008年,我国第一条高速铁路(以下简称“高铁”)开通运营,经过十余年的快速建设,我国已经成为世界上唯一高铁成网运行的国家。表7-1列出了2008年至2020年我国城镇居民人均可支配收入和高铁营业里程数据。10应用统计学(第4版)用散点图描述变量间的关系用散点图描述变量间的关系n设高铁营业里程为y,城镇居民人均可支配收入为x。当城镇居
5、民人均可支配收入相同时,高铁营业里程的取值可能并不确定,这就是统计上所称的相关关系。117.1.2 7.1.2 用相关系数度量关系强度用相关系数度量关系强度7.1 7.1 变量之间有什么样的关系变量之间有什么样的关系12应用统计学(第4版)用相关系数度量关系强度用相关系数度量关系强度n 相关系数相关系数是度量两个数值变量之间线性相关强度的统计量。n根据总体数据计算得到的,称为总体相关系数,记为。n根据样本数据计算得到的,称为样本相关系数,记为r。13应用统计学(第4版)用相关系数度量关系强度用相关系数度量关系强度n r的取值范围是-1,1。n|r|=1,为完全相关:r =1,为完全正相关; r
6、 =-1,为完全负正相关。nr=0,不存在线性相关关系。n-1r0,为负相关;0F(或P-值),拒绝H040应用统计学(第4版)回归方程检验回归方程检验41应用统计学(第4版)回归系数检验回归系数检验n检验自变量 xi 对因变量 y 的影响是否显著n提出假设n计算检验的统计量n决策42应用统计学(第4版)回归系数检验回归系数检验437.4 7.4 所有自变量都有必要放进模型中吗所有自变量都有必要放进模型中吗7.4.1 7.4.1 自变量之间相关对模型有什么影响自变量之间相关对模型有什么影响7.4.2 7.4.2 剔除不必要的自变量剔除不必要的自变量7.4.3 7.4.3 模型有多好模型有多好第
7、第 7 7 章章 利用变量间的关系进行预测利用变量间的关系进行预测447.4.1 7.4.1 自变量之间相关对模型有什么影响自变量之间相关对模型有什么影响7.4 7.4 所有自变量都有必要放进模型中吗所有自变量都有必要放进模型中吗45应用统计学(第4版)多重共线性多重共线性n在多元线性回归模型中,除了自变量与因变量之间可能存在较强的相关关系,自变量与自变量之间也可能存在一定的相关性,称之为多重多重共线性共线性。n如果在多元线性回归中存在严重的多重共线性,违背了自变量相互独立的条件,就可能导致各种问题的出现。n检测多重共线性的方法有多种,其中最简单的一种是计算模型中各对自变量之间的相关系数,并对
8、各相关系数进行显著性检验。n一旦发现模型中存在多重共线性问题,就应采取某种解决措施。467.4.2 7.4.2 剔除不必要的自变量剔除不必要的自变量7.4 7.4 所有自变量都有必要放进模型中吗所有自变量都有必要放进模型中吗47应用统计学(第4版)剔除不必要的自变量剔除不必要的自变量n在构建模型之初,研究者往往将所有的自变量都纳入回归模型,如果存在多重共线性,则可以考虑通过变量的筛选在一定程度上解决其可能引起的问题。n选择自变量的原则通常是用统计量进行显著性检验,检验的根据是:将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和(SSE)显著减少。n确定在模型中引入自变量xi是否使残
9、差平方和(SSE)显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量。48应用统计学(第4版)剔除不必要的自变量剔除不必要的自变量n变量选择的方法主要有:向前选择、向后剔除、逐步回归等。n逐步回归较为常用,它是将前两种方法结合起来筛选自变量的方法,前两步与向前选择法相同,不过在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。n如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除。按此方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致SSE
10、显著减少,这个过程可通过F统计量来检验。49应用统计学(第4版)剔除不必要的自变量剔除不必要的自变量【例7.3】沿用例7.2中人身险保费收入(y)与地区生产总值 (x1)、居民人均可支配收入(x2)、大专及以上学历人数(x3)和死亡率(x4)的数据,采用逐步回归法建立回归模型。50应用统计学(第4版)剔除不必要的自变量剔除不必要的自变量51应用统计学(第4版)剔除不必要的自变量剔除不必要的自变量527.4.3 7.4.3 模型有多好模型有多好7.4 7.4 所有自变量都有必要放进模型中吗所有自变量都有必要放进模型中吗53应用统计学(第4版)模型有多好模型有多好n已经建立的模型是否适合用于下一步
11、的预测?要回答这个问题,可以从以下几个方面入手。所估计的回归系数的符号是否与理论或事先预期相一致?回归模型在多大程度上解释了因变量y取值的变差?考察关于误差项的正态性假定是否成立。547.5 7.5 用自变量预测因变量用自变量预测因变量第第 7 7 章章 利用变量间的关系进行预测利用变量间的关系进行预测55应用统计学(第4版)用自变量预测因变量用自变量预测因变量n根据自变量 x 的取值,利用估计的回归方程预测因变量 y的取值。n点估计对于自变量 x 的一个给定值x0 ,根据回归方程得到因变量 y 的一个估计值。n区间估计一个是对自变量的一个给定值,求出因变量y的平均值的估计区间,这一区间称为置
12、信区间置信区间;另一个是对自变量的一个给定值,求出因变量y的一个个别值的估计区间,这一区间称为预测区间预测区间。56应用统计学(第4版)置信区间和预测区间置信区间和预测区间577.6 7.6 含有类别自变量的回归含有类别自变量的回归第第 7 7 章章 利用变量间的关系进行预测利用变量间的关系进行预测58应用统计学(第4版)含有类别自变量的回归含有类别自变量的回归n在实际应用时,还会经常遇到类别变量的情形,如性别、职业等。如果也要研究这些变量对因变量的影响,就需要将其类别转化为数字代码,这种“量化”后的类别变量称为虚拟变量虚拟变量(也称哑变量哑变量)。n一般地,当类别变量的取值有k个水平(类别)
13、时,需要选取一个水平作为参照水平(如水平k),然后在模型中引入k-1个虚拟变量,分别表示为:其他水平水平,其他水平水平, 01, 1, 01, 111kxxkn虚拟变量xi的回归系数的含义为,相对于参照水平,水平i可能引起的因变量的变化程度。59应用统计学(第4版)含有类别自变量的回归含有类别自变量的回归【例7.4】某就业服务机构认为,工资收入(月薪)与工龄、学历之间可能存在密切关联,为验证该想法并进一步确定其影响关系,随机调查了20名就业者的基本情况如表7-14所示。试以月薪为因变量y,工龄、学历为自变量,建立合适的线性回归方程。60应用统计学(第4版)含有类别自变量的回归含有类别自变量的回归61应用统计学(第4版)含有类别自变量的回归含有类别自变量的回归n可以看到,虽然工龄对月薪的影响是显著的,但决定系数R2仅为0.265,说明工龄只能解释月薪变化的26.5%,还有重要的影响因素没有考虑进来,因此有必要将学历作为另一个自变量纳入到模型中。n由于学历是类别变量,取值水平为2个,所以设定1个虚拟变量x2(工龄为自变量x1 )。62应用统计学(第4版)含有类别自变量的回归含有类别自变量的回归63应用统计学(第4版)本课件制作整理者:郭迎春 仅可用于教学、学习、交流使用 如内容、图片、字体等有侵权,请联系删除。 64