《第10章 相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《第10章 相关与回归分析.ppt(96页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第1010章章 相关与回归分析相关与回归分析统计学1/4/20231统计学统计学STATISTICS 餐饮消费额与小费数据如下:单位:美元餐饮消费额与小费数据如下:单位:美元消费消费 33.5 50.7 87.9 98.8 63.6 107.3 120.7 78.5 102.3 140.6 小费小费 5.55.5 5.05.0 8.18.1 1717 1212 1616 18.618.6 9.49.4 15.415.4 22.422.4 实例实例 西方国家餐饮等服务行业有一条不成文的规定,即发生餐饮等服务项目消费时,必须给服务员一定数额小费,许多人都听说小费,但消费者应该留下多少小费?有人说
2、应该是账单的16%左右,是否真的如此呢?某机构经过调查搜集到以下数据,通过对这几组数据的分析与观察,他们发现了两者之间的数量关系。1/4/20232统计学统计学STATISTICS1.1.是否有足够的证据断定:在是否有足够的证据断定:在账单与小费数额之间存在账单与小费数额之间存在某种联系?某种联系?2.2.如果存在某种联系,怎样使如果存在某种联系,怎样使用这种联系来确定应该留用这种联系来确定应该留下多少小费?下多少小费?1/4/20233统计学统计学STATISTICS第第1010章章 相关与回归分析相关与回归分析一、简单线性相关分析一、简单线性相关分析二、简单线性回归分析二、简单线性回归分析
3、三、三、ExcelExcel在简单线性相关与回归在简单线性相关与回归分析中的应用分析中的应用1/4/20234统计学统计学STATISTICS本章学习目标本章学习目标1.1.熟悉相关关系的概念、特点、种类和度量熟悉相关关系的概念、特点、种类和度量2.2.掌握简单线性回归方程的建立方法掌握简单线性回归方程的建立方法3.3.理解简单线性回归方程的统计检验理解简单线性回归方程的统计检验拟拟合优度检验、变量显著性检验和方程显著性合优度检验、变量显著性检验和方程显著性检验检验4.4.掌握利用回归方程进行预测的方法掌握利用回归方程进行预测的方法5.5.利利用用 Excel Excel 进行相关与回归分析进
4、行相关与回归分析1/4/20235统计学统计学STATISTICS一、简单线性相关分析一、简单线性相关分析(一)变量间的关系(一)变量间的关系(二)相关关系的描述与测度(二)相关关系的描述与测度1/4/20236统计学统计学STATISTICS相关分析要解决的问题相关分析要解决的问题变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?为为解解决决这这些些问问题题,在在进进行行相相关关分分析析时时,对对总总体体有有以下两个主要假定以下两个主要假定两个变量之间是线性关系两个变量都是随机变量相关分析及其假定相关分析
5、及其假定1/4/20237统计学统计学STATISTICS 函数关系函数关系相关关系相关关系(一)变量的关系(一)变量的关系1/4/20238统计学统计学STATISTICS1.1.是一一对应的确定关系是一一对应的确定关系2.2.设设有有两两个个变变量量 x x 和和 y y,变变量量 y y 随随变变量量 x x 一一起起变变化化,并并完完全全依依赖赖于于 x x,当当变变量量 x x 取取某某个个数数值值时时,y y 依依确确定定的的关关系系取取相相应应的的值值,则则称称 y y 是是 x x 的的函函数数,记记为为 y=f(x),其其中中 x x 称称为为自自变变量量,y y 称称为为因
6、因变量变量3.3.各观测点落在一条线上各观测点落在一条线上 x xy y函数关系函数关系1/4/20239统计学统计学STATISTICS 函数关系的例子函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为 y y=pxpx (p 为单价)圆的面积(S)与半径之间的关系可表示为S S=R R2 2 企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y y=x x1 1 x x2 2 x x3 3 1/4/202310统计学统计学STATISTICS1.1.变变量量间间关关系系不不能能用用函函数数关关系精确表达系精确表达2.2.一一
7、个个变变量量的的取取值值不不能能由由另另一个变量唯一确定一个变量唯一确定3.3.当当变变量量 x x 取取某某个个值值时时,变变量量 y y 的的取取值值可可能能有有几几个个4.4.各观测点分布在直线周围各观测点分布在直线周围 xy 相关关系相关关系1/4/202311统计学统计学STATISTICS 相关关系的例子相关关系的例子父亲身高(y)与子女身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系1/4/202312统计学
8、统计学STATISTICS相关关系与函数关系的区别和联系相关关系与函数关系的区别和联系 联系:联系:具有函数关系的某些现象也会因观察测量具有函数关系的某些现象也会因观察测量的误差,而使得到的数据表现为非确定性的误差,而使得到的数据表现为非确定性的相关关系的相关关系对相关关系作进一步的观察,不难发现它对相关关系作进一步的观察,不难发现它们也是有规律可循的,可以借助函数关系们也是有规律可循的,可以借助函数关系的数学表达式来近似地描述的数学表达式来近似地描述 区别:区别:函数关系是变量值之间一种确定性的对应关函数关系是变量值之间一种确定性的对应关系,而相关关系则是一种非确定性的依存关系系,而相关关系
9、则是一种非确定性的依存关系 1/4/202313统计学统计学STATISTICS从变量相关的程度看从变量相关的程度看 完全相关(完全相关(B B)不完全相关(不完全相关(A A)不相关不相关(C)C)(二)相关关系的描述与测度(二)相关关系的描述与测度1.1.相关关系的类型相关关系的类型从变量相关关系变化的从变量相关关系变化的方向看看 正相关变量同方向变化变量同方向变化 同增同减同增同减 (A)(A)负相关变量反方向变化变量反方向变化 一增一减一增一减(B)(B)ABC1/4/202314统计学统计学STATISTICS从涉及的变量数量看从涉及的变量数量看 单相关:单相关:是两个变量之间存在的
10、相关关系是两个变量之间存在的相关关系 复复相相关关:三三个个或或三三个个以以上上变变量量之之间间存存在在的的相相关关系关关系从变量相关关系的表现形式看从变量相关关系的表现形式看 线性相关线性相关散布图接近一条直线散布图接近一条直线 非线性相关非线性相关散布图接近一条曲线散布图接近一条曲线1/4/202315统计学统计学STATISTICS定性分析法定性分析法是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断定量分析法定量分析法在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度2.2.相关关系
11、的描述与测度方法相关关系的描述与测度方法1/4/202316统计学统计学STATISTICS 将一变量的若干变量值按从小到大的顺序排列,并将另一变量或多个相关变量的值与之对应排列形成的统计表。相关表相关表财务软件代理商的广告费与月平均销售额相关表财务软件代理商的广告费与月平均销售额相关表年广告费投入(万元)年广告费投入(万元)x月均销售额(万元)月均销售额(万元)y12.515.323.226.433.534.439.445.255.460.915.828.735.037.840.145.249.050.557.268.91/4/202317统计学统计学STATISTICS某银行所属的某银行所
12、属的2525家分行的有关业务数据家分行的有关业务数据 1/4/202318统计学统计学STATISTICS 将两个变量间相对应的变量值用坐标点的形式描绘将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形,出来,用以表明相关点分布状况的图形,又称散点图。又称散点图。相关图相关图1/4/202319统计学统计学STATISTICS1/4/202320统计学统计学STATISTICS 不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相
13、关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 常见的散点图常见的散点图1/4/202321统计学统计学STATISTICS度量变量之间线性相关关系密切程度的指标度量变量之间线性相关关系密切程度的指标反反映映两两变变量量间间线线性性相相关关关关系系的的统统计计指指标标称称为为简简单单相相关关系系数数;反反映映多多元元线线性性相相关关关关系系的的统统计指标称为复相关系数。计指标称为复相关系数。若若相相关关系系数数是是根根据据总总体体全全部部数数据据计计算算的的,称称为总体相关系数,记为为总体相关系数,记为若若是是根根据据样样本本数数据据计计算算的的,则则称
14、称为为样样本本相相关关系数,记为系数,记为 r相关系数相关系数1/4/202322统计学统计学STATISTICS 总体相关系数总体相关系数 反映总体两个变量反映总体两个变量X X和和Y Y的线性相关程度的的线性相关程度的统计指标。其计算公式为:统计指标。其计算公式为:特点:特点:对于特定的总体来说,对于特定的总体来说,X X和和Y Y的数值是的数值是既定的,总体相关系数是客观存在的特定数既定的,总体相关系数是客观存在的特定数值,但通常是无法计算的。值,但通常是无法计算的。1/4/202323统计学统计学STATISTICS 样本相关系数样本相关系数 通过通过X X和和Y Y 的样本观测值的样
15、本观测值x x和和y y去估计的样本相关系去估计的样本相关系数。变量数。变量x x和和y y的样本相关系数通常用的样本相关系数通常用 表示表示 特点:特点:样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估计值,它是个随机变量。1/4/202324统计学统计学STATISTICS相关系数的取值及其意义相关系数的取值及其意义 r r 的取值范围是的取值范围是 -1,1-1,1|r r|=1|=1,为完全相关为完全相关r=1,为完全正相关r=-1,为完全负相关 r r=0=0,不存在线性相关关系(不相关)不存在线性相关关系(不相关)-1-1 r r00,为,为负相关负
16、相关 0 0 r r 1 1,为,为正相关正相关|r r|越越趋趋于于1 1表表示示关关系系越越密密切切;|r r|越越趋趋于于0 0表表示示关系越不密切关系越不密切1/4/202325统计学统计学STATISTICS-1.0+1.00-0.5+0.5完全负相关完全负相关无线性相关无线性相关完全正相关完全正相关负负相关程度增加相关程度增加r r正相关程度增加正相关程度增加-0.80.8+0.+0.8 8-0.30.3+0.3+0.31/4/202326统计学统计学STATISTICS相关系数的经验解释相关系数的经验解释|r r|0.80.8时时,可可视视为为两两个个变变量量之之间间高高度度相相
17、关关0.50.5|r r|0.8|0.8时,可视为中度相关时,可视为中度相关0.30.3|r r|0.5|0.5时,视为低度相关时,视为低度相关|r r|0.3|=7.5344t t0.0250.025(25-2)=2.0687(25-2)=2.0687,所所以以要要拒拒绝绝H H0 0,说说明明不不良良贷贷款款与与贷贷款款余余额额之之间间存存在在着着显显著著的的正正线性相关关系线性相关关系 1/4/202337统计学统计学STATISTICS各相关系数检验的统计量各相关系数检验的统计量1/4/202338统计学统计学STATISTICS二、简单线性回归分析二、简单线性回归分析(一)回归分析概
18、述(一)回归分析概述(二)简单线性回归模型(二)简单线性回归模型(三)参数的最小二乘估计(三)参数的最小二乘估计(四)回归直线的拟合程度(四)回归直线的拟合程度(五)回归系数的显著性检验(五)回归系数的显著性检验(六)利用回归方程进行估计和预测(六)利用回归方程进行估计和预测1/4/202339统计学统计学STATISTICS回归:退回回归:退回regression18771877年年 弗朗西斯弗朗西斯 高尔顿爵士高尔顿爵士 遗传学研究遗传学研究平均身高平均身高回归分析产生的历史回归分析产生的历史(一)回归分析概述(一)回归分析概述1/4/202340统计学统计学STATISTICS父亲们的身
19、高与儿子们的身高之间关系的研究父亲们的身高与儿子们的身高之间关系的研究 18891889年年F.GalltonF.Gallton和他的朋友和他的朋友K.PearsonK.Pearson收集了上千个家庭的身高、收集了上千个家庭的身高、臂长和腿长的记录臂长和腿长的记录 企图寻找出儿子们身高与父亲们企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式身高之间关系的具体表现形式 下图是根据下图是根据10781078个家庭的调查所个家庭的调查所作的散点图作的散点图(略图)(略图)1/4/202341统计学统计学STATISTICS160165170175180185140150160170180190
20、200YX儿子们身高向着平均身高儿子们身高向着平均身高“回归回归”,以保持种族的稳定,以保持种族的稳定1/4/202342统计学统计学STATISTICS什么是回归分析?什么是回归分析?就是通过一个变量或一些变就是通过一个变量或一些变量的变化解释另一变量的变化。量的变化解释另一变量的变化。1/4/202343统计学统计学STATISTICS1.1.根据理论和对问题的分析判断,根据理论和对问题的分析判断,区分自区分自变量和因变量;变量和因变量;2.设法找出适合的数学方程式设法找出适合的数学方程式(即即 回归模回归模型型)描述变量间的关系描述变量间的关系 3.3.对回归模型进行统计检验;对回归模型
21、进行统计检验;4.4.统计检验通过后,利用回归模型,根据统计检验通过后,利用回归模型,根据解释变量去估计,预测因变量。解释变量去估计,预测因变量。回归分析的内容与步骤回归分析的内容与步骤1/4/202344统计学统计学STATISTICS回归模型的类型回归模型的类型1/4/202345统计学统计学STATISTICS2.2.简单线性回归模型可表示为简单线性回归模型可表示为Y 是X的线性函数(部分)加上误差项线性部分反映了由于 X 的变化而引起的 Y 的变化误差项 是随机变量反映了除 X 和 Y之间的线性关系之外的随机因素对 Y 的影响是不能由 X 和 Y 之间的线性关系所解释的变异性0和 1
22、称为回归模型的参数(二)简单线性回归模型(二)简单线性回归模型1.1.描述因变量描述因变量Y Y如何依赖于自变量如何依赖于自变量X X和误差项和误差项的的方程称为回归模型方程称为回归模型1/4/202346统计学统计学STATISTICS简单线性回归模型的基本假定简单线性回归模型的基本假定 1.1.线线性性假假设设。误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 X 值,Y 的期望值为2.2.同同方方差差假假设设。对于所有的 X 值,的方差2 都相同3.3.正正态态性性假假设设。误差项是一个服从正态分布的随机变量,且相互独立。即服从N(0,2)4.独独立立性性假假设设。对于一个
23、特定的 X 值,它所对应的与其他 X 值所对应的不相关;对于一个特定的 X 值,它所对应的 Y 值与其他 X 所对应的 Y 值也不相关1/4/202347统计学统计学STATISTICS1/4/202348统计学统计学STATISTICS1.1.描描述述 Y Y的的平平均均值值或或期期望望值值如如何何依依赖赖于于X X 的方程称为回归方程的方程称为回归方程2.2.简单线性回归方程的形式如下:简单线性回归方程的形式如下:方程的图示是一条直线,也称为直线回归方程方程的图示是一条直线,也称为直线回归方程0 0是是回回归归直直线线在在 Y Y 轴轴上上的的截截距距,是是当当 X X=0=0 时时Y Y
24、的期望值的期望值1 1是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当X X每每变动一个单位时,变动一个单位时,Y Y 的平均变动值的平均变动值简单线性回归方程简单线性回归方程1/4/202349统计学统计学STATISTICS3.3.对于简单线性回归,估计的回归方程形式为对于简单线性回归,估计的回归方程形式为2.2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参数参数 和和 ,就得到了估计的回归方程,就得到了估计的回归方程1.1.总总体体回回归归参参数数 和和 是是未未知知的的,必必需需利利用用样样本本数数据去估计据去估计其其中中:是是估估计计的的
25、回回归归直直线线在在 y y 轴轴上上的的截截距距,是是直直线线的的斜斜率率,表表示示 x x 每每变变动动一一个个单单位位时时,y y 的平均变动值的平均变动值 估计的回归方程估计的回归方程1/4/202350统计学统计学STATISTICS1.1.使因变量的观察值与估计值之间的离差平方和达使因变量的观察值与估计值之间的离差平方和达到最小来求得到最小来求得 和和 的方法。即的方法。即2.2.用用最最小小二二乘乘法法拟拟合合的的直直线线来来代代表表x x与与y y之之间间的的关系与实际数据的误差比其他任何直线都小关系与实际数据的误差比其他任何直线都小参数的最小二乘估计参数的最小二乘估计1/4/
26、202351统计学统计学STATISTICSxy(xn,yn)(x1,y1)(x2,y2)(xi,yi)ei=yi-yi最小二乘估计示意图最小二乘估计示意图1/4/202352统计学统计学STATISTICS 根根据据最最小小二二乘乘法法的的要要求求,可可得得求求解解 和和 的的公式如下:公式如下:1/4/202353统计学统计学STATISTICS1/4/202354统计学统计学STATISTICS 与与r r的关系的关系 r 0 r 0 r=0 0 0 =01/4/202355统计学统计学STATISTICS【例】求不良贷款依赖于贷款余额的回归方程回归方程为:回归系数 =0.037895
27、表示,贷款余额每增加1亿元,不良贷款平均增加0.037895亿元 估计方程的求法估计方程的求法(例题分析)1/4/202356统计学统计学STATISTICS不良贷款对贷款余额回归方程的图示不良贷款对贷款余额回归方程的图示1/4/202357统计学统计学STATISTICS 确定回归直线后,需要评价这一直线方程是否确定回归直线后,需要评价这一直线方程是否有效地反映了这两变量之间的关系。评价回归方程有效地反映了这两变量之间的关系。评价回归方程配合好坏的主要指标有是配合好坏的主要指标有是判定系数判定系数和估计标准误差。和估计标准误差。是相关系数的平方,用是相关系数的平方,用 表示,用来衡量表示,用
28、来衡量回归方程对回归方程对y y的解释程度。的解释程度。判定系数取判定系数取值值范围:范围:越接近于越接近于1 1,表明,表明x x与与y y之间的相关性越强;之间的相关性越强;越越接近于接近于0,0,表明两个变量之间几乎没有直线相关关系表明两个变量之间几乎没有直线相关关系.回归直线的拟合程度回归直线的拟合程度1.1.判定系数判定系数1/4/202358统计学统计学STATISTICS残差平方和残差平方和回归回归平方和平方和总离差平方和总离差平方和1/4/202359统计学统计学STATISTICS总偏差总偏差 =回归偏差回归偏差 +剩余偏差剩余偏差 r r2 2表示全部偏差中有百分之几的偏差
29、可由表示全部偏差中有百分之几的偏差可由x x与与y y的回归的回归关系来解释关系来解释1/4/202360统计学统计学STATISTICS【例】计计算算不不良良贷贷款款对对贷贷款款余余额额回回归归的的判判定定系系数数,并解释其意义并解释其意义 表表示示在在不不良良贷贷款款取取值值的的变变差差中中,有有71.16%71.16%可可以以由由不不良良贷贷款款与与贷贷款款余余额额之之间间的的线线性性关关系系来来解解释释,或或者者说说,在在不不良良贷贷款款取取值值的的变变动动中中,有有71.16%71.16%是是由由贷贷款款余余额额所所决决定定的的。也也就就是是说说,不不良良贷贷款款取取值值的的差差异异
30、有有2/32/3以以上上是是由由贷贷款款余余额额决决定定的的。可可见见不不良贷款与贷款余额之间有较强的线性关系良贷款与贷款余额之间有较强的线性关系 判定系数判定系数r r2 2的计算的计算(例题分析例题分析)1/4/202361统计学统计学STATISTICS判定系数与相关系数的区别判定系数与相关系数的区别1.1.判定系数无方向性,相关系数则有方向,判定系数无方向性,相关系数则有方向,其方向与样本回归系数相同;其方向与样本回归系数相同;2.2.判定系数说明变量值的总离差平方和中可判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说以用回归线来解释的比例,相关系数只说明两变量
31、间关联程度及方向;明两变量间关联程度及方向;3.3.相关系数有夸大变量间相关程度的倾向,相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。因而判定系数是更好的度量值。1/4/202362统计学统计学STATISTICS实际观察值与回归估计值离差平方和的均方根实际观察值与回归估计值离差平方和的均方根反映实际观察值在回归直线周围的分散状况反映实际观察值在回归直线周围的分散状况对对误误差差项项 的的标标准准差差 的的估估计计,是是在在排排除除了了x x对对y y的线性影响后,的线性影响后,y y随机波动大小的一个估计量随机波动大小的一个估计量反映用估计的回归方程预测反映用估计的回归方程
32、预测y y时预测误差的大小时预测误差的大小 计算公式为计算公式为2.2.估计标准误估计标准误注:前例题中不良贷款的估计标准误为注:前例题中不良贷款的估计标准误为1.97991.97991/4/202363统计学统计学STATISTICS1.1.在简单线性回归中,等价于线性关系的显著性检验在简单线性回归中,等价于线性关系的显著性检验检验检验 X X 与与 Y Y 之间是否具有线性关系,之间是否具有线性关系,或者说,检验自变量或者说,检验自变量 X X 对因变量对因变量 Y Y 的的影响是否显著影响是否显著1.1.理论基础是回归系数理论基础是回归系数 的抽样分布的抽样分布回归系数的显著性检验回归系
33、数的显著性检验1.t1.t检验检验1/4/202364统计学统计学STATISTICS提出假设提出假设:确定检验统计量确定检验统计量:给定显著性水平给定显著性水平,确定临界值,确定临界值:确定原假设的拒绝规则确定原假设的拒绝规则:计算检验统计量并做出决策。计算检验统计量并做出决策。t t检验步骤检验步骤1/4/202365统计学统计学STATISTICSt t检验检验(例题分析例题分析)对例题的回归系数进行显著性检验对例题的回归系数进行显著性检验(0.05)0.05)1.1.提出假设提出假设H H0 0:1 1=0 =0 H H1 1:1 1 0 0 2.2.计算检验的统计量计算检验的统计量3
34、.t t=7.533515=7.533515t t=2.201=2.201,拒拒绝绝H H0 0,表表明明不不良良贷贷款与贷款余额之间有线性关系款与贷款余额之间有线性关系1/4/202366统计学统计学STATISTICS学学生生身高身高体体重重估计值估计值ABCDEFGHIJ15816016216416616817017217417647504855626052617065249642560026244268962755628224289002958430276309762209250023043025384436002704372149004225742680007776902010292
35、10080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-541381670570279220 33032 95546-00拒绝原假设,接受备择假设。即可以认为拒绝原假设,接受备择假设。即可以认为 B B1 1明显地明显地不等于零,不等于零,X X 与与 Y Y 存在显著的线性关系。存在显著的线性关系。1/4/202367统计学统计学STATISTICS2.F2.F检验检验1.1.检检验验自自
36、变变量量与与因因变变量量之之间间的的线线性性关关系系是否显著是否显著2.2.将将回回归归均均方方(MSRMSR)同同残残差差均均方方(MSEMSE)加加以以比比较较,应应用用F F 检检验验来来分分析析二二者者之之间间的差别是否显著的差别是否显著回归均方:回归平方和SSR除以相应的自由度(自变量的个数p)残差均方:残差平方和SSE除以相应的自由度(n-p-1)1/4/202368统计学统计学STATISTICS1.1.提出假设提出假设H H0 0:1 1=0 =0 线性关系不显著线性关系不显著2.2.计算计算检验统计量检验统计量F F3.3.确定确定显著性水平显著性水平,并根据分子自由度,并根
37、据分子自由度1 1和分母和分母自由度自由度n n-2-2找出找出临界值临界值F F 4.4.作作出决策:若出决策:若F F F F ,拒绝拒绝H H0 0;若若F F F F ,拒绝拒绝H H0 0,线性关系显著线性关系显著F F检验检验检验检验(例题分析例题分析)1/4/202370统计学统计学STATISTICS线性关系的检验线性关系的检验(方差分析表方差分析表)Excel Excel 输出的方差分析表输出的方差分析表1/4/202371统计学统计学STATISTICS利用回归方程进行估计与预测利用回归方程进行估计与预测预测的前提:预测的前提:回归方程经过检验,证明回归方程经过检验,证明
38、X X 和和 Y Y 的关系在统计上是显著相关的。的关系在统计上是显著相关的。对于给定的对于给定的 X X 值,求出值,求出 Y Y 平均值的一个平均值的一个估计值或估计值或 Y Y 的一个个别值的预测值。的一个个别值的预测值。对于给定的对于给定的 X X 值,求出值,求出 Y Y 的平均值的置的平均值的置信区间或信区间或 Y Y 的一个个别值的预测区间。的一个个别值的预测区间。点预测点预测区间预测区间预测1/4/202372统计学统计学STATISTICS2.2.点估计值有点估计值有ny y 的平均值的点估计的平均值的点估计ny y 的个别值的点估计的个别值的点估计3.3.在点估计条件下,平
39、均值的点估计和个别值的点在点估计条件下,平均值的点估计和个别值的点估计是一样的,但在区间估计中则不同估计是一样的,但在区间估计中则不同1.1.对对于于自自变变量量 x x 的的一一个个给给定定值值x x0 0 ,根根据据回回归归方方程得到因变量程得到因变量 y y 的一个估计值的一个估计值点估计点估计1/4/202373统计学统计学STATISTICS若若 x=169x=169,则:则:点估计点估计1/4/202374统计学统计学STATISTICS1.1.点点估估计计不不能能给给出出估估计计的的精精度度,点点估估计计值值与与实实际际值值之之间间是是有有误误差差的的,因因此此需需要要进进行行区
40、区间估计间估计2.2.对对于于自自变变量量 x x 的的一一个个给给定定值值 x x0 0,根根据据回回归方程得到因变量归方程得到因变量 y y 的一个估计区间的一个估计区间3.3.区间估计有两种类型区间估计有两种类型置信区间估计置信区间估计预测区间估计预测区间估计区间估计区间估计1/4/202375统计学统计学STATISTICS对于给定的对于给定的 x=xx=x0 0 ,Y Y 的的1-1-置信区间为置信区间为自由度为自由度为n-2n-2的的 t t 分布值分布值Y Y 的平均值的置信区间估计的平均值的置信区间估计1/4/202376统计学统计学STATISTICS学学生生身高身高体体重重
41、估计值估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-
42、7-9-253-541381670570279220 3303295546-00若令若令=0.05=0.05,则有,则有 t t/2/2(n n-2-2)=2.31=2.31当当 时,时,得到得到最小值。当最小值。当 时,时,的值随的值随 的减少或增的减少或增加而逐步增大。加而逐步增大。x1/4/202377统计学统计学STATISTICS1/4/202378统计学统计学STATISTICS 对于给定的对于给定的 X X=X X0 0,如果要预测如果要预测Y Y 的一个的一个个别值个别值 Y Y0 0 的置信区间,则其相应的残差为:的置信区间,则其相应的残差为:Y Y 的个别值相对的个别值相对
43、于其平均值的方差于其平均值的方差当当X X=X X0 0时,时,所估计的所估计的Y Y0 0 的方差组成的方差组成 与其平均与其平均值的方差值的方差Y Y 的个别值的置信区间估计的个别值的置信区间估计1/4/202379统计学统计学STATISTICS即:即:Y Y0 0的方差为:的方差为:即:即:则:则:Y Y 的一个个别值的一个个别值 Y Y0 0 的标准差的估计值为:的标准差的估计值为:1/4/202380统计学统计学STATISTICS 对于给定的对于给定的 X X0 0,Y Y 的一个个别值的一个个别值Y Y0 0 的的预测区间估计值为:预测区间估计值为:也就是:也就是:与估计与估计
44、Y Y的平均值公式相比,此的平均值公式相比,此公式中多了一项公式中多了一项“1”1”,因此,因此,这个置信区间要相对大一些这个置信区间要相对大一些1/4/202381统计学统计学STATISTICS学学生生身高身高体体重重估计值估计值ABCDEFGHIJ15816016216416616817017217417647504855626052617065249642560026244268962755628224289002958430276309762209250023043025384436002704372149004225742680007776902010292100808840104
45、92121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-541381670570279220 3303295546-00若令若令=0.05,则有,则有 t/2(n-2)=2.31当当 时,时,得到最小得到最小值。当值。当 时,时,的值的值随随 的减少或增加而逐步的减少或增加而逐步增大。增大。1/4/202382统计学统计学STATISTICS 相关分析与回归分析的联系相关分析与回归分析的联系共同的研究对象:都是对变
46、量间相关关系的分析共同的研究对象:都是对变量间相关关系的分析.理论和方法具有一致性理论和方法具有一致性.只有当变量间存在相关关系时,用回归分析去寻只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义求相关的具体数学形式才有实际意义.无相关就无相关就无回归,相关程度越高,回归越好无回归,相关程度越高,回归越好.相关分析只表明变量间相关关系的性质和程度,相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分要确定变量间相关的具体数学形式依赖于回归分析析相关系数和回归系数方向一致,可以互相推算相关系数和回归系数方向一致,可以互相推算.1/4/202
47、383统计学统计学STATISTICS相关分析中相关分析中x x与与y y对等,回归分析中对等,回归分析中x x与与y y要确定自变量和因变量;要确定自变量和因变量;相关分析中相关分析中x x、y y均为随机变量,回归分均为随机变量,回归分析中只有析中只有y y为随机变量;为随机变量;相关分析测定相关程度和方向,回归分相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。析用回归模型进行预测和控制。回归分析与相关分析的区别回归分析与相关分析的区别1/4/202384统计学统计学STATISTICS应用相关与回归分析应注意的问题应用相关与回归分析应注意的问题 1 1变量间是否存在相关变量
48、间是否存在相关2 2其余变量尽量保持一致其余变量尽量保持一致 3 3观测值要尽可能的多观测值要尽可能的多 4 4外推要谨慎外推要谨慎 5 5正确理解相关或回归显著与否的正确理解相关或回归显著与否的含义含义 1/4/202385统计学统计学STATISTICS 三、三、ExcelExcel在简单线性回归中的应用在简单线性回归中的应用(一)相关图的绘制(一)相关图的绘制(二)相关系数的计算(二)相关系数的计算(三)回归分析宏的应用(三)回归分析宏的应用(四)回归系数的检验(四)回归系数的检验 1/4/202386统计学统计学STATISTICS21岁以下者所占比例(%)每千个驾驶执照中发生车祸次数
49、21岁以下者所占比例(%)每千个驾驶执照中发生车祸次数21岁以下者所占比例(%)每千个驾驶执照中发生车祸次数21岁以下者所占比例(%)每千个驾驶执照中发生车祸次数132.962162.80182.190183.614120.708121.405163.623101.92680.88591.433152.623141.643121.652100.03990.835162.943112.09190.33880.820121.913172.627111.849142.890152.814183.830122.24681.267132.63480.368142.885153.22490.926131.
50、142142.352101.014173.25680.645111.294100.49391.082174.100141.443【案例案例】:发生车祸次数与司机年龄有关吗?:发生车祸次数与司机年龄有关吗?1/4/202387统计学统计学STATISTICS(一)制作相关图(一)制作相关图 第一步,将上例数据输入第一步,将上例数据输入ExcelExcel数据表的数据表的A1:B43A1:B43区域,并选定区域,并选定第二步,点击第二步,点击ExcelExcel图表向导;在图表向导;在“图表类型图表类型”中选择中选择“XYXY散点图散点图”第三步,在第三步,在“子图表类型子图表类型”中选择第一种散