【教学课件】第8章相关和回归分析.ppt

上传人:wuy****n92 文档编号:80436735 上传时间:2023-03-23 格式:PPT 页数:51 大小:297.50KB
返回 下载 相关 举报
【教学课件】第8章相关和回归分析.ppt_第1页
第1页 / 共51页
【教学课件】第8章相关和回归分析.ppt_第2页
第2页 / 共51页
点击查看更多>>
资源描述

《【教学课件】第8章相关和回归分析.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第8章相关和回归分析.ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、 统 计 学STATISTICS第8章 相关和回归分析学习目标 7.1 相关与回归分析的基本概念 7.2 一元线性回归分析 7.3多元线性回归分析 7.4 非线性回归 7.5 相关分析 统 计 学STATISTICS学习重点1.相关系数的分析方法相关系数的分析方法2.一元线性回归的基本原理和参数的最小一元线性回归的基本原理和参数的最小二乘估计二乘估计3.回归直线的拟合优度回归直线的拟合优度4.回归方程的显著性检验回归方程的显著性检验5.利用回归方程进行估计和预测利用回归方程进行估计和预测 统 计 学STATISTICS 7.1 相关与回归分析的基本概念函数关系1.是一一对应的确定关系2.设有两

2、个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量3.各观测点落在一条线上 统 计 学STATISTICS函数关系(几个例子)函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额y y与与销销售售量量x x之之间间的的关关系系可表示为可表示为 y y=pxpx (p p 为单价为单价)圆圆的的面面积积S S与与半半径径之之间间的的关关系系可可表表示示为为S S=R R2 2 企企业业的的原原材材料料消消耗耗额额y y与与产产量量x

3、x1 1 、单单位位产产量量消消耗耗x x2 2 、原原材材料料价价格格x x3 3之之间间的的关关系系可可表表示示为为 y y=x x1 1 x x2 2 x x3 3 统 计 学STATISTICS相关关系(correlation)1.变量间关系不能用函数关系精确表达2.2.一个变量的取值不能由另一个变量唯一确定3.3.当变量 x 取某个值时,变量 y 的取值可能有几个4.4.各观测点分布在直线周围 统 计 学STATISTICS相关关系(几个例子)相关关系的例子相关关系的例子父亲身高父亲身高y y与子女身高与子女身高x x之间的关系之间的关系收入水平收入水平y y与受教育程度与受教育程度

4、x x之间的关系之间的关系粮粮食食亩亩产产量量y y与与施施肥肥量量x x1 1 、降降雨雨量量x x2 2 、温温度度x x3 3之之间的关系间的关系商品的消费量商品的消费量y y与居民收入与居民收入x x之间的关系之间的关系商品销售额商品销售额y y与广告费支出与广告费支出x x之间的关系之间的关系 统 计 学STATISTICS相关关系(类型)按相关程度划分:完全相关、不完全相关和不相关按相关方向划分:正相关和负相关按相关形式划分:线性相关和非线性相关按变量多少划分 单相关、复相关和偏相关按相关性质划分 真实相关和虚假相关 统 计 学STATISTICS7.2 一元线性回归 7.2.1

5、标准的一元线性回归模型标准的一元线性回归模型 一元线性回归模型的估计一元线性回归模型的估计 一元线性回归模型的检验一元线性回归模型的检验 一元线性回归模型的预测一元线性回归模型的预测 统 计 学STATISTICS一元线性回归模型1.描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型回归模型2.一元线性回归模型可表示为 y=0 0+1 1 x+e ey 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1

6、 称为模型的参数 统 计 学STATISTICS一元线性回归模型(基本假定)1.误差项的期望值为0,即E()=0。对于一个给定的 x 值,y 的期望值为E(y)=0+1 x2.对于所有的 x 值,3.误差项之间不存在序列相关关系,即4.4.自变量是给定的变量,与随机误差项线性无关5.随机误差项服从正态分布,即6.N(0,2)统 计 学STATISTICS总体回归函数1.描述 y 的平均值或期望值如何依赖于 x 的方程称为总体回归函数2.总体回归函数的数学形式如下3.E(y)=0+1 x函数的图示是一条直线,也称为总体回归直线函数的图示是一条直线,也称为总体回归直线 0 0是是回回归归直直线线在

7、在 y y 轴轴上上的的截截距距,是是当当 x x=0=0 时时 y y 的的期期望值望值 1 1是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x x 每每变变动动一个单位时,一个单位时,y y 的平均变动值的平均变动值 统 计 学STATISTICS样本回归函数(估计方程)1.总总体体回回归归参参数数 和和 是是未未知知的的,必必须须利利用用样样本本数数据去估计据去估计2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了,就得到了估计的回归方程估计的回归方程估计的回归方程估计的回归方程3.3.一元线性回归中估计的回归方程为

8、一元线性回归中估计的回归方程为其其中中:是是估估计计的的回回归归直直线线在在 y y 轴轴上上的的截截距距,是是直直线线的的斜斜率率,它它表表示示对对于于一一个个给给定定的的 x x 的的值值,是是 y y 的的估估计计值,也表示值,也表示 x x 每变动一个单位时,每变动一个单位时,y y 的平均变动值的平均变动值 统 计 学STATISTICS一元线性回归模型的估计一元线性回归模型的估计1.使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即2.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小 统 计 学STATISTICS最小二乘法(和 的

9、计算公式)根据最小二乘法的要求,可得求解 和 的公式如下 统 计 学STATISTICS估计方程的求法(例题分析)【例【例7-1】估计食品支出的恩格尔函数回归方程为:回归方程为:y=9.9872+0.1802 x回回归归系系数数 =0.1802=0.1802 表表示示,收收入入每每增增加加1 1亿亿元元,食品支出平均增加食品支出平均增加0.1802亿元亿元 统 计 学STATISTICS估计标准误差(standard error of estimate)1.实际观察值与回归估计值离差平方和的均方根2.反映实际观察值在回归直线周围的分散状况3.对误差项的标准差的估计,是在排除了x对y的线性影响后

10、,y随机波动大小的一个估计量4.反映用估计的回归方程预测y时预测误差的大小 5.计算公式为注:例题的计算结果为注:例题的计算结果为1.82861.8286 统 计 学STATISTICS一元线性回归模型的检验一元线性回归模型的检验离差1.因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响2.对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示 统 计 学STATISTICS离差的分解(图示)x xy yy y 统 计 学STATISTICS离差平方和的分

11、解(三个平方和的关系)SST=SSR+SSE总平方和总平方和总平方和总平方和(SSTSST)回归平方和回归平方和回归平方和回归平方和(SSRSSR)残差平方和残差平方和残差平方和残差平方和(SSESSE)统 计 学STATISTICS离差平方和的分解(三个平方和的意义)1.总平方和总平方和(SST)反映因变量的 n 个观察值与其均值的总离差2.回归平方和回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3.残差平方和残差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为

12、不可解释的平方和或剩余平方和 统 计 学STATISTICS可决系数r21.回归平方和占总离差平方和的比例2.反映回归直线的拟合程度反映回归直线的拟合程度3.取值范围在取值范围在 0,1 0,1 之间之间4.R R2 2 1 1,说明回归方程拟合的越好;说明回归方程拟合的越好;R R2 20 0,说说明回归方程拟合的越差明回归方程拟合的越差5.判定判定系数等于相关系数的平方,即系数等于相关系数的平方,即R R2 2r r2 2 统 计 学STATISTICS可决系数r2(例题分析)【例例7-2】计算估计食品支出的恩格尔函数回归的可决系数,并解释其意义 可可决决系系数数的的实实际际意意义义是是:

13、在食品支出取值的变差中,有88.63%可以由食品支出与家庭收入之间的线性关系来解释,或者说,在食品支出取值的变动中,有88.63%是家庭收入所决定的。可见食品支出与家庭收入之间有较强的线性关系 统 计 学STATISTICS 一元线性回归模型的检验一元线性回归模型的检验1.检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著2.理论基础是回归系数 的抽样分布3.在一元线性回归中,等价于线性关系的显著性检验 统 计 学STATISTICS回归系数的检验(样本统计量 的分布)1.1.1.是是是根根根据据据最最最小小小二二二乘乘乘法法法求求求出出出的的的样样样

14、本本本统统统计计计量量量,它它它有有有自自自己的分布己的分布己的分布2.2.2.的的的分布具有如下性质分布具有如下性质分布具有如下性质 分布形式:正态分布分布形式:正态分布分布形式:正态分布 数学期望:数学期望:数学期望:标准差:标准差:标准差:由由由于于于 未未未知知知,需需需用用用其其其估估估计计计量量量s s sy yy来来来代代代替替替得得得到到到 的的的估估估计计计的的的标准差标准差标准差 统 计 学STATISTICS回归系数的检验(检验步骤)1.提出假设H0:1=0(没有线性关系)H1:1 0(有线性关系)2.计算检验的统计量3.确定显著性水平确定显著性水平,并进行决策,并进行决

15、策 t t t t,拒绝拒绝H H0 0;t t =10.07t t=2.160=2.160,拒拒绝绝H H0 0,表表明明食食品品支支出出与与家庭收入之间有线性关系家庭收入之间有线性关系 统 计 学STATISTICS 一元线性回归模型的预测一元线性回归模型的预测1.根据自变量 x 的取值估计或预测因变量 y的取值2.估计或预测的类型点估计y 的个别值的点估计(或预测)区间估计y 的个别值的预测区间预测区间估计 统 计 学STATISTICSy 的个别值的点预测利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计例如,如果我们只是

16、想知道家庭收入为200元的那些家庭的食品支出是多少,则属于个别值的点估计。根据估计的回归方程得 统 计 学STATISTICS区间预测 1.点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计2.对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间3.本课程讨论的区间估计类型预 测 区 间 估 计(prediction interval estimate)统 计 学STATISTICS预测区间估计1.利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间预测区间(predictio

17、n interval)2.y0在1-置信水平下的预测区间为 统 计 学STATISTICS影响区间宽度的因素1.置信水平(1-)区间宽度随置信水平的增大而增大2.数据的离散程度s区间宽度随离散程度的增大而增大3.样本容量区间宽度随样本容量的增大而减小4.用于预测的 xp与x的差异程度区间宽度随 xp与x 的差异程度的增大而增大 统 计 学STATISTICS置信区间、预测区间、回归方程xp pyx x预测上限置信上限预测下限置信下限 统 计 学STATISTICS7.3多元线性回归分析 多元线性回归模型多元线性回归模型 7.3.2 多元线性回归模型多元线性回归模型 的估计的估计7.3.3 多元

18、线性回归模型多元线性回归模型 的检验和预测的检验和预测 统 计 学STATISTICS多元回归模型 1.一个因变量与两个及两个以上自变量的回归2.描述因变量 y 如何依赖于自变量 x1,x2,xk 和误差项 的方程,称为多元回归模型3.涉及 p 个自变量的多元回归模型可表示为 0 0 ,1 1,k k是是参数参数 是被称为误差项的随机变量是被称为误差项的随机变量 y y 是是x x1,1,,x x2 2 ,x xk k 的线性函数加上误差项的线性函数加上误差项 包包含含在在y y里里面面但但不不能能被被k k个个自自变变量量的的线线性性关关系系所解释的变异性所解释的变异性 统 计 学STATI

19、STICS多元回归模型(基本假定)1.误差项是一个期望值为0的随机变量,即E()=02.对于自变量x1,x2,xp的所有值,的方差 2都相同3.误差项是一个服从正态分布的随机变量,即N(0,2),且相互独立 统 计 学STATISTICS多元样本回归函数(方程)1.用样本统计量 估计回归方程中的 参数 时得到的方程2.由最小二乘法求得3.一般形式为 是是 估计值估计值 是是 y y 的估计值的估计值 统 计 学STATISTICS7.3.2 多元线性回归模型多元线性回归模型 的估计的估计1.使使因因变变量量的的观观察察值值与与估估计计值值之之间间的的离离差差平平方方和和达达到最小来求得到最小来

20、求得 。即即2.求求解解各回归参数的标准方程如下各回归参数的标准方程如下 统 计 学STATISTICS7.3.3 多元线性回归模型多元线性回归模型 的检的检验和预测验和预测回归方程的拟合优度1.回归平方和占总平方和的比例2.计算公式为3.3.因变量取值的变差中,能被估计的多元回归方程所解释的比例 统 计 学STATISTICS修正多重可决系数1.用样本容量n和自变量的个数p去修正R2得到 2.计算公式为3.避免增加自变量而高估 R24.意义与 R2类似5.数值小于R2 统 计 学STATISTICS 显著性检验(回归系数的检验)1.提出假设H0:i=0 (自变量 xi 与 因变量 y 没有线

21、性关系)H1:i 0 (自变量 xi 与 因变量 y有线性关系)2.计算检验的统计量 t3.确定显著性水平,并进行决策 t t t t,拒绝拒绝H H0 0;t t F F ,拒绝拒绝H H0 0 统 计 学STATISTICS7.4 非线性回归1.因变量 y 与 x 之间不是线性关系2.可通过变量代换转换成线性关系用最小二乘法求出参数的估计值并非所有的非线性模型都可以化为线性模型 统 计 学STATISTICS双曲线1.基本形式:2.线性化方法令:y=1/y,x=1/x,则有y=+x 统 计 学STATISTICS指数曲线1.基本形式:2.线性化方法两端取对数得:lny=ln+x令:y=ln

22、y,则有y=ln+x 统 计 学STATISTICSS 型曲线1.基本形式:2.线性化方法令:y=1/y,x=e-x,则有y=+x 统 计 学STATISTICS7.5 相关分析相关系数(correlation coefficient)1.对变量之间关系密切程度的度量2.对两个变量之间线性相关程度的度量称为简单相关系数3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 4.若是根据样本数据计算的,则称为样本相关系数,记为 r 统 计 学STATISTICS相关系数(计算公式)样本相关系数的计算公式或化简为 统 计 学STATISTICS相关系数(取值及其意义)1.r 的取值范围是-1,12.|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关3.r=0,不存在线性线性相关关系4.-1r0,为负相关5.0 t t,拒绝拒绝H H0 0 若若 t t t t,不能拒绝不能拒绝H H0 0 统 计 学STATISTICSEnd of Chapter 7

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁