第六章相关与回归优秀课件.ppt

上传人:石*** 文档编号:49396670 上传时间:2022-10-08 格式:PPT 页数:61 大小:5.83MB
返回 下载 相关 举报
第六章相关与回归优秀课件.ppt_第1页
第1页 / 共61页
第六章相关与回归优秀课件.ppt_第2页
第2页 / 共61页
点击查看更多>>
资源描述

《第六章相关与回归优秀课件.ppt》由会员分享,可在线阅读,更多相关《第六章相关与回归优秀课件.ppt(61页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第六章相关与回归第六章相关与回归第1页,本讲稿共61页相关第一节相关分析第一节相关分析第2页,本讲稿共61页第3页,本讲稿共61页一、相关关系的概念一、相关关系的概念 1函数关系函数关系 它反映现象之间存在着严格的依存关系,在这种它反映现象之间存在着严格的依存关系,在这种关系中,对于某一变量的每一个数值,都有另一关系中,对于某一变量的每一个数值,都有另一个变量的确定值与之相对应,并且这种关系可以个变量的确定值与之相对应,并且这种关系可以用一个数学表达式反映出来。如:圆的面积与半用一个数学表达式反映出来。如:圆的面积与半径之间的关系,即径之间的关系,即第4页,本讲稿共61页2相关关系相关关系它反

2、映现象之间确实存在的,但关系数值不固定它反映现象之间确实存在的,但关系数值不固定的相互依存关系。这一概念表明:的相互依存关系。这一概念表明:(1)相关关系是指现象之间确实存在数量上的)相关关系是指现象之间确实存在数量上的相互依存关系。相互依存关系。(2)现象之间数量依存关系的具体关系值不是)现象之间数量依存关系的具体关系值不是固定的。固定的。第5页,本讲稿共61页2008-1-4 6【例】商品的消费量商品的消费量(y)(y)与居民收入与居民收入(x)(x)之间的关系之间的关系 商品销售额商品销售额(y)(y)与广告费支出与广告费支出(x)(x)之间的关系之间的关系 粮食亩产量粮食亩产量(y)(

3、y)与施肥量与施肥量(x(x1 1)、降雨量、降雨量(x(x2 2)、温度、温度(x(x3 3)之间的关系之间的关系 收入水平收入水平(y)(y)与受教育程度与受教育程度(x)(x)之间的关系之间的关系 父母亲身高父母亲身高(y)(y)与子女身高与子女身高(x)(x)之间的关系之间的关系 身高与体重的关系身高与体重的关系 n 第6页,本讲稿共61页2008-1-4 7 停下来 想一想?下列变量之间存在相关关系吗?下列变量之间存在相关关系吗?1 抽烟与肺癌之间的关系抽烟与肺癌之间的关系 2 怀孕期妇女的饮酒量与婴儿出生体重之间的关系怀孕期妇女的饮酒量与婴儿出生体重之间的关系 3 采光量与植物的生

4、产量之间的关系采光量与植物的生产量之间的关系 第7页,本讲稿共61页 3相关关系与函数关系的联系相关关系与函数关系的联系 由于有观察或测量误差等原因,函数关系在实由于有观察或测量误差等原因,函数关系在实际中往往通过相关关系表现出来。在研究相际中往往通过相关关系表现出来。在研究相关关系时,又常常要使用函数关系的形式来关关系时,又常常要使用函数关系的形式来表现,以便找到相关关系的一般数量表现形表现,以便找到相关关系的一般数量表现形式。式。第8页,本讲稿共61页2008-1-4 9 二、相关关系的种类1.按相关的程度分:完全相关完全相关不完全相关不完全相关 不相关不相关(或零相关或零相关)例:完全相

5、关完全相关:在价格P不变的情况下,销售收入Y与销售量X 的关系;不相关不相关:股票价格的高低与气温的高低是不相关的;第9页,本讲稿共61页2008-1-4 10 2.按相关的方向分:正相关正相关负相关负相关正相关:两个变量之间的变化方向一致,都是增长趋正相关:两个变量之间的变化方向一致,都是增长趋 势或下降趋势。势或下降趋势。例例:收入与消费的关系收入与消费的关系;工人的工资随劳动生产率的提高而提高。工人的工资随劳动生产率的提高而提高。负相关:两个变量变化趋势相反,一个下降而另一负相关:两个变量变化趋势相反,一个下降而另一 个上升,或一个上升而另一个下降。个上升,或一个上升而另一个下降。例例:

6、物价与消费的关系物价与消费的关系;商品流转的规模愈大商品流转的规模愈大,流通费用水平则越低。流通费用水平则越低。第10页,本讲稿共61页2008-1-4 11 3.按相关的形式分:线性相关线性相关非线性相关非线性相关 线性相关(直线相关):当一个变量每变动一个单位时,线性相关(直线相关):当一个变量每变动一个单位时,另一个变量按一个大致固定的另一个变量按一个大致固定的 增增(减减)量变动。量变动。例例:人均消费水平与人均收入水平人均消费水平与人均收入水平非线性相关(曲线相关):当一个变量变动时,非线性相关(曲线相关):当一个变量变动时,另一另一 个变量也相应发生变动,但这种变动是不均等的。个变

7、量也相应发生变动,但这种变动是不均等的。例例:产品的平均成本与总产量产品的平均成本与总产量;农产量与施肥量农产量与施肥量.第11页,本讲稿共61页2008-1-4 12 4.按相关的影响因素多少分:单相关单相关复相关复相关偏相关偏相关 单相关单相关(一元相关一元相关):只有一个自变量。:只有一个自变量。复相关复相关(多元相关多元相关):有两个及两个以上的自变量。:有两个及两个以上的自变量。如如:居民的收入与储蓄额;成本与产量如如:某种商品的需求与其价格水平以及收入水平 之间的相关关系便是一种复相关。第12页,本讲稿共61页2008-1-4 13 偏相关偏相关:在某一现象与多种现象相关的场合,假

8、定其他变量不在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。变,专门考察其中两个变量的相关关系称为偏相关。如如:在假定人们的收入水平不变的条件下,某种商品的需求在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。与其价格水平的关系就是一种偏相关。第13页,本讲稿共61页2008-1-4 14 n 5.5.按相关的性质分:真实相关真实相关虚假相关虚假相关真实相关是现象的内在联系所决定真实相关是现象的内在联系所决定.虚假相关虚假相关:如某人曾观如某人曾观察过某一国家历年的国察过某一国家历年的国内生产总值与精神病患内生产总值与

9、精神病患者人数的关系者人数的关系,呈相当呈相当高的正相关高的正相关.第14页,本讲稿共61页2008-1-4 15 讨论下面的关系是因果关系还是伪关系?讨论下面的关系是因果关系还是伪关系?讨论下面的关系是因果关系还是伪关系?讨论下面的关系是因果关系还是伪关系?1.冰淇淋的销量与儿童出事故次数之间 2.街上警察数量与犯罪数量之间 3.历史上,妇女裙子的长度与经济的好坏有关系:裙子越短,经济越景气。4.鹳的数量与丹麦乡间婴儿出生率的关系第15页,本讲稿共61页2008-1-4 16 不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性

10、相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 图示第16页,本讲稿共61页1.1.确定变量之间有无相关关系及其表现形确定变量之间有无相关关系及其表现形式式 三、相关分析的主要内容相关分析的主要内容 2.确定相关关系的密切程度确定相关关系的密切程度3.检验现象统计相关的显著性检验现象统计相关的显著性 4.广义上讲,相关分析还包括拟合回归方广义上讲,相关分析还包括拟合回

11、归方程程 第17页,本讲稿共61页定性分析定性分析是依据研究者的理论知识和实践经验,是依据研究者的理论知识和实践经验,是依据研究者的理论知识和实践经验,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以对客观现象之间是否存在相关关系,以对客观现象之间是否存在相关关系,以对客观现象之间是否存在相关关系,以及何种关系作出判断及何种关系作出判断及何种关系作出判断及何种关系作出判断定量分析定量分析在定性分析的基础上,通过编制在定性分析的基础上,通过编制相关相关表表、绘制、绘制相关图相关图、计算、计算相关系数相关系数相关系数相关系数等方等方法,来判断现象之间相关的方向、形态法,来判断现

12、象之间相关的方向、形态及密切程度及密切程度四、相关关系的测定四、相关关系的测定第18页,本讲稿共61页1相关表相关表相关表是一种反映变量之间相关关系的统计表。相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后再将与将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得其相关的另一变量的对应值平行排列,便可得到简单的相关表。到简单的相关表。例:某地区某企业近例:某地区某企业近8年产品产量与生产费用的相年产品产量与生产费用的相关情况如表所示:关情况如表所示:第19页,本讲稿共61页表 产品产量与生产费用相关表 从上表可看出,产品产量与生产费用之间

13、存在一定的正相关关系。从上表可看出,产品产量与生产费用之间存在一定的正相关关系。第20页,本讲稿共61页某市家庭收入与消费支出相关表某市家庭收入与消费支出相关表 第21页,本讲稿共61页 2、相关图:又称散点图。将、相关图:又称散点图。将x置于横轴上,置于横轴上,y置于置于纵轴上,将(纵轴上,将(x,y)绘于坐标图上。用来反映两变)绘于坐标图上。用来反映两变量之间相关关系的图形。量之间相关关系的图形。第22页,本讲稿共61页产品产量与生产费用相关图第23页,本讲稿共61页在在直线相关直线相关的条件下,用以反映的条件下,用以反映两变量两变量间间线性线性相关相关密切程度的统计指标,用密切程度的统计

14、指标,用r表示表示3、相关系数、相关系数第24页,本讲稿共61页公式可化简为如下公式:或:或:第25页,本讲稿共61页相关系数相关系数r r的取值范围:的取值范围:-1r1-1r1r0 为为正相关正相关,r 0 为为负相关负相关;|r|=0 表示不存在表示不存在线性线性关系;关系;|r|1 表示表示完全完全线性线性相关相关;0|r|1表示存在表示存在不同程度线性相关不同程度线性相关:|r|0.3 为低度线性相关;为低度线性相关;0.5|r|0.8为显著性线性相关;为显著性线性相关;0.8|r|1.0为为高度高度显著性线性相关。显著性线性相关。第26页,本讲稿共61页例例销售额销售额流通费用流通

15、费用第27页,本讲稿共61页y 473,x 662,y2 26507,x2 51656,xy 36933,n=10计算得人均可支配收入和消费支出间的简单计算得人均可支配收入和消费支出间的简单 相关系数为:相关系数为:第28页,本讲稿共61页第29页,本讲稿共61页 第二节第二节 回归分析回归分析(一)回归分析的概念(一)回归分析的概念是指对具有相关关系的现象,根据其相关关系的是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变归方程式),用来近似地表达变量间的平均变化关系的一种统计分析

16、方法。化关系的一种统计分析方法。一、回归分析概述一、回归分析概述第30页,本讲稿共61页(二)、回归分析与相关分析的区别(二)、回归分析与相关分析的区别1.相相关关分分析析中中,变变量量 x 变变量量 y 处处于于平平等等的的地地位位;回回归归分分析析中中,变变量量 y 称称为为因因变变量量,处处在在被被解解释释的的地地位位,x 称称为为自自变量,用于预测因变量的变化变量,用于预测因变量的变化2.相相关关分分析析中中所所涉涉及及的的变变量量 x 和和 y 都都是是随随机机变变量量;回回归归分分析析中中,因因变变量量 y 是是随随机机变变量量,自自变变量量 x 可可以以是是随随机机变变量量,也可

17、以是非随机的确定变量也可以是非随机的确定变量3.相相关关分分析析主主要要是是描描述述两两个个变变量量之之间间线线性性关关系系的的密密切切程程度度;回回归归分分析析不不仅仅可可以以揭揭示示变变量量 x 对对变变量量 y 的的影影响响大大小小,还还可可以由回归方程进行预测和控制以由回归方程进行预测和控制 第31页,本讲稿共61页(三)、回归模型的类型(三)、回归模型的类型第32页,本讲稿共61页(四)、回归分析的主要内容 l根据研究目的和现象之间的内在联系,根据研究目的和现象之间的内在联系,确确 定自变量和因变量定自变量和因变量l确定回归分析模型的类型及数学表达式确定回归分析模型的类型及数学表达式

18、l对回归分析模型进行评价与诊断对回归分析模型进行评价与诊断l根据给定的自变量数值确定因变量的数根据给定的自变量数值确定因变量的数值值第33页,本讲稿共61页二、一元线性回归二、一元线性回归1 1、定义、定义:一元线性回归预测是在:一元线性回归预测是在一个因变量一个因变量与一个自变量之间与一个自变量之间进行的进行的线性相关关系线性相关关系的回的回归预测。归预测。2 2、回归步骤、回归步骤一元线性回归的基本步骤如下:一元线性回归的基本步骤如下:第一步:绘制第一步:绘制散点图散点图,观察自变量与因变量,观察自变量与因变量之间的相互关系;之间的相互关系;第二步:建立一元线性回归模型;第二步:建立一元线

19、性回归模型;第三步:对预测模型进行检验;第三步:对预测模型进行检验;第四步:进行预测。第四步:进行预测。第34页,本讲稿共61页3、一元线性回归模型的一般形式、一元线性回归模型的一般形式(1)总体一元线性回归模型的一般形式)总体一元线性回归模型的一般形式Y的数学期望的数学期望E(Yi)随机误差随机误差也称一元线性回归方程,是对应于自变量也称一元线性回归方程,是对应于自变量X某一取值时因变量某一取值时因变量Y的均值。的均值。未知参数未知参数Yi=+Xi+i 第35页,本讲稿共61页回归系数回归系数b表明自变量表明自变量x每变化一个单位因变量每变化一个单位因变量y的平均的平均增(减)量。增(减)量

20、。(2)样本的一元线性回归模型和回归方程)样本的一元线性回归模型和回归方程一元线性回归模型一元线性回归模型:一元线性回归方程一元线性回归方程:截距截距斜率(回归系数)斜率(回归系数)第36页,本讲稿共61页整理得整理得:最后解得:最后解得:设估计模型为设估计模型为(3)参数估计)参数估计第37页,本讲稿共61页2008-1-4 38 相关系数与回归系数的关系r0 r0 r=0b0 b0 b=0第38页,本讲稿共61页例:某企业对车例:某企业对车间间9名学徒工进行名学徒工进行调查,得到学徒调查,得到学徒期限与每天产量期限与每天产量情况如右表所示,情况如右表所示,要求建立以日产要求建立以日产量为因

21、变量的回量为因变量的回归方程。归方程。所以回归方程为所以回归方程为yc=0.83+87.5x第39页,本讲稿共61页(4)回归估计标准误 q在散点图上可以拟合一条与各观测点配合最佳的直在散点图上可以拟合一条与各观测点配合最佳的直线,但这些观测点所代表的若干对观测值,只是从线,但这些观测点所代表的若干对观测值,只是从总体中抽取的一个样本。由观测值求出的回归直线总体中抽取的一个样本。由观测值求出的回归直线称为样本回归直线,它只是总体回归直线的一个估称为样本回归直线,它只是总体回归直线的一个估计线,因此在做回归分析时需要对拟合的回归方程计线,因此在做回归分析时需要对拟合的回归方程的代表性进行衡量。的

22、代表性进行衡量。q估计误差的大小能反映估计值的准确性。估计误差的大小能反映估计值的准确性。第40页,本讲稿共61页 n-2为自由度,这是因为按最小二乘法求解两个参数为自由度,这是因为按最小二乘法求解两个参数a和和b,受到两个正规方程的约束,失去了两个自由度。,受到两个正规方程的约束,失去了两个自由度。离差平方和的平均数称为剩余方差,即离差平方和的平均数称为剩余方差,即对剩余方差开方即得回归估计标准误,又称估计标准对剩余方差开方即得回归估计标准误,又称估计标准误差误差,即,即第41页,本讲稿共61页变差的产生变差的产生 在在直直线线回回归归中中,因因变变量量y的的大大小小取取值值是是不不同同的的

23、,它它围围绕绕平平均均值值上上下下波波动动。y 取取值值的的这这种种波波动动称称为为变变差差。变变差差来来源源于于两两个个方方面面:一一是是由由于于自自变变量量 x 的的取取值值不不同同造造成成的的;二二是是除除 x 以以外外的的其其他他因因素素(如如x对对y的的非非线线性性影影响响、测测量量误误差差等等)的影响造成的。的影响造成的。(5)回归方程判定系数 第42页,本讲稿共61页两边平方得两边平方得两边求和并化两边求和并化简得简得第43页,本讲稿共61页变差的分解变差的分解反映由于反映由于 x 与与 y 之间的线性关系引起的之间的线性关系引起的 y 的取值变的取值变化,也称可解释的变差。化,

24、也称可解释的变差。回归变差回归变差回归变差回归变差 (SSRSSR)TSS=SSR+SSE总变差总变差总变差总变差 (TSSTSS)剩余变差剩余变差剩余变差剩余变差 或残差或残差或残差或残差 (SSESSE)第44页,本讲稿共61页回归变差占总变差的比例,称为判定系数。回归变差占总变差的比例,称为判定系数。回归变差占总变差的比例,称为判定系数。回归变差占总变差的比例,称为判定系数。*也称可决系数或确定系数。是反映回归直线的拟合优度的也称可决系数或确定系数。是反映回归直线的拟合优度的也称可决系数或确定系数。是反映回归直线的拟合优度的也称可决系数或确定系数。是反映回归直线的拟合优度的统计指标。统计

25、指标。统计指标。统计指标。R R2 2 1 1,说明回归方程拟合得越好;,说明回归方程拟合得越好;,说明回归方程拟合得越好;,说明回归方程拟合得越好;R R2 20 0,说明回归方程拟合越差。,说明回归方程拟合越差。,说明回归方程拟合越差。,说明回归方程拟合越差。*R R2 2的取值范围在的取值范围在的取值范围在的取值范围在 0,1 0,1 之间,在一元线形模型中,之间,在一元线形模型中,之间,在一元线形模型中,之间,在一元线形模型中,判定判定判定判定系数就等于相关系数的平方,即系数就等于相关系数的平方,即系数就等于相关系数的平方,即系数就等于相关系数的平方,即R R2 2r r2 2判定系数

26、判定系数第45页,本讲稿共61页2008-1-4 46 三、多元线性回归分析1、多元线性回归定义、多元线性回归定义 一个因变量与两个及两个以上自变量之间的回归.描述因变量 y 如何依赖于自变量 x1,x2,xp 和误差项 的方程称为多元线性回归模型 涉及 p 个自变量的多元线性回归模型可表示为 0 ,1 1,2 2,p是参数是参数 常数项,常数项,和和Y构成的平面与构成的平面与Y轴的截距轴的截距 偏回归系数,表示在其他偏回归系数,表示在其他 固定时固定时 每变化一个每变化一个 单位引起的单位引起的Y的平均变动;的平均变动;第46页,本讲稿共61页2 2、多元线性回归模型、多元线性回归模型 多元

27、线性回归的一般方程式为:多元线性回归的一般方程式为:同样根据最小二乘法原理,可得:同样根据最小二乘法原理,可得:一般都要用统计软件来计算参数一般都要用统计软件来计算参数 第47页,本讲稿共61页3多元线性回归模型的判定系数和估计标准误多元线性回归模型的判定系数和估计标准误判定系数判定系数修正的判定系数:修正的判定系数:第48页,本讲稿共61页估计标准误估计标准误 r2和和Sy(x1、x2)都是对回归模型拟合优度的评价指标。都是对回归模型拟合优度的评价指标。Sy(x1、x2)也是用自变量对因变量进行区间估计的抽样误也是用自变量对因变量进行区间估计的抽样误差。差。第49页,本讲稿共61页2008-

28、1-4 50 四、非线性相关与回归分析(一)、非线性函数形式的确定(一)、非线性函数形式的确定 在对实际的客观现象进行定量分析时,选择回归方程的具体形式应遵循以下原则:l首先,方程形式应与有关实质性科学的基本理论相一致。例如,采用幂函数的形式,能够较好地表现生产函数;采用多项式方程能够较好地反映总成本与总产量之间的关系等等。第50页,本讲稿共61页2008-1-4 51 -其次,方程有较高的拟合程度。因为只有这样,才能说明回归方程可以较好地反映现实经济的运行情况。-最后,方程的数学形式要尽可能简单。如果几种形式都能基本符合上述两项要求,则应该选择其中数学形式较简单的一种。一般来说,数学形式越简

29、单,其可操作性就越强。n 第51页,本讲稿共61页2008-1-4 52 n(一)抛物线函数 n(二)双曲线函数 n(三)幂函数 n(四)指数函数 n(五)对数函数 n(六)形曲线函数 n(七)多项式方程第52页,本讲稿共61页2008-1-4 53 几种常见的非线性模型n 指数函数2.线性化方法线性化方法 两端取对数得:两端取对数得:lny=ln +x 令:令:y=lny,则有,则有y=ln +x1.基本形式基本形式:3.图像图像 第53页,本讲稿共61页2008-1-4 54 幂函数2.线性化方法线性化方法 两端取对数得:两端取对数得:lg y=lg +lg x 令:令:y=lgy,x=l

30、g x,则则y=lg +x 1.基本形式:基本形式:3.图像图像00 1 1 1 1 =1=1-1-1 0 0 -1-1 =-1=-1 第54页,本讲稿共61页2008-1-4 55 双曲线函数2.线性化方法线性化方法 令:令:y=1/y,x=1/x,则有则有y=+x 1.基本形式:基本形式:3.图像图像 0 0 第55页,本讲稿共61页2008-1-4 56 对数函数2.线性化方法线性化方法 x=lgx,则有则有y=+x1.基本形式:基本形式:3.图像图像图像图像 0 0 0 0 第56页,本讲稿共61页2008-1-4 57 S 型曲线2.线性化方法线性化方法 令:令:y=1/y,x=e-

31、x,则有则有y=+x1.基本形式:基本形式:3.图像图像第57页,本讲稿共61页2008-1-4 58 非线性回归(实例)【例例】为研究生产率与废品率之间的关系,记录数据如下表。试拟合适当的模型。废品率与生产率的关系生产率(周生产率(周/单位单位)x1000200030003500 4000 4500 5000废品率(废品率(%)y5.26.56.88.110.210.313.0第58页,本讲稿共61页2008-1-4 59 生产率与废品率的散点图生产率与废品率的散点图第59页,本讲稿共61页2008-1-4 60 非线性回归(实例)1.用线性模型:y=01x+,有 y=2.671+0.0018x 2.用指数模型:y=x ,有 y=4.05(1.0002)x 3.比较 直线的残差平方和5.3371指数模型的残差平方和6.11。直线模型略好于指数模型第60页,本讲稿共61页2008-1-4 61 第61页,本讲稿共61页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 资格考试

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁