《《相关与回归》PPT课件 (2).ppt》由会员分享,可在线阅读,更多相关《《相关与回归》PPT课件 (2).ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八章 相关与回归相关分析概述相关分析概述相关关系的测定相关关系的测定一元线性回归分析一元线性回归分析第一节 相关分析概述一、函数关系与相关关系一、函数关系与相关关系正方形面积与边长;脚长与智商;销售收入正方形面积与边长;脚长与智商;销售收入和消费情况;广告投入与销售收入;和消费情况;广告投入与销售收入;GDPGDP与精神病与精神病患者;头发长与见识短患者;头发长与见识短1.1.函数关系:函数关系:变量之间存在严格的数量关系。变量之间存在严格的数量关系。2.2.相关关系:相关关系:变量之间存在不确定的依存变量之间存在不确定的依存关系。关系。二、分类二、分类1.1.按相关关系涉及的变量多少划分:
2、单相关、复相按相关关系涉及的变量多少划分:单相关、复相关、偏相关。关、偏相关。2.2.按相关形式划分:线性相关和曲线相关。按相关形式划分:线性相关和曲线相关。3.3.按相关的方向划分:正相关和负相关。按相关的方向划分:正相关和负相关。4.4.按相关关系的程度划分:完全相关,不完全相关按相关关系的程度划分:完全相关,不完全相关和不相关。和不相关。5.5.按相关性质分为:真实相关和虚假相关。按相关性质分为:真实相关和虚假相关。二、相关关系的种类二、相关关系的种类相关分析:研究变量之间相关方向和相关密相关分析:研究变量之间相关方向和相关密切程度的统计分析方法。切程度的统计分析方法。(1 1)确定现象
3、之间有无相关关系,以及相关)确定现象之间有无相关关系,以及相关关系的表现形态关系的表现形态(2 2)确定相关关系的密切程度)确定相关关系的密切程度(3 3)建立合适的数学模型)建立合适的数学模型(4 4)测定估计值的可靠程度)测定估计值的可靠程度 三、相关分析的内容三、相关分析的内容定性分析定性分析依据研究者的理论知识和实践经验,依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,对客观现象之间是否存在相关关系,以及何种关系作出判断。以及何种关系作出判断。定量分析定量分析在在定性分析的基础上,通过编制定性分析的基础上,通过编制相相关表关表、绘制、绘制相关图相关图、计算、计算相关系数
4、相关系数等方法,来判断现象之间相关的方等方法,来判断现象之间相关的方向、形态及密切程度。向、形态及密切程度。第二节 相关关系的测定一、相关图:又称散点图。将一、相关图:又称散点图。将x x置于横轴上,置于横轴上,y y置于纵轴置于纵轴上,将(上,将(x,yx,y)绘于坐标图上。绘于坐标图上。用来反映两变量之间相关关用来反映两变量之间相关关系的图形。系的图形。二、相关系数二、相关系数(一一)相关系数的定义相关系数的定义1 1、相关系数:在线性条件下说明两个变量之间相关关、相关系数:在线性条件下说明两个变量之间相关关系密切程度的统计分析指标。系密切程度的统计分析指标。2 2、相关系数、相关系数r
5、r的取值的取值范围:范围:-1r1-1r10|r|10|r|1表示存在表示存在表示存在表示存在不同程度线性相关不同程度线性相关不同程度线性相关不同程度线性相关:|r|0 为为正相关正相关,r 0 为为负相关负相关;|r|=0 表示不存在线性关系;表示不存在线性关系;|r|1 表示表示完全线性相关完全线性相关;(函数关系);(函数关系)例:下表是有关例:下表是有关15个地区某种食物需求量和地区人口个地区某种食物需求量和地区人口增加量的资料。增加量的资料。(1 1)相关关系不等于因果关系;)相关关系不等于因果关系;(2 2)相关系数只度量变量间的线性)相关系数只度量变量间的线性关系,因此,弱相关不
6、一定表明变关系,因此,弱相关不一定表明变量间没有关系;量间没有关系;(3 3)极端值可能影响相关系数。)极端值可能影响相关系数。(4 4)警惕虚假相关)警惕虚假相关3 3、使用相关系数时应注意的问题、使用相关系数时应注意的问题第三节第三节 一元线性回归分析一元线性回归分析回归分析回归分析通过一个变量通过一个变量x x或一些变量或一些变量(x(x1,1,x x2,2,x x3 3)的变化解释另一变量的变化解释另一变量y y的变化。即根据的变化。即根据相关关系的数量表达式(回归方程式)相关关系的数量表达式(回归方程式)与给定的与给定的自变量自变量x x,揭示揭示因变量因变量y y在数量在数量上的平
7、均变化和求得因变量的预测值的上的平均变化和求得因变量的预测值的统计分析方法统计分析方法回归方程回归方程回归模型回归模型反映自变量和因变量之间数学反映自变量和因变量之间数学联系的表达式。联系的表达式。某一类回归方程的总称。某一类回归方程的总称。1 1、根据理论和对问题的分析判断,、根据理论和对问题的分析判断,区区分自变量和因变量;分自变量和因变量;2 2、设法找出适合的数学方程式、设法找出适合的数学方程式(即即 回归模型回归模型)描述变量间的关系描述变量间的关系 3、对回归模型进行统计检验对回归模型进行统计检验;4、统计检验通过后,利用回归模型,统计检验通过后,利用回归模型,根据解释变量去估计,
8、预测根据解释变量去估计,预测 因变因变量。量。一、回归分析的内容一、回归分析的内容一个自变量一个自变量一个自变量一个自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量两个及两个以上自变量回归模型回归模型多元回归多元回归一元回归一元回归线性线性回归回归非线性非线性回归回归线性线性回归回归非线性非线性回归回归二、一元线性回归方程二、一元线性回归方程样本一元线性回归方程样本一元线性回归方程:斜率(回归系数)斜率(回归系数)截距截距截距截距a a 表示在没有自变量表示在没有自变量x x的影响时,其它各的影响时,其它各种因素对因变量种因素对因变量y y的平均影响;的平均影响;回归系数回归
9、系数b b 表表明自变量明自变量x x每变动一个单位,因变量每变动一个单位,因变量y y平均变平均变动动b b个单位。个单位。(估计的回归方程估计的回归方程)三、直线回归方程的求解原理最小二乘法1.使因变量的观察值与估计值之间的离差平方和达使因变量的观察值与估计值之间的离差平方和达到最小来求得到最小来求得 a 和和 b 的方法。的方法。2.用用最最小小二二乘乘法法拟拟合合的的直直线线来来代代表表x与与y之之间间的的关关系与实际数据的误差比其他任何直线都小。系与实际数据的误差比其他任何直线都小。例:配合回归直线思考题不定向选择不定向选择1 1、圆的面积与半径之间存在着(、圆的面积与半径之间存在着
10、()A A 相关关系相关关系 B B 因果关系因果关系C C 函数关系函数关系 D D比较关系比较关系2 2、下列现象属于相关关系的有(、下列现象属于相关关系的有()A A 职工家庭收入不断增加,消费支出也相应增加职工家庭收入不断增加,消费支出也相应增加 B B 工人文化技术水平越工人文化技术水平越高,劳动效率也越高高,劳动效率也越高 C C 在电阻一定的电路中,电压随电流强度大小而确定在电阻一定的电路中,电压随电流强度大小而确定 D D 农作物施肥量增加,产量也随之增加。农作物施肥量增加,产量也随之增加。3 3、自变量的值按一定数量增加时,应变量相应地按等量增加数量,反之亦、自变量的值按一定
11、数量增加时,应变量相应地按等量增加数量,反之亦然,那么自变量和应变量之间存在着(然,那么自变量和应变量之间存在着()A A 正相关关系正相关关系 B B 负相关关系负相关关系 C C 直线相关关系直线相关关系 D D 曲线相关关系曲线相关关系 E E零相关关系零相关关系4 4、如果两个变量之间相关系数是、如果两个变量之间相关系数是1 1,则两个变量是(,则两个变量是()A A 负相关关系负相关关系 B B 正相关关系正相关关系 C C 完全相关关系完全相关关系 D D 不完全相关关系不完全相关关系5 5、如果两变量将的相关系数为、如果两变量将的相关系数为-1-1,说明两变量间(,说明两变量间(
12、)A A 高度相关关系高度相关关系 B B 完全相关关系完全相关关系 C C 低度相关关系低度相关关系 D D 完全不相关完全不相关四、一元线性回归方程的检验(一)回归模型检验的种类 回归模型的检验包括理论意义检验、回归方程的检验和回归系数的检验。(二)拟合程度的评价 1、拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。2、判断回归模型拟合程度优劣最常用的数量尺度是决定系数。它是建立在对总离差平方和进行分解的基础之上的。3、离差平方和的分解因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面:由于自变量 x 的取值不同造成的;除 x 以外的其他因素(如x对y的非线
13、性影响、测量误差等)的影响。x xy yy y 离差分解图离差分解图3、离差平方和的分解(三个平方和的关系)2)两端平方后求和有1 1 1 1)从图上看有)从图上看有)从图上看有)从图上看有SST=SSR+SSE总离差平方和总离差平方和(SST)回归平方和回归平方和(SSR)残差平方和残差平方和(SSE)4、决定系数(r2)1)回归平方和占总离差平方和的比例2)反映回归直线的拟合程度)反映回归直线的拟合程度3)取值范围在)取值范围在 0,1 之间之间4)r2 1,说明回归方程拟合的越好;说明回归方程拟合的越好;r20,说明回归方程拟合的越差说明回归方程拟合的越差5)判定系数等于相关系数的平方,
14、即)判定系数等于相关系数的平方,即r2(r)2(三)回归方程的显著性检验1、检验自变量和因变量之间的线性关系是否显著具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系2、检验的步骤1)提出假设H0:线性关系不显著 2)计算检验统计量计算检验统计量F3)确定显著性水平)确定显著性水平,并根据分子自由度,并根据分子自由度1和分和分母自由度母自由度n-2找出临界值找出临界值F 4)作出决策:若)作出决策:若F F ,拒绝拒绝H0;若若Ft,拒绝拒绝H0;t t=2.
15、201,拒拒绝绝H0,表表明明人人均均收收入入与人均消费之间有线性关系与人均消费之间有线性关系对前例的回归系数进行显著性检验对前例的回归系数进行显著性检验(0.05)7、Excel输出的结果五、一元线性回归方程的预测1、根据自变量 x 的取值估计或预测因变量 y的取值2、估计或预测的类型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间估计3、置信区间估计(1)y 的平均值的置信区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的平均值E(y0)的估计区间,这一估计区间称为置信区间置信区间(2)E(y0)在1-置信水平下的置信区间为式式
16、中中:Sy为为估估计计标标准准误误差差(3)影响区间宽度的因素1)置信水平(1-)区间宽度随置信水平的增大而增大2)数据的离散程度(s)区间宽度随离散程度的增大而增大3)样本容量区间宽度随样本容量的增大而减小4)用于预测的 xp与x的差异程度区间宽度随 xp与x 的差异程度的增大而增大置信区间、回归方程xp pyx x置信上限置信下限第四节 多元线性相关与回归分析一、多元线性回归模型1、定义:一个因变量与两个及两个以上自变量之间的回归描述因变量 y 如何依赖于自变量 x1,x2,xp 和误差项 的方程称为多元线性回归模型 0 ,1 1,p是参数是参数 是被称为误差项的随机变量是被称为误差项的随
17、机变量 y 是是x1,,x2 ,xp 的线性函数加上误差项的线性函数加上误差项 说说明明了了包包含含在在y里里面面但但不不能能被被p个个自自变变量量的的线线性关系所解释的变异性性关系所解释的变异性多元线性回归模型 对于 n 组实际观察数据(yi;xi1,,xi2,xip),(i=1,2,n),多元线性回归模型可表示为y1=+1 1 x11+x12+px1p+1 1y2=+1 1 x21+x22+px2p+yn=+1 1 xn1+xn2+pxnp+n 二、参数的最小二乘法2.根根据据最最小小二二乘乘法法的的要要求求,可可得得求求解解各各回回归归参参数数 的标准方程如下的标准方程如下1.使使因因变
18、变量量的的观观察察值值与与估估计计值值之之间间的的离离差差平平方方和和达到最小来求得达到最小来求得 。即即三、显著性检验(线性关系的检验)1、回归方程的检验:将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用 F 检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系2、回归系数的检验:对每一个自变量都要单独进行检验,应用 t 检验在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验。第五节非线性相关与回归分析一、非线性函数形式的确定1、选择回归方程的具体形式应遵循以下原则:首先,方程形式应与有关
19、实质性科学的基本理论相一致。其次,方程有较高的拟合程度。最后,方程的数学形式要尽可能简单。二、几种常见的非线性模型(一)指数函数2.线性化方法线性化方法两端取对数得:两端取对数得:lny=ln +x令:令:y=lny,则有则有y=ln +x1.基本形式基本形式:3.图像图像 二、几种常见的非线性模型(二)幂函数2.线性化方法线性化方法两端取对数得:两端取对数得:lg y=lg +lg x令:令:y=lgy,x=lg x,则,则y=lg +x1.基本形式:基本形式:3.图像图像00 1 1 1 1 =1=1-1-1 0 0 -1-1 =-1=-1 二、几种常见的非线性模型(三)双曲线函数2.线性
20、化方法线性化方法令:令:y=1/y,x=1/x,则有则有y=+x1.基本形式:基本形式:3.图像图像 0 0二、几种常见的非线性模型(四)对数函数2.线性化方法线性化方法x=lgx,则有则有y=+x1.基本形式基本形式:3.图像图像 0 0 0 0 几种常见的非线性模型2.线性化方法线性化方法令:令:y=1/y,x=e-x,则有则有y=+x1.基本形式基本形式:3.图像图像(五)S 型曲线三、非线性回归【例例】为研究生产率与废品率之间的关系,记录数据如下表。试拟合适当的模型。废品率与生产率的关系生产率(周生产率(周/单位单位)x1000200030003500400045005000废品率(废品率(%)y5.26.56.88.110.210.313.0生产率与废品率的散点图生产率与废品率的散点图用线性模型:y=01x+,有y=2.671+0.0018x用指数模型:y=x ,有y=4.05(1.0002)x比较 直线的残差平方和5.3371指数模型的残差平方和6.11。直线模型略好于指数模型小结小结1、相关分析相关系数2、回归分析一元回归多元回归回归模型的检验20102010年年4 4月月再见!再见!