统计学原理 第八章 相关与回归分析.ppt

上传人:s****8 文档编号:67268766 上传时间:2022-12-24 格式:PPT 页数:55 大小:622.50KB
返回 下载 相关 举报
统计学原理 第八章 相关与回归分析.ppt_第1页
第1页 / 共55页
统计学原理 第八章 相关与回归分析.ppt_第2页
第2页 / 共55页
点击查看更多>>
资源描述

《统计学原理 第八章 相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《统计学原理 第八章 相关与回归分析.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第八章第八章 相关分析相关分析l第一节 相关分析概述l第二节 直线相关关系的测定 l第三节 回归分析第一节 相关分析概述l一、相关关系的概念l现象相互之间的数量关系可以从形式上分为两种类型:一类是严格的确定性的函数关系,另一类是不严格的不确定性的相关关系。l相关关系是现象之间确实存在有数量上的依存关系,但这种数量上的关系是不确定的。变量间的关系函数关系(几个例子)函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额(y y)与与销销售售量量(x x)之之间间的的关关系系可表示为可表示为 y y=pxpx (p p 为单价为单价)圆圆 的的 面面 积积(S)(S)与与 半半 径径 之之

2、间间 的的 关关 系系 可可 表表 示示 为为S S=R R2 2 企企业业的的原原材材料料消消耗耗额额(y y)与与产产量量(x x1 1)、单单位位产产量量消消耗耗(x x2 2)、原原材材料料价价格格(x x3 3)之之间间的的关关系系可可表表示为示为y y=x x1 1 x x2 2 x x3 3 函数关系1.是一一对应的确定关系2.设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量3.各观测点落在一条线上 x xy y相关关

3、系(几个例子)相关关系的例子相关关系的例子父亲身高父亲身高(y y)与子女身高与子女身高(x x)之间的关系之间的关系收入水平收入水平(y y)与受教育程度与受教育程度(x x)之间的关系之间的关系粮粮食食亩亩产产量量(y y)与与施施肥肥量量(x x1 1)、降降雨雨量量(x x2 2)、温度温度(x x3 3)之间的关系之间的关系商商品品的的消消费费量量(y y)与与居居民民收收入入(x x)之之间间的的关关系系商商品品销销售售额额(y y)与与广广告告费费支支出出(x x)之之间间的的关关系系相关关系(correlation)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另

4、一个变量唯一确定3.当变量 x 取某个值时,变量 y 的取值可能有几个4.各观测点分布在直线周围 x xy y二、相关关系的种类 (1)相关关系按涉及的变量变量的多少多少分为单相关、单相关、复相关和偏相关。复相关和偏相关。单相关就是两个变量之间的相关关系。是研究一个因变量与一个自变量的依存关系。复相关就是多个变量之间的相关关系。是研究一个因变量与两个或两个以上自变量的依存关系。偏相关就是在复相关研究中,如果假定其它变量不变,仅研究某一个变量对另一个变量的依存关系。(2)相关关系按方向不同分为正相关和负正相关和负相关相关。正相关是指变量之间存在着同向变动的相关关系,即当一个变量的数值有小变大,另

5、一个变量的数值也相应地由小变大 负相关是指变量之间存在着反向变动的相关关系,即当一个变量的数值有小变大,另一个变量的数值却由大变小。(3)相关关系按表现的形式不同分为线性相关和线性相关和非线性相关非线性相关。当一个变量变动时,另一个变量也随之发生大致均等的变动,从图形上看,二者对应点分布近似地在一条直线附近,这种相关关系就称为线性相关关系。当一个变量变动时,另一个变量也随之发生变动,但从图形上看,二者对应点分布近似地在一条曲线附近,这种相关关系就称为非线性相关关系。(4)相关关系按相关程度不同分为完全相关、不完全相关、不完全相关和不相关。完全相关和不相关。完全相关就是当一个变量的变动完全由另一

6、个变量的变动所决定。(函数关系)当两个变量之间完全不存在任何依存关系,各自独立变动,其相关程度为零,称为不相关或零相关。当变量之间的关系介于完全相关与不相关之间,称为不完全相关。三、相关分析的内容l1.确定现象之间是否存在相关关系,以及相关关系的表现形式l2.测定相关关系的密切程度和方向l3.确定现象之间相关关系的一般关系式l4.测定变量估计值的可靠程度第二节 直线相关关系的测定 判断现象之间有无相关关系,应先进行定性分析,即依据理判断现象之间有无相关关系,应先进行定性分析,即依据理判断现象之间有无相关关系,应先进行定性分析,即依据理判断现象之间有无相关关系,应先进行定性分析,即依据理论知识、

7、实践经验对现象之间是否存在相关关系及相关关论知识、实践经验对现象之间是否存在相关关系及相关关论知识、实践经验对现象之间是否存在相关关系及相关关论知识、实践经验对现象之间是否存在相关关系及相关关系的类型作出判断。然后在此基础上进行定量分析,即运系的类型作出判断。然后在此基础上进行定量分析,即运系的类型作出判断。然后在此基础上进行定量分析,即运系的类型作出判断。然后在此基础上进行定量分析,即运用相关图、相关表和相关系数等方法对现象之间的相关关用相关图、相关表和相关系数等方法对现象之间的相关关用相关图、相关表和相关系数等方法对现象之间的相关关用相关图、相关表和相关系数等方法对现象之间的相关关系进行描

8、述与测度。系进行描述与测度。系进行描述与测度。系进行描述与测度。相关表相关表相关表相关表 相关关系的图示相关关系的图示 相关系数相关系数相关系数相关系数一、相关表相关表是指按照相关现象的数量对应关系以及一定的逻辑顺序编制成的一种统计表。通过相关表可以初步看出各变量之间的相关关系。某企业2006年某种产品产量与总成本相关表月份1234562.43.14.35.24.46.1324351615378产产量(万吨)量(万吨)总总成本(万元)成本(万元)二、相关图l相关图是指把相关表中原始的对应数值在平面直角坐标图中用点描绘出来,用以反映其分布状况的统计图,也称散点图、散布图。l从相关点的分布情况,就

9、可以直观地、近似地观察出两个变量之间有无相关关系、相关关系的形式和相关关系的密切程度。图11-1 某企业2006年产量与总成本相关图散点图(scatter diagram)不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关 正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关 非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关 完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关 散点图(例题分析)【例例】一家大型

10、商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据 散点图(例题分析)散点图散点图(例题分析例题分析)三、相关系数1.相关系数的概念及其公式相关表与相关图只能大致反映变量间的相关关系要准确反映变量之间的相关程度,就需要计算相关系数。相关系数相关系数是测量变量之间的密切程度的指标。测定两个变量之间线性关系

11、密切程度的指标称为单线性相关系数或线性单相关系数。通常用字母 表示。积差法公式:(简单式)(简单式)相关系数简捷法计算表月份月份1234562.43.14.35.24.46.13243516153785.769.6118.4927.0419.3637.2110241849260137212809608476.8133.3219.3317.2233.2475.8合合计计25.5318117.47180881455.6产产量量总总成本成本例:某地区例:某地区1985198519961996年人均月收入和商品销售额资料如下,年人均月收入和商品销售额资料如下,计算相关系数并检验。计算相关系数并检验。年

12、份 人均月收入 商品销售额 x2 y2 xy1985 480 220 230400 48400 1056001986 560 280 313600 78400 1568001987 600 300 360000 90000 1800001988 610 320 372100 102400 1952001989 620 330 384400 108900 2046001990 650 335 422500 112225 2177501991 670 340 448900 115600 2278001992 700 352 490000 123904 2464001993 750 380 5625

13、00 144400 2850001994 780 400 608400 160000 3120001995 820 405 672400 164025 3321001996 850 425 722500 180625 361250合计 8090 4087 5587700 1428879 2824500 根据公式:根据公式:2.相关关系的密切程度的判断标准l相关系数的取值范围一定是在1 +1,或0 1这一闭区间。l当 =1时,表示与变量为完全相关,即确定性的函数关系。l当 =0时,表明所有的相关点的分布都是杂乱无章的,说明变量与变量无关。l如果0 1,表示 为正相关;l当-1 0时,表示 为负相

14、关,。00.3,为为微弱相关;微弱相关;0.30.5,为为低度相关;低度相关;0.50.8,为显为显著相关;著相关;0.81,为为高度相关。高度相关。相关系数(取值及其意义)-1.0+1.00-0.5+0.5完全负相关完全负相关完全负相关完全负相关无线性相关无线性相关无线性相关无线性相关完全正相关完全正相关完全正相关完全正相关负负负负相关程度增加相关程度增加相关程度增加相关程度增加r正相关程度增加正相关程度增加正相关程度增加正相关程度增加3.直线相关分析的特点l1)参与相关分析的两个变量是对等关系,不分自变量和因变量,因此,相关系数只有一个。l2)相关系数有正负号,它们反映相关关系的方向,正号

15、反映正相关,负号反映负相关。l3)相关的两个变量必须是随机的,这也是对等关系的反映。第三节 回归分析一、回归分析的含义一、回归分析的含义一、回归分析的含义一、回归分析的含义 什么是回归什么是回归什么是回归什么是回归回归回归回归回归是由英国著名统计学家是由英国著名统计学家Francis GaltonFrancis Galton在在1919世纪末期研究孩子及其父母的身高时提出来的。世纪末期研究孩子及其父母的身高时提出来的。GaltonGalton发现身材高的父母,他们的孩子也高。但发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们父母那样高。比较这些孩子平均起来并不像他们父母那样高。比

16、较矮的父母情形也类似:他们的孩子比较矮,但这矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们父母的平均身高高。些孩子的平均身高要比他们父母的平均身高高。GaltonGalton把这种孩子的身高向中间值靠近的趋势称把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变之为一种回归效应,而他发展的研究两个数值变量之间数量关系的方法称为量之间数量关系的方法称为回归分析回归分析回归分析回归分析。什么是回归分析?1.从一组样本数据出发,确定变量之间的数学关系式2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些

17、不显著3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归分析与相关分析的关系l联系:二者都是对客观事物数量依存关系的分析。一方面,相关分析是回归分析的基础和前提。另一方面,回归分析是相关分析的深入和继续。回归分析与相关分析的区别1.相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化2.相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量3.相关分析主要是描述两个

18、变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制 二、简单直线回归方程的配合方法l回归方程式,其一般形式为:l应用最小平方法原理有:三、估计标准误差l估计标准误差是就是观察值 对估计值 的平均离差,也叫回归误差,是衡量因变量的估计值与观测值之间的平均误差大小的指标。l简捷公式:四、估计标准误差和相关系数的关系回归模型的类型一元线性回归模型一元线性回归1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependent variable),用y表示用来预测或用来解释因变量的一个或多个变量称为

19、自变量(independent variable),用x表示 3.因变量与自变量之间的关系用一条线性方程来表示回归模型(regression model)1.回答“变量之间是什么样的关系?”2.方程中运用1 个数字的因变量(响应变量)被预测的变量1 个或多个数字的或分类的自变量(解释变量)用于预测的变量l3.主要用于预测和估计一元线性回归模型1.描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型回归模型2.一元线性回归模型可表示为 y=A +B B x+e ey 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x

20、 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性A和 B称为模型的参数一元线性回归模型(基本假定)1.误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为2.Y=A+B x3.对于所有的 x 值,的方差2 都相同4.误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关回归方程(regression equation)1.描述 y 的平均值或期望值如

21、何依赖于 x 的方程称为回归方程回归方程2.一元线性回归方程的形式如下3.Y=A+Bx方程的图示是一条直线,也称为直线回归方程方程的图示是一条直线,也称为直线回归方程A A是是回回归归直直线线在在 y y 轴轴上上的的截截距距,是是当当 x x=0=0 时时 y y 的的期期望值望值B B是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x x 每每变变动动一个单位时,一个单位时,y y 的平均变动值的平均变动值估计的回归方程(estimated regression equation)1.1.总体回归参数总体回归参数 A A和和 B B是未知的,必需利用样本数是未知的,必需利

22、用样本数据去估计据去估计2.2.用样本统计量用样本统计量a a和和b b代替回归方程中的未知参数代替回归方程中的未知参数A A和和B B,就得到了,就得到了估计的回归方程估计的回归方程估计的回归方程估计的回归方程3.3.一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为Yc=a+bxYc=a+bx其中:其中:a a是估计的回归直线在是估计的回归直线在 y y 轴上的截距,轴上的截距,b b是是直线的斜率,它表示对于一个给定的直线的斜率,它表示对于一个给定的 x x 的值,的值,YcYc是是 y y 的估计值,也表示的估计值,也表示 x x 每变动一个单位时,每变动一个单位时,y y

23、的平均变动值的平均变动值.参数的最小二乘估计最小二乘估计1.使因变量的观察值与估计值之间的离差平方和达到最小来求得a和b的方法。即2.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小最小二乘估计(图示)x xy y(x xn n ,y yn n)(x x1 1,y y1 1)(x x2 2,y y2 2)(x xi i,y yi i)e ei i =y yi i-y yi i最小二乘法(a 和 b 的计算公式)根据最小二乘法的要求,可得求解a和b的公式如下表表11-111-1计算表计算表计算表计算表举例举例 已求得如下过程数据:由最小二乘法标准方程得回归系数的计算

24、值为:得出Y对X的直线回归方程为:方程的意义方程的意义回归直线的拟合优度变差1.因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响2.对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示变差的分解(图示)x xy yy y 离差平方和的分解(三个平方和的关系)SST=SSR+SSE总平方和总平方和总平方和总平方和(SSTSST)回归平方和回归平方和回归平方和回归平方和(SSRSSR)残差平方和残差平方和残差平方和残差平方和(SSESSE)离差平方和的分解

25、(三个平方和的意义)1.总平方和总平方和(SST)反映因变量的 n 个观察值与其均值的总离差2.回归平方和回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3.残差平方和残差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和从从从从上上上上图图图图可可可可以以以以看看看看出出出出,在在在在总总总总变变变变差差差差平平平平方方方方和和和和(SSTSST)中中中中回回回回归归归归离离离离差差差差平平平平方方方方和和和和(SSRSSR)的比例越大,的比例越大,的比例越大,的比例越大,回归回归回归回归直线拟合越好。直线拟合越好。直线拟合越好。直线拟合越好。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 生活常识

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁