相关分析与回归分析.ppt

上传人:豆**** 文档编号:57945772 上传时间:2022-11-06 格式:PPT 页数:49 大小:1.80MB
返回 下载 相关 举报
相关分析与回归分析.ppt_第1页
第1页 / 共49页
相关分析与回归分析.ppt_第2页
第2页 / 共49页
点击查看更多>>
资源描述

《相关分析与回归分析.ppt》由会员分享,可在线阅读,更多相关《相关分析与回归分析.ppt(49页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、相关分析与回归分析相关分析与回归分析 学习目标学习目标掌握掌握相关分析相关分析及及回归分析回归分析的相关概念和的相关概念和思想;思想;会计算会计算相关系数相关系数;能解决一元回归分析的能解决一元回归分析的参数估计问题。参数估计问题。重重 难难 点点重点:重点:相关分析相关分析及及回归分析回归分析的相关概念和思想的相关概念和思想一元线性回归分析一元线性回归分析最小二乘法最小二乘法难点:难点:回归系数的参数估计回归系数的参数估计 利用利用相关与回归分析技术相关与回归分析技术改进民航服改进民航服务质量降低服务成本务质量降低服务成本 引入 据网友爆料,据网友爆料,4月月11日上午浦东机场有旅客擅自闯入

2、机场滑日上午浦东机场有旅客擅自闯入机场滑行道行道 造成多架外航飞机堵在后面不能移动。红圈中为浦东造成多架外航飞机堵在后面不能移动。红圈中为浦东机场上的拦机者。机场上的拦机者。航空公司航空公司编号编号航班正点率()航班正点率()x投诉次数(次)投诉次数(次)y181.821276.656376.685475.768573.874672.293771.272870.8122991.4181068.512510家航空公司航班正点率与顾客投诉次数数据家航空公司航班正点率与顾客投诉次数数据相关分析相关分析一、相关关系和函数关系一、相关关系和函数关系函数关系是指现象之间存在着函数关系是指现象之间存在着确定

3、性确定性的严的严格的格的依存依存关系。在这种关系下,关系。在这种关系下,当个或一当个或一一组变量取一定的数值时,另一个变量就一组变量取一定的数值时,另一个变量就有一个确定的数值与之相对应,这种关系有一个确定的数值与之相对应,这种关系可以用一个数学表达式反映出来可以用一个数学表达式反映出来。函数关系 相关关系是指现象之间确实存在着的,相关关系是指现象之间确实存在着的,但其数量表现又是但其数量表现又是不确定、不规则不确定、不规则的一的一种种相互依存相互依存关系。在这种关系下,当一关系。在这种关系下,当一个或一组变量取一定的数值时,与之相个或一组变量取一定的数值时,与之相对应的另一个变量的数值是不能

4、确定的,对应的另一个变量的数值是不能确定的,只是按照某种规律在一定范围内变化。只是按照某种规律在一定范围内变化。这种关系不能用严格的函数式来表示。这种关系不能用严格的函数式来表示。相关关系二、相关关系的种类二、相关关系的种类1.按照相关关系涉及的变量(或因素)的多少,可按照相关关系涉及的变量(或因素)的多少,可以分为以分为单相关、复相关和偏相关。单相关、复相关和偏相关。2.按照变量之间相互关系的表现形式的不同,可以按照变量之间相互关系的表现形式的不同,可以分为分为线性相关和非线性相关线性相关和非线性相关。3.按照变量之间的相互关系的方向不同,可以分为按照变量之间的相互关系的方向不同,可以分为正

5、相关和负相关正相关和负相关。4.按照变量之间的相关程度、可以分为按照变量之间的相关程度、可以分为完全相关、完全相关、不完全相关和不相关。不完全相关和不相关。三、相关分析的主要内容三、相关分析的主要内容1.确定现象之间有无相关关系,以及相关关确定现象之间有无相关关系,以及相关关系的表现形式系的表现形式2.确定相关关系的密切程度确定相关关系的密切程度常见的相关分析工具:常见的相关分析工具:l相关表相关表l相关图:相关图:散点图散点图l相关系数相关系数 四、相关分析的测定四、相关分析的测定年份年份2000200120022003200420052006全员劳动全员劳动生产率生产率(元(元/人)人)X

6、381345825524816192741029110812平均工资平均工资(元(元/人)人)y77983010301261147315921942表表8-5:某企业劳动生产率与平均工资情况:某企业劳动生产率与平均工资情况相关表相关图相关图相关图完全正相关完全正相关 不完全正相关不完全正相关 不相关不相关 完全负相关完全负相关 不完全负相关不完全负相关 曲线相关曲线相关 相关系数相关系数 我们虽然可以通过相关表和相关图,定性给我们虽然可以通过相关表和相关图,定性给出两个变量之间相关关系,但是对于相关关系出两个变量之间相关关系,但是对于相关关系的具体的密切程度则无法度量,为此我们给出的具体的密切

7、程度则无法度量,为此我们给出了相关系数,了相关系数,定量研究定量研究这两个变量之间的相关这两个变量之间的相关关系。关系。相关系数相关系数X X和和Y Y之间的相关系数公式:之间的相关系数公式:xy的协方差的协方差x的标准差的标准差y的标准差的标准差xy的协方差的协方差x的方差的方差y的方差的方差积差法积差法化简的公式化简的公式:相关系数的特点相关系数的特点相关系数的取值在相关系数的取值在-1-1与与1 1之间。之间。|r|r|越大,表越大,表明变量间线性相关关系越强。明变量间线性相关关系越强。当当r r=0=0时,表明时,表明X X与与Y Y没有没有线性相关关系。线性相关关系。当当0|r|10

8、|r|0 r0 表明表明X X与与Y Y 为为正相关正相关;若若 r0 r0 表明表明X X与与Y Y 为为负相关负相关。当当|r|=1|r|=1 时,表明时,表明X X与与Y Y完全线性相关完全线性相关:若若r=1r=1,称,称X X与与Y Y完全正线性完全正线性相关;相关;若若r=-1r=-1,称,称X X与与Y Y完全负线性完全负线性相关。相关。密切程度的判断密切程度的判断相关系数一般的判断标准是:相关系数一般的判断标准是:|r|0.3称为称为微弱相关微弱相关;0.3|r|0.5称为称为低度相关低度相关;0.5|r|0.8称为称为显著相关显著相关;0.8|r|1称为称为高度相关高度相关;

9、|r|=1称为称为完全相关完全相关。-1 0 1完全负相关完全负相关 不相关不相关 完全正相关完全正相关 不完全负相关不完全负相关 不完全正相关不完全正相关微弱相关微弱相关低度低度相关相关低度低度相关相关显著相关显著相关显著相关显著相关高度高度相关相关高度高度相关相关-1 -0.8 -0.5 -0.3 0.3 0.5 0.8 1相关系数分类图相关系数分类图年份年份x xy yx x2 2y y2 2xyxy20002000381338137797791453896914538969606841606841297032729703272001200145824582830830209947242

10、0994724688900688900380306038030602002200255245524103010303051457630514576 10609001060900 568972056897202003200381618161126112616660192166601921 15901211590121 10291021102910212004200492749274147314738600707686007076 21697292169729 136606021366060220052005102911029115921592105904681105904681 25344642

11、534464 163832721638327220062006108121081219421942116899344116899344 37713643771364 2099690420996904合计合计524575245789078907441461291441461291 1242231912422319 7379490673794906例子:例子:P192表表8-7x:全员劳动生产率:全员劳动生产率y:平均工资:平均工资答:劳动生产率与平均工资之间存在着高度正线答:劳动生产率与平均工资之间存在着高度正线性相关。性相关。练习题练习题企业编号企业编号固定资产价值固定资产价值x总产值总产值y

12、131852429101019320063844098155415913650292873146058121015169102212191012251624下表给出了某局各企业固定资产价值和总产值的相关数据,请计算固下表给出了某局各企业固定资产价值和总产值的相关数据,请计算固定资产价值和总产值之间的关系。定资产价值和总产值之间的关系。例:某局各企业固定资产和总产值统计表例:某局各企业固定资产和总产值统计表企业编号企业编号固定资产价固定资产价值值x总产值总产值y13185241011242745761666322910101982810010383619279032006384000040700

13、41276004409815167281664225333335541591317222583356937889565029282520048611844658567314605985963660251899708121015161464100229825619343609102212191044484148596112458181012251624150052526373761989400合计合计652598015668539108665777659156解:根据上表资料可得:解:根据上表资料可得:两者呈高度正相关。两者呈高度正相关。使用相关系数的注意事项:使用相关系数的注意事项:X X和和

14、Y Y 是相互对称的随机变量,所以是相互对称的随机变量,所以相关系数相关系数只反映只反映变量间的线性相关程度,变量间的线性相关程度,不能说明非线性相关关系。不能说明非线性相关关系。相关系数相关系数不能不能确定变量的确定变量的因果关系因果关系,也,也不能不能说明相关关系具体接近于哪条直线。说明相关关系具体接近于哪条直线。线性回归线性回归想一想想一想相关系数能确定变量的因果关系吗?能说明相相关系数能确定变量的因果关系吗?能说明相关关系具体接近于哪条直线吗关关系具体接近于哪条直线吗?答:不能,为明确变量间联系的具体数量规律,需答:不能,为明确变量间联系的具体数量规律,需要进行回归分析。要进行回归分析

15、。只有两个变量的回归称为只有两个变量的回归称为简单回归分析简单回归分析或者或者一一元回归分析元回归分析。简单回归分析将变量。简单回归分析将变量X X和和Y Y区分区分为为自变量自变量和和因变量因变量。一、一、“回归回归”的概念的概念回归的回归的古典意义古典意义:高尔顿遗传学的回归概念高尔顿遗传学的回归概念 父母身高与子女身高的关系父母身高与子女身高的关系:无论高个子或低个子的子女无论高个子或低个子的子女 都有向人的平均身高回归的趋势都有向人的平均身高回归的趋势 回归的现代意义回归的现代意义一个因变量对若干解释变量依存关系的研一个因变量对若干解释变量依存关系的研究究回归的目的回归的目的(实质)(

16、实质):由固定的自变量去估计因变量的平均值由固定的自变量去估计因变量的平均值样样样样本本本本总总总总体体体体自变量固定值自变量固定值自变量固定值自变量固定值自变量固定值自变量固定值估计因估计因变量平变量平均值均值 二、一元线性回归模型二、一元线性回归模型回归数学模型:回归数学模型:该模型表明当该模型表明当x取某个数值时,取某个数值时,y并不必然表现并不必然表现为一个确定的值,而是在为一个确定的值,而是在f(x)附近波动,但其平附近波动,但其平均数在大量观察下趋向于确定的值均数在大量观察下趋向于确定的值f(x)。一元线性回归一元线性回归真实值:真实值:yi=a+bxi+i预测值:预测值:i=a+

17、bxi散点图散点图一元线性回归模型:一元线性回归模型:其中:其中:a为为截距截距,b为直线斜率,也叫做为直线斜率,也叫做y对对x的的回归系数回归系数。它表。它表示每变动一个单位所引起的的边际变动量;示每变动一个单位所引起的的边际变动量;i称称残差残差(也称为回归误差或预测误差),表(也称为回归误差或预测误差),表示除示除x外的其它次要因素形成的随机扰动。当外的其它次要因素形成的随机扰动。当样本容量较大时,正负干扰可相互抵消,所以样本容量较大时,正负干扰可相互抵消,所以可认为可认为i的均值为的均值为0。回归分析的主要任务是:回归分析的主要任务是:1、确定回归系数、确定回归系数a,b2、判断回归方

18、程是否、判断回归方程是否合理合理 回归系数的最小二乘估计回归系数的最小二乘估计最小二乘法最小二乘法的基本思想:的基本思想:想一想:为想一想:为什么不可以什么不可以取取i或或|i|?希望所估计希望所估计 的偏离实际观察值的偏离实际观察值 的残差的残差 越小越好。越小越好。可以取残差平方和可以取残差平方和 作为衡量作为衡量 与与 偏离程偏离程度的指标。度的指标。即选择即选择a、b使得使得经过推导可得:经过推导可得:注:注:一般先求一般先求b,再求,再求a回归直线经过点回归直线经过点e ei i与与x xi i、y yi i之间无相关关系之间无相关关系xy回归直线回归直线L经过重心经过重心()则有则

19、有:TSS=RSS+ESS【例例8-5】根据例根据例8-3资料:资料:则直线回归方程:则直线回归方程:请解释一下回归系数请解释一下回归系数a,b的经济学含义的经济学含义练习题练习题企业编号固定资产价值x总产值y131852429101019320063844098155415913650292873146058121015169102212191012251624以总产值以总产值y为因变量,固定资产价值为因变量,固定资产价值x为自变量,建立回归直线方程为自变量,建立回归直线方程y=a+bx。请进行参数估计。请进行参数估计。9.2.49.2.4估计标准误差估计标准误差(standard erro

20、r of the standard error of the estimateestimate)因变量实际值与理论值因变量实际值与理论值离差的平均值离差的平均值 计算原理与能够反映平均数代表性大计算原理与能够反映平均数代表性大小的标准差基本相同小的标准差基本相同 定义公式为:定义公式为:计算公式:计算公式:=S=S=9.2.59.2.5判定系数判定系数(coefficient of determination)(coefficient of determination)用用 表示表示 用来测定回归方程拟合数据的好坏程度用来测定回归方程拟合数据的好坏程度 范围在范围在0 0与与1 1之间之间 越大,越大,线性回归效果就越好线性回归效果就越好 r r越大越大 回回归归直直线线代代表表性性大大 r r越小越小 回回归归直直线线代代表表性性小小 小小大大

展开阅读全文
相关资源
相关搜索

当前位置:首页 > pptx模板 > 企业培训

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁