《统计学课件第7章 相关分析 (2).ppt》由会员分享,可在线阅读,更多相关《统计学课件第7章 相关分析 (2).ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第七章第七章 相关分析 第一节第一节 相关分析的意义和任务相关分析的意义和任务 一、相关关系的概念一、相关关系的概念(注意相关关系与函数关系的区别注意相关关系与函数关系的区别)(一一)函数关系函数关系 它它反映着现象之间存在着反映着现象之间存在着严格严格的依存关系,的依存关系,也就是具有也就是具有确定性确定性的对应关系,这种关系可用一的对应关系,这种关系可用一个数学表达式反映出来。个数学表达式反映出来。(二二)相关关系相关关系 它它反映着现象之间的数量上反映着现象之间的数量上不严格不严格的依存关系,的依存关系,也就是说两者之间也就是说两者之间不具有确定性不具有确定性的对应关系的对应关系.在在具
2、有相互依存关系的两个变量中,作为具有相互依存关系的两个变量中,作为根据的变量称自变量,一般用根据的变量称自变量,一般用X X表示;发生对表示;发生对应变化的变量称因变量,一般用应变化的变量称因变量,一般用y y表示。而且表示。而且根据研究的目的,自变量与因变量之间可以根据研究的目的,自变量与因变量之间可以互相调换。互相调换。二、相关关系的种类二、相关关系的种类 1.1.按按相关关系涉及的因素多少来分,可分为:相关关系涉及的因素多少来分,可分为:单相关和复相关。单相关和复相关。二因素之间的相关关系称二因素之间的相关关系称单相关单相关,即只涉,即只涉及一个自变量和一个因变量。及一个自变量和一个因变
3、量。三个或三个以上因素的相关关系称三个或三个以上因素的相关关系称复相关复相关,或多元相关,即涉及二个或二个以上的自变量和或多元相关,即涉及二个或二个以上的自变量和一个因变量。一个因变量。2.2.按按相关关系的性质来分,可分为相关关系的性质来分,可分为:正相关和负相关正相关和负相关正相关正相关是指两相关现象变化的方向是一致的。是指两相关现象变化的方向是一致的。负相关负相关是指两相关现象变化的方向是相反的。是指两相关现象变化的方向是相反的。3.3.按按相关关系的形式来分,可分为:相关关系的形式来分,可分为:直线相关和曲线相关直线相关和曲线相关4.4.按按相关程度分,可分为:相关程度分,可分为:完全
4、相关、不完全相关和不相关完全相关、不完全相关和不相关 完全相关完全相关就是相关现象之间的关系是完全确定就是相关现象之间的关系是完全确定的关系,因而完全相关关系就是的关系,因而完全相关关系就是函数关系。函数关系。不相关不相关是指两现象之间在数量上的变化上各自是指两现象之间在数量上的变化上各自独立,互不影响。独立,互不影响。不完全相关不完全相关就是介于完全相关和不相关之间的就是介于完全相关和不相关之间的一种相关关系。一种相关关系。相关分析相关分析的对象主要是不完全相关的对象主要是不完全相关关系。关系。三、相关分析的任务和内容三、相关分析的任务和内容 相关分析的主要任务,概括起来是两个方面:相关分析
5、的主要任务,概括起来是两个方面:1 1,研究现象之间关系的密切程度,即,研究现象之间关系的密切程度,即相关分析相关分析;2 2,研究自变量与因变量之间的变动关系,即,研究自变量与因变量之间的变动关系,即回归分析回归分析。相关分析的主要内容包括以下五个方面:相关分析的主要内容包括以下五个方面:1.1.判判断社会经济现象之间断社会经济现象之间是否是否存在相互依存存在相互依存的关系,是直线相关,还是曲线相关,这的关系,是直线相关,还是曲线相关,这是相关分析的出发点;是相关分析的出发点;2.2.确确定相关关系的定相关关系的密切程度密切程度;3.3.测测定两个变量之间的一般关系值(即建立定两个变量之间的
6、一般关系值(即建立数学方程式);数学方程式);4.4.测测定因变量估计值和实际值之间的差异,定因变量估计值和实际值之间的差异,用以反映因变量估计值的可靠程度;用以反映因变量估计值的可靠程度;5.5.相相关系数的显著性检验。关系数的显著性检验。第二节第二节 简单线性相关分析简单线性相关分析 一、相关表和相关图一、相关表和相关图相关图,将自变量和应变量的值在坐标轴相关图,将自变量和应变量的值在坐标轴 中标出,也称散布图中标出,也称散布图(或散点图或散点图)。某市1996年 2003年的工资性现金支出与城镇储蓄存款余额的资料,说明简单相关表和相关图的编制方法。从表可看出,随着工资性现金支出的增加,城
7、镇储蓄存款余额有明显的增长趋势。所以,资料表明(如图)有明显的直线相关趋势。序号年份工资性现金支出(万元)x城镇储蓄存款余额(万元)y11996 50012021997 54014031998 62015041999 73020052000 90028062001 97035072002 105045082003 1170510例例1 1企业按销售额分组(万元)流通费用率(%)4以下9.65 4 87.68 8 127.2512 167.0016 206.8620 246.7324 286.6428 326.6032 366.58例例2 2二、相关系数二、相关系数 相相关系数是在直线相关条件下
8、,表明两关系数是在直线相关条件下,表明两个现象之间相关关系的个现象之间相关关系的方向方向和和密切程度密切程度的综的综合性指标。一般用符号合性指标。一般用符号r r表示。表示。r r的测定方法:的测定方法:仍以上例1资料计算:序号年份x(万元)y(万元)11996 500120-310-155 96100 240254805021997 540140-270-135 72900 182253645031998 620150-190-125 36100 156252375041999 730200 -80 -75 6400 5625 600052000 900280 90 5 8100 25 45
9、062001 970350 160 75 25600 562512000720021050450 240175 57600 3062542000820031170510 360235129600 5522584600合计6480 2200-432400155000 253300经过计算,表明该市工资性现金支出与城镇储蓄存款余额之间存在着高度正相关。对对r r的解释如下:的解释如下:(即即r r的特点的特点)(1)(1)r r取正值或负值决定于分子协方差;取正值为直取正值或负值决定于分子协方差;取正值为直线正相关,取负值为直线负相关。线正相关,取负值为直线负相关。(2)(2)r r的绝对值,在的
10、绝对值,在0 0与与1 1之间;之间;(3)(3)r r的绝对值大小,可说明现象之间相关关系的紧的绝对值大小,可说明现象之间相关关系的紧密程度。密程度。积差法积差法公式进一步化简如下:公式进一步化简如下:2.2.简捷法简捷法 资料计算如下:序号年份x(万元)y(万元)x2y2xy11996 500120 250000 14400 6000021997 540140 291600 19600 7500031998 620150 384400 22500 9300041999 730200 532900 4000014600052000 900280 810000 7840025200062001
11、 970350 94090012250033950072002105045011025002025004725008200311705101368900260100596700合计6480 22005681200760000 2035300三、简单线性相关分析的特点三、简单线性相关分析的特点 通过对通过对r r的计算方法的讨论,可看出二个明显特点:的计算方法的讨论,可看出二个明显特点:2.2.相相关关系中只能计算出一个相关系数关关系中只能计算出一个相关系数r r。1.1.相相关关系中,两个变量不必定出哪个是自变量,哪关关系中,两个变量不必定出哪个是自变量,哪个是因变量。个是因变量。第三节第三节
12、 回归分析回归分析 在在回归分析中,两个变量之间的回归称回归分析中,两个变量之间的回归称为简单回归,两个以上变量之间的回归称为为简单回归,两个以上变量之间的回归称为复回归。无论是简单回归还是复回归,数学复回归。无论是简单回归还是复回归,数学模型均有线性模型均有线性(直线直线)回归和非线性回归和非线性(曲线曲线)回回归之分。这里仅仅就归之分。这里仅仅就简单线性回归简单线性回归进行介绍。进行介绍。一、直线回归一、直线回归(一一)简单直线回归分析简单直线回归分析简简单直线回归方程的一般形式为:单直线回归方程的一般形式为:y yc c=a+bxa+bx y yc c 因变量的估计值;因变量的估计值;x
13、 x 自变量;自变量;a a 回归直线在回归直线在y y轴上的截距;轴上的截距;b b 回归直线的斜率,称回归系数回归直线的斜率,称回归系数,表明表明x x每增加每增加 一个单位,因变量一个单位,因变量y yc c的的平均变化值平均变化值 b0b0,x x与与y y为正相关为正相关 b0b0,x x与与y y为负相关为负相关 a a、b b的确定:的确定:在在简单直线回归方程中,简单直线回归方程中,a a、b b为待定系数,常用为待定系数,常用最小平方法来确定,即最小平方法来确定,即(y-y(y-yc c)2=最小值。最小值。简单直线回归方程建立的步骤为:简单直线回归方程建立的步骤为:确确定自
14、变量定自变量x x和因变量和因变量y y;计计算算xx、yy、xx2、xyxy;代代入公式,先求入公式,先求b b,再求再求a a。支出与存款资料计算如下:序号年份x(万元)y(万元)x2y2xy11996 500120 250000 14400 6000021997 540140 291600 19600 7500031998 620150 384400 22500 9300041999 730200 532900 4000014600052000 900280 810000 7840025200062001 970350 9409001225003395007200210504501102
15、5002025004725008200311705101368900260100596700合计6480 22005681200760000 2035300仍用上例1资料得到:yc=-199.5+0.5858x表明该市工资性现金支出每增加1万元,储蓄存款余额就增加0.5858万元。举例说明b(回归系数)在经济管理中的作用:某企业的某种产品月产量与单位成本的关系呈直线关系,用直线回归方程表示是:yc=77.36-1.818x,其中,x表示月产量(千件)y表示单位成本(元);a=77.36(元),表示生产这种产品在单位成本方面的条件;b=-1.818,表示月产品每增加1000件,单位成本平均降低1
16、.818元。从单变量分组表配合回归直线:从单变量分组表配合回归直线:简单直线回归分析的主要特点:简单直线回归分析的主要特点:1.1.直直线回归分析时,要根据研究目的,在两个线回归分析时,要根据研究目的,在两个变量之间确定哪个是自变量,哪个是因变量。变量之间确定哪个是自变量,哪个是因变量。2.2.在在两个现象互为根据的情况下,可以有两两个现象互为根据的情况下,可以有两个回归方程:个回归方程:y yc c=a+bxa+bx 称称y y倚倚x x回归直线回归直线 x xc c=c+dyc+dy 称称x x倚倚y y回归直线回归直线(二二)多元线性回归分析多元线性回归分析 多多元线性回归分析可以看作是
17、一元线元线性回归分析可以看作是一元线性回归分析的扩展。现以二元线性回归模性回归分析的扩展。现以二元线性回归模型进行回归分析,其方程式为:型进行回归分析,其方程式为:以我国19731983年11年手表价格和手表销售量的实际资料为例,拟合一元线性回归方程为:yc=9643-65x此时,回归系数b表明,手表平均价格每降低1元/只,销售量约平均增长65万只。一元线性回归模型只列入了手表平均价格对销售量的影响,而忽略了居民收入这一很重要的因素,因此,现对此资料补入同期居民人均货币收入资料,将原来的一元线性回归模型扩展为二元线性回归模型进行回归分析。例例列成计算表如下:年份(n=11)手表销售量y(万只)
18、人均货币收入x1(元)手表平均价格x2(元/只)x1yx2yx1x21973 650.4102.113466405.8487153.613681.41974 758.4105.313479859.52101625.614110.21975 819.9110.112990270.99105767.114202.91976 1051.7113.9131119788.63137772.714920.91977 1149.7120.4127148423.88146011.915290.81978 1388.1131.0125181841.10173512.516375.01979 1944.4157.
19、0123305270.80239161.219311.01980 2534.0193.5123490329.00311682.023800.51981 2890.0210.2114607478.00329460.023962.81982 3576.0228.7 89817831.20318264.020354.31983 3898.0258.7 861008412.60335228.022248.2合计20660.61730.9 13153905911.562285638.6198258.0年份(n=11)197310 424.4117 956197411 088.0917 956197512
20、 122.0116 641197612 973.2117 161197714 496.1616 129197817 161.0015 625197924 649.0015 129198037 442.2515 129198144 184.0412 996198252 303.697 921198366 925.697 396合计303 769.55160 039续表续表b1表明在手表平均价格固定时,人均货币收入每增加元,手表销售量平均增长18.6368万只;b2表明在人均货币收入固定时,手表平均价格每上升元/只,手表销售量平均减少8.0328万只。这里的b2比原一元线性回归模型中的同一回归系数
21、b=-65要大得多,是因为一元线性回归模型只列入了手表平均价格对销售量的影响而忽略了居民收入这一很重要的因素,在手表平均价格的影响中渗入了居民收入的影响。上面的方法推广到多个自变量,其回归方程为:上面的方法推广到多个自变量,其回归方程为:二、曲线回归二、曲线回归 拟合方法拟合方法:统计上通常采用变量代换法把:统计上通常采用变量代换法把非线性形式转换为线性形式处理,使线性回非线性形式转换为线性形式处理,使线性回归分析的方法也能适用于非线性回归问题的归分析的方法也能适用于非线性回归问题的研究。研究。某商店各个时期的商品流通费率和商品零售额资料如下:x商品零售额(万元)9.511.513.515.5
22、17.519.521.523.525.527.5y商品流通费率(%)6.0 4.6 4.0 3.2 2.8 2.5 2.4 2.3 2.2 2.1散点图显示出x与y的变动关系为一条递减的双曲线。经济理论和实际经验都可说明,流通费率决定于商品零售额,体现着经营的规模效益。例例双曲线方程为:双曲线方程为:9.56.00.1050.011030.6311.54.60.0870.007560.4013.54.00.0740.005490.3015.53.20.0650.004160.2117.52.80.0570.003270.1619.52.50.0510.002630.1321.52.40.047
23、0.002160.1123.52.30.0430.001810.1025.52.20.0390.001540.0927.52.10.0360.001320.08合计合计 32.10.6040.040972.21第四节第四节 估计标准误差估计标准误差 一、估计标准误差的概念和作用一、估计标准误差的概念和作用估计标准误差估计标准误差就是用来说明回归方程就是用来说明回归方程推算结果的准确程度的统计分析指标。以绝推算结果的准确程度的统计分析指标。以绝对值表示,其数值越小,说明推算结果的准对值表示,其数值越小,说明推算结果的准确程度越高,回归直线的代表性也越大。确程度越高,回归直线的代表性也越大。用用S
24、 Syxyx表示,也可用表示,也可用S Sy y表示。表示。二、估计标准误差的计算方法二、估计标准误差的计算方法 支出与存款资料计算如下:序号年份x(万元)y(万元)x2y2xy11996 500120 250000 14400 6000021997 540140 291600 19600 7500031998 620150 384400 22500 9300041999 730200 532900 4000014600052000 900280 810000 7840025200062001 970350 9409001225003395007200210504501102500202500
25、4725008200311705101368900260100596700合计6480 22005681200760000 2035300仍用前例资料计算Sy:计算结果表明,城镇储蓄存款余额的实际值和估计值是有差距的,这个差距有的大,有的小,平均起来是33.22万元。三、回归方差,即三、回归方差,即S Sy y2 2S Sy y和和r r的异同点:的异同点:相同点相同点:都具有说明相关关系密切程度的作用;:都具有说明相关关系密切程度的作用;不同点不同点:(1):(1)r r越大越好,而越大越好,而S Sy y越小越小越好;越好;(2)r(2)r用相对数表现,密切程度的概念比较明确用相对数表现,密切程度的概念比较明确 SySy用用绝对数表现,关系密切的程度表示得绝对数表现,关系密切的程度表示得 不那么明显;不那么明显;(3)r(3)r能说明正、负相关,能说明正、负相关,S Sy y不能说明。不能说明。End of Chapter 7