《第8章_相关回归分析.ppt》由会员分享,可在线阅读,更多相关《第8章_相关回归分析.ppt(67页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第八八章章相关与回归分析 第第八八章章相关与回归分析相关与回归分析1相关分析的意义相关分析的意义、内容、内容2简单线性相关分析简单线性相关分析3回归分析回归分析 4估计标准误差估计标准误差 第一节第一节 相关分析的意义相关分析的意义和内容和内容 一、相关关系的概念一、相关关系的概念 (一一)函数关系函数关系 它它反映着现象之间存在着严格的依存关系,反映着现象之间存在着严格的依存关系,也就是具有确定性的对应关系,这种关系可用一也就是具有确定性的对应关系,这种关系可用一个数学表达式反映出来。个数学表达式反映出来。(二二)相关关系相关关系 它是它是现象之间相互关系的一种形式。现象之间相互关系的一种
2、形式。是指现象之间是指现象之间确实存在但关系确实存在但关系数值不严格的相互依存关系。数值不严格的相互依存关系。1.1.现现象之间确实存在数量上的依存关系,即某一社会象之间确实存在数量上的依存关系,即某一社会经济现象变化要引起另一社会经济现象的变化;经济现象变化要引起另一社会经济现象的变化;2.2.现现象之间的这种依存关系是不严格的,即无法用象之间的这种依存关系是不严格的,即无法用数学公式表示。数学公式表示。这种关系有二个明显特点:这种关系有二个明显特点:二、相关关系的种类二、相关关系的种类 单相关单相关 复相关复相关 2.2.按按相关关系的性质来分,可分为相关关系的性质来分,可分为:正相关正相
3、关 负相关负相关1.1.按按相关关系涉及的因素多少来分,可分为:相关关系涉及的因素多少来分,可分为:4.4.按按相关程度分,可分为:相关程度分,可分为:完全相关、完全相关、不完全相关不完全相关 完全不相关完全不相关3.3.按按相关关系的形式来分,可分为:相关关系的形式来分,可分为:直线相关直线相关 曲线相关曲线相关 种类种类一元相关一元相关多元相关多元相关负相关负相关正相关正相关线性相关线性相关曲线相关曲线相关xy正正 相相 关关xy负负 相相 关关xy曲线相关曲线相关xy不不 相相 关关三、相关分析的任务和内容三、相关分析的任务和内容 相关分析的主要任务相关分析的主要任务:1.1.研究现象之
4、间关系的密切程度,即相关分析;研究现象之间关系的密切程度,即相关分析;2.2.研究自变量与因变量之间的变动关系,即回归分析。研究自变量与因变量之间的变动关系,即回归分析。相关分析的主要内容:相关分析的主要内容:1.1.判判断社会经济现象之间是否存在相互依存断社会经济现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这的关系,是直线相关,还是曲线相关,这是相关分析的出发点;是相关分析的出发点;2.2.确确定相关关系的密切程度;定相关关系的密切程度;3.3.测测定两个变量之间的一般关系值;定两个变量之间的一般关系值;4.4.测测定因变量估计值和实际值之间的差异,定因变量估计值和实际值之间的
5、差异,用以反映因变量估计值的可靠程度;用以反映因变量估计值的可靠程度;5.5.相相关系数的显著性检验。关系数的显著性检验。第二节第二节 简单线性相关分析简单线性相关分析 一、相关表和相关图一、相关表和相关图相关图,也称散布图相关图,也称散布图(或散点图或散点图)。简单相关表和相关图的编制方法简单相关表和相关图的编制方法:某市某市19961996年年 2003 2003年的工资性现金支出与城镇储蓄存款余额的资料年的工资性现金支出与城镇储蓄存款余额的资料序号序号年份年份工资性工资性现金支出现金支出(万元万元)x城镇储蓄城镇储蓄存款余额存款余额(万元万元)y119965001202199754014
6、031998620150419997302005200090028062001970350720021050450820031170510例例1 1企业按销售额分组企业按销售额分组(万元万元)流通费用率流通费用率(%)4以下以下9.65487.688127.2512167.0016206.8620246.7324286.6428326.6032366.58例例2 2分组相关表和相关图的编制方法分组相关表和相关图的编制方法:二、相关系数二、相关系数 相相关系数是在直线相关条件下,表明两关系数是在直线相关条件下,表明两个现象之间相关关系的方向和密切程度的统个现象之间相关关系的方向和密切程度的统计指
7、标。用符号计指标。用符号r r表示。表示。(一一 )概念概念(二二 )作用作用:1.1.用来反映现象之间相关关系的性质用来反映现象之间相关关系的性质.2.2.用来反映现象之间相关关系的密切用来反映现象之间相关关系的密切程度程度.(三三 )r)r的测定方法:的测定方法:(简单相关表简单相关表)以上例以上例1 1资料计算资料计算r r:序序号号年年份份x(万元万元)y(万元万元)119965001202199754014031998620150419997302005200090028062001970350720021050450820031170510合计合计以上例以上例1 1资料计算资料计算
8、r r:序序号号年年份份x(万元万元)y(万元万元)119965001202199754014031998620150419997302005200090028062001970350720021050450820031170510合计合计以上例以上例1 1资料计算资料计算r r:序序号号年年份份x(万元万元)y(万元万元)11996500120-310-15596100240254805021997540140-270-13572900182253645031998620150-190-12536100156252375041999730200-80-75640056256000520009
9、002809058100254506200197035016075256005625120007200210504502401755760030625420008200311705103602351296005522584600合计合计64802200-432400155000253300 计算表明该市工资性现金支出与城镇储蓄存款余额计算表明该市工资性现金支出与城镇储蓄存款余额之间存在着之间存在着高度正相关高度正相关。r r的特点的特点:(1)(1)r r取正值或负值决定于分子协方差;取正值或负值决定于分子协方差;(2)(2)r r的绝对值,在的绝对值,在0 0与与1 1之间;之间;(3)(3
10、)r r的绝对值大小,可说明现象之间相关关系的紧密程度。的绝对值大小,可说明现象之间相关关系的紧密程度。2.2.简捷法简捷法 以上例以上例1 1资料计算资料计算r r:序号序号年份年份x(万元万元)y(万元万元)119965001202199754014031998620150419997302005200090028062001970350720021050450820031170510合计合计以上例以上例1 1资料计算资料计算r r:序号序号年份年份x(万元万元)y(万元万元)x2y2xy119965001202199754014031998620150419997302005200090
11、028062001970350720021050450820031170510合计合计以上例以上例1 1资料计算资料计算r r:序号序号年份年份x(万元万元)y(万元万元)x2y2xy1199650012025000014400600002199754014029160019600750003199862015038440022500930004199973020053290040000146000520009002808100007840025200062001970350940900122500339500720021050450110250020250047250082003117051
12、01368900260100596700合计合计6480220056812007600002035300以上例以上例1 1资料计算资料计算r r:序号序号年份年份x(万元万元)y(万元万元)x2y2xy1199650012025000014400600002199754014029160019600750003199862015038440022500930004199973020053290040000146000520009002808100007840025200062001970350940900122500339500720021050450110250020250047250082
13、00311705101368900260100596700合计合计6480220056812007600002035300 计算表明该市工资性现金支出与城镇储蓄存款余额之间计算表明该市工资性现金支出与城镇储蓄存款余额之间存在着存在着高度正相关高度正相关。三、简单线性相关分析的特点三、简单线性相关分析的特点 2.2.相相关关系中只能计算出一个相关系数关关系中只能计算出一个相关系数r r。1.1.相相关关系中,两个变量不必定出哪个是自变量,关关系中,两个变量不必定出哪个是自变量,哪个是因变量,因此,相关的两个变量都是随哪个是因变量,因此,相关的两个变量都是随 机变量;机变量;第三节第三节 回归分析
14、回归分析 在在回归分析中,两个变量之间的回归称回归分析中,两个变量之间的回归称为简单回归,两个以上变量之间的回归称为为简单回归,两个以上变量之间的回归称为复回归。无论是简单回归还是复回归,数学复回归。无论是简单回归还是复回归,数学模型均有线性模型均有线性(直线直线)回归和非线性回归和非线性(曲线曲线)回回归之分。归之分。简单直线回归分析的主要特点:简单直线回归分析的主要特点:1.1.直直线回归分析时,要根据研究目的,在两个线回归分析时,要根据研究目的,在两个变量之间确定哪个是自变量,哪个是因变量。变量之间确定哪个是自变量,哪个是因变量。2.2.在在两个现象互为根据的情况下,可以有两两个现象互为
15、根据的情况下,可以有两个回归方程:个回归方程:y yc c=a+bx =a+bx 称称y y倚倚x x回归直线回归直线 x xc c=c+dy =c+dy 称称x x倚倚y y回归直线回归直线一、直线回归分析一、直线回归分析(一一)简单直线回归分析简单直线回归分析简简单直线回归方程的一般形式为:单直线回归方程的一般形式为:y yc c=a+bx=a+bx y yc c 因变量的估计值;因变量的估计值;x x 自变量;自变量;a a 回归直线在回归直线在y y轴上的截距;轴上的截距;b b 回归直线的斜率,称回归系数回归直线的斜率,称回归系数,表明表明x x每增加每增加 一个单位,因变量一个单位
16、,因变量y yc c的平均变化值的平均变化值 b0b0,x x与与y y为正相关为正相关 b0b0,x x与与y y为负相关为负相关例例:某企业的某种产品月产量与单位成本的关某企业的某种产品月产量与单位成本的关系呈直线关系,用直线回归方程表示是:系呈直线关系,用直线回归方程表示是:y yc c=77.36-1.818x=77.36-1.818x,其中,其中,x x表示月产量表示月产量(千件千件)y y表示单位成本表示单位成本(元元););a=77.36a=77.36,表示生产这种产品在单位成本方面的条件;,表示生产这种产品在单位成本方面的条件;b=-1.818b=-1.818,表示月产品每增加
17、,表示月产品每增加10001000件,件,单位成本平均降低单位成本平均降低1.8181.818元。元。方程的求解:方程的求解:最小平方法最小平方法即即(y-y(y-yc c)2=最小值。最小值。仍用上例仍用上例1 1资料得到:资料得到:y yc c=-199.5+0.5858x=-199.5+0.5858x 表明该市工资性现金支出每增加表明该市工资性现金支出每增加1 1万元,万元,储蓄存款余额就增加储蓄存款余额就增加0.58580.5858万元。万元。(二二)多元线性回归分析多元线性回归分析 多多元线性回归分析可以看作是一元线元线性回归分析可以看作是一元线性回归分析的扩展。性回归分析的扩展。现
18、以二元线性回归模型进行回归分析,现以二元线性回归模型进行回归分析,其方程式为:其方程式为:以某地以某地1993199320032003年年1111年笔记本电脑价格和销售量年笔记本电脑价格和销售量的实际资料为例,拟合一元线性回归方程为:的实际资料为例,拟合一元线性回归方程为:y yc c=9643-65x=9643-65x b b表明,笔记本平均价格每降低表明,笔记本平均价格每降低1 1百元百元/台,销售量台,销售量约平均增长约平均增长6565台。一元线性回归模型只列入了笔记本台。一元线性回归模型只列入了笔记本平均价格对销售量的影响,而忽略了居民收入这一很平均价格对销售量的影响,而忽略了居民收入
19、这一很重要的因素,因此,现对此资料补入同期居民人均货重要的因素,因此,现对此资料补入同期居民人均货币收入资料,将原来的一元线性回归模型扩展为二元币收入资料,将原来的一元线性回归模型扩展为二元线性回归模型进行回归分析。线性回归模型进行回归分析。例例年份年份(n=11)笔记本销售笔记本销售量量y(台台)人均货人均货币收入币收入x1(百元百元)笔记本笔记本平均价平均价格格x2(百百元元/台台)x1yx2yx1x21993650.4102.113466405.8487153.613681.41994758.4105.313479859.52101625.614110.21995819.9110.112
20、990270.99105767.114202.919961051.7113.9131119788.63137772.714920.919971149.7120.4127148423.88146011.915290.819981388.1131.0125181841.10173512.516375.019991944.4157.0123305270.80239161.219311.020002534.0193.5123490329.00311682.023800.520012890.0210.2114607478.00329460.023962.820023576.0228.789817831.
21、20318264.020354.320033898.0258.7861008412.60335228.022248.2合计合计20660.61730.913153905911.562285638.6198258.0年份年份(n=11)199310424.4117956199411088.0917956199512122.0116641199612973.2117161199714496.1616129199817161.0015625199924649.0015129200037442.2515129200144184.0412996200252303.697921200366925.6973
22、96合计合计303769.55160039续表续表b b1 1表明在笔记本平均价格固定时,人均货币收入每增表明在笔记本平均价格固定时,人均货币收入每增加百元,销售量平均增长加百元,销售量平均增长18.636818.6368台;台;b b2 2表明在人均货币收入固定时,笔记本平均价格每上表明在人均货币收入固定时,笔记本平均价格每上升百元升百元/台,销售量平均减少台,销售量平均减少8.03288.0328台。台。这里的这里的b b2 2比原一元线性回归模型中的同一回归系数比原一元线性回归模型中的同一回归系数b=-65b=-65要大得多,是因为一元线性回归模型只列入了笔记要大得多,是因为一元线性回归
23、模型只列入了笔记本平均价格对销售量的影响而忽略了居民收入这一很重本平均价格对销售量的影响而忽略了居民收入这一很重要的因素,在笔记本平均价格的影响中渗入了居民收入要的因素,在笔记本平均价格的影响中渗入了居民收入的影响。的影响。二、曲线回归二、曲线回归 拟合方法拟合方法:统计上通常采用变量代换法把:统计上通常采用变量代换法把非线性形式转换为线性形式处理,使线性回非线性形式转换为线性形式处理,使线性回归分析的方法也能适用于非线性回归问题的归分析的方法也能适用于非线性回归问题的研究。研究。某商店各个时期的商品流通费率和商品零售额资料如下:某商店各个时期的商品流通费率和商品零售额资料如下:x商品零售额商
24、品零售额(万元万元)9.511.513.515.517.519.521.523.525.527.5y商品流通费率商品流通费率(%)6.04.64.03.22.82.52.42.32.22.1例例双曲线方程为:双曲线方程为:9.511.513.515.517.519.521.523.525.527.56.04.64.03.22.82.52.42.32.22.10.1050.0870.0740.0650.0570.0510.0470.0430.0390.0360.011030.007560.005490.004160.003270.002630.002160.001810.001540.00132
25、0.630.400.300.210.160.130.110.100.090.08合计合计32.10.6040.040972.21第四节第四节 估计标准误差估计标准误差 一、估计标准误差的概念和作用一、估计标准误差的概念和作用(一一)概念概念用来说明回归方程推算结果的准确程度的统用来说明回归方程推算结果的准确程度的统计分析指标。用计分析指标。用S Syxyx表示,也可用表示,也可用S Sy y表示。表示。(二)作用(二)作用1 1、以绝对值表示。其数值越小,说明推算结、以绝对值表示。其数值越小,说明推算结果的准确程度越高,回归直线的代表性也越大。果的准确程度越高,回归直线的代表性也越大。2 2、
26、反映变量间相关关系的密切程度。、反映变量间相关关系的密切程度。二、估计标准误差的计算方法二、估计标准误差的计算方法 仍用前例资料计算仍用前例资料计算S Sy y:计算结果表明,城镇储蓄存款余额的计算结果表明,城镇储蓄存款余额的实际值和估计值是有差距的,这个差距有实际值和估计值是有差距的,这个差距有的大,有的小,平均起来是的大,有的小,平均起来是33.2233.22万元。万元。三、回归方差,即三、回归方差,即S Sy y2 2S Sy y和和r r的异同点:的异同点:相同点相同点:都具有说明相关关系密切程度的作用;:都具有说明相关关系密切程度的作用;不同点不同点:(1):(1)r r越大越好,而
27、越大越好,而S Sy y越小越好;越小越好;(2)r(2)r用相对数表现,密切程度的概念比较明确用相对数表现,密切程度的概念比较明确 SySy用绝对数表现,关系密切的程度表示得用绝对数表现,关系密切的程度表示得 不那么明显;不那么明显;(3)r(3)r能说明正、负相关,能说明正、负相关,S Sy y不能说明。不能说明。例例:某市抽查某市抽查1010户家庭户家庭,资料如下资料如下:要求:()计算相关系数要求:()计算相关系数()建立直线回归方程()建立直线回归方程()计算估计标准误差()计算估计标准误差()在的概率保证下,考虑()在的概率保证下,考虑S S,第第1111户家庭若人均月收入为户家庭
28、若人均月收入为15501550元时,人元时,人 均月支出的区间范围。均月支出的区间范围。序号序号人均月收入人均月收入(元元)人均月支出人均月支出(元元)1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 910108508609209601050105011401200135014207807708509109609501000104011501190合计合计108009600序号序号人均月收入人均月收入(元元)x人均月支出人均月支出(元元)yx x2 2y2xy 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 91010850860920960105010
29、5011401200135014207807708509109609501000104011501190合计合计10800960012013693962106166(1 1)(3)例:例:某地区有下表资料,已知人均月收入的长某地区有下表资料,已知人均月收入的长期趋势为直线,人均月收入与储蓄存款额为期趋势为直线,人均月收入与储蓄存款额为直线相关。要求:直线相关。要求:()计算相关系数()计算相关系数()建立直线回归方程()建立直线回归方程(3 3)根据)根据20062006年人均月收入的预测值推算年人均月收入的预测值推算 20062006年储蓄存款额的可能值。年储蓄存款额的可能值。年份年份人均月
30、收入人均月收入(元)(元)储蓄存款额储蓄存款额(百万元)(百万元)1998199819991999200020002001200120022002200320032004200438039239841043848550760647075828694合计合计年份年份人均月收入人均月收入(元)(元)x储蓄存款额储蓄存款额(百万元)(百万元)yx2y2xy1998199819991999200020002001200120022002200320032004200438039239841043848550760647075828694合计合计30105311308686 41177411772317
31、82(1)r=0.961(2)b=0.24 a=-27.34 yc=-27.34+0.24x(3)(3)年份年份人均月收入人均月收入(元)(元)储蓄存款额储蓄存款额(百万元)(百万元)t ty t2 1998199819991999200020002001200120022002200320032004200438039239841043848550760647075828694-3-2-10123合计合计30105310 60760728三、判断三、判断一、名词解释一、名词解释二、简答二、简答相关相关关系关系2、若直线回归方程、若直线回归方程yc=1702.5x,则变量,则变量x和和y之间之
32、间存在着负的相关关系。存在着负的相关关系。()相关系数相关系数什么是相关分析法?相关分析什么是相关分析法?相关分析的主要内容包括哪些?的主要内容包括哪些?1、相关系数、相关系数r有正负、有大小,因而它反映的有正负、有大小,因而它反映的是两现象之间具体的数量变动关系。()是两现象之间具体的数量变动关系。()3 3、在回归分析中,要求自变量是非随机的,、在回归分析中,要求自变量是非随机的,因变量是随机的。因变量是随机的。()()三、选择三、选择1、可用来判断现象之间相关方向的指标有()。、可用来判断现象之间相关方向的指标有()。A、估计标准误差、估计标准误差B、相关系数、相关系数C、回归系数、回归
33、系数D、两个变量的协方差、两个变量的协方差E、两个变量的标准差、两个变量的标准差2 2、企业工人工资(元)倚年劳动生产率(千元、企业工人工资(元)倚年劳动生产率(千元/人)人)变动的回归方程为变动的回归方程为 yc=10+70 xyc=10+70 x,这意味着年,这意味着年劳动生产率每提高一千元时,工人工资平均()劳动生产率每提高一千元时,工人工资平均()A A、增加、增加7070元元 B B、减少、减少7070元元 C C、增加、增加1010元元 D D、减少、减少1010元元3 3、回归分析中的两个变量()。、回归分析中的两个变量()。A A、都是随机变量、都是随机变量 B B、关系是对等的、关系是对等的 C C、都是给定的量、都是给定的量 D D、一个是自变量,一个是因变量、一个是自变量,一个是因变量End of Chapter 8