《最新商务与经济统计——相关与回归分析10PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新商务与经济统计——相关与回归分析10PPT课件.ppt(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、STAT1、是否有足够的证据断定:在账单与小费数额之间存在某种联、是否有足够的证据断定:在账单与小费数额之间存在某种联系?系?2、如果存在某种联系,怎样使用这种联系来确定应该留下多少、如果存在某种联系,怎样使用这种联系来确定应该留下多少小费?小费?账单与小费数额之间是否存在某种联系,如账单与小费数额之间是否存在某种联系,如果存在,我们就想用一个公式描述它,这样就能找出人们留小果存在,我们就想用一个公式描述它,这样就能找出人们留小费时遵循的规则。类似这样的问题还有很多,如:费时遵循的规则。类似这样的问题还有很多,如:(1)犯罪率与偷窃率;()犯罪率与偷窃率;(2)香烟消费与患癌症率;)香烟消费与
2、患癌症率;(3)个人收入水平与受教育年限;()个人收入水平与受教育年限;(4)血压与年龄;)血压与年龄;(5)父母身高与子女身高;()父母身高与子女身高;(6)薪金与酒价;)薪金与酒价;(7)人的手掌生命线的长度与人的寿命长短。)人的手掌生命线的长度与人的寿命长短。STAT目的测定变量间的相关方向相关方向与密切程度密切程度。一、相关图表(一)相关表1、:自变量分组且计算次数,因变量只计算平均数。30 家同类企业的有关资料家同类企业的有关资料产量产量(件)(件)x x企业数企业数平均单位成本平均单位成本(元)(元)y y202030304040505080809 95 55 56 65 516.
3、816.815.615.615.015.014.814.814.214.2STAT2、:对自变量与因变量均进行分组。注:自变量X轴;因变量Y轴。 (二)相关图:不足难以精确反映相关的密切程度。30 家同类企业的有关资料家同类企业的有关资料产量产量 x x(件)(件)单位成本单位成本 y y( (元元/ /件件) )20203030404050508080合合计计18181616151514144 44 41 13 32 21 13 31 11 13 32 21 14 44 49 910107 7合计合计9 95 55 56 65 53030STAT二(一)积差法计算公式则的一组样本观察值是设,
4、),(),(YXyxii2222)()()()()()(yyxxyyxxnyynxxnyyxxr的标准差的协方差的相关系数与为yxyxyxryxxyyxxy,yyxxxyLLLSTAT(二)协方差 xy的作用1、显示x与y之间的相关方向。XYyy xx )(一)(二)(三)(四),(11yx),(nnyx00)()()()()(ryyxxyyxxxy正相关三一yxxyrnyyxxxy)(STAT负相关XYyy xx )(一)(二)(三)(四),(11yx),(nnyx00)()()()()(ryyxxyyxxxy负相关四二nyyxxxy)(yxxyrSTAT2、显示x与y之间的相关程度。)()
5、()()()(yyxxAyyxx图三一密集分布图A散乱分布图BXYPQ偏小偏大)()(qqppyyxxSTAT负相关)()()()()(yyxxAyyxx图四二密集分布图A散乱分布图BXYPQ偏小偏大)()(qqppyyxxSTAT不相关00)(0:xyyyxxxxA图 图A图BXYXYxx yy 00)(0:xyyyxxyyB图之间无直线相关与yxSTAT归纳 xy的作用第一、显示x与y之间的相关方向负相关正相关无直线相关000000rrrrxyxyxyyxxy之间的相关程度越低与越小之间的相关程度越高与越大yxyxxyxy第二、显示x与y之间的相关密切程度STAT(三) x、 y的作用1、
6、使不同变量的协方差标准化标准化直接对比。yxyxxynyyxxr)(nyyxxyyxxnyyxxyxyxnyyxx)(标准化的协方差nyyxx)(yxyx11STAT2、使111rrnyyxxryx22nyyxxryx2221yxyxyyxxyyxxn1112yxyyxxn22222)()(1yxyxnyynxxyyxxn1:1022rrr同理可证2122yxyyxxnr221)(ynyySTAT(四)积差法相关系数的简捷计算公式2222)()()()()()(yyxxyyxxnyynxxnyyxxryxxynyxxy)()(yxyxyxxyyyxxyxyxxyxynynxnnyxnyxxyy
7、xnynxxnyxynyxxyyyxx)(:结论STAT简捷计算公式222xxxx)2()(222xxxxxx222)(2nxnnxxnxx22)(nxxxx222)()(:结论nyyyy222)()(222xnxnxxSTATr的简捷计算式22)()()(yyxxyyxxryxxynyynxxnyxxy2222)()(nyynxxnnyxxyn2222)()()(2222)()(yynxxnyxxyn2222yyxxyxxyyxyxxynyynxxnnyxxyn2222)()(1)(1STAT(五)线性相关的判断准则低度相关微弱相关5 . 03 . 03 . 0rr例为了解餐饮业消费数额与小
8、费之间的数额关系,特从若干名消费者中随机抽取10消费者调查,所得数额如下:高度相关显著相关18 . 08 . 05 . 0rr但可能有其他关系无线性关系与,0yxr函数关系有完全线性关系与:1yxr餐餐饮饮消消费费额额与与小小费费数数据据如如下下:单单位位:美美元元 消消 费费 33.5 50.7 87.9 98.8 63.6 107.3 120.7 78.5 102.3 140.6 小小 费费 5 5. .5 5 5 5. .0 0 8 8. .1 1 1 17 7 1 12 2 1 16 6 1 18 8. .6 6 9 9. .4 4 1 15 5. .4 4 2 22 2. .4 4
9、STAT例计算过程。账单X小费YX-sqY-sqXY33.55.51122.2530.25184.2550.752570.4925253.563.6124044.96144763.278.59.46162.2588.36737.987.98.17726.4165.61711.9998.8179761.442891679.6107.316 11513.292561716.8102.315.4 10465.29237.161575.42120.718.6 14568.49345.962245.02140.622.5 19768.36506.253163.5883.9129.5 87703.2319
10、87.59 13031.18STAT解225 .12959.1987109 .88323.87703105 .1299 .88318.13031102222)()(yyxxnyxxynr92. 09 .323409.9575375.15846答:即账单消费额与小费之间存在着高度的正相关关系。10,18.13031,59.1987,23.87703, 8 . 5 .129, 9 .88322nxyyxyxSTAT问:若令账单消费额为y,小费为x,则r的取值是否改变 ?账单X小费YX-sqY-sqXY33.55.51122.2530.25184.2550.752570.4925253.563.61
11、24044.96144763.278.59.46162.2588.36737.987.98.17726.4165.61711.9998.8179761.442891679.6107.316 11513.292561716.8102.315.4 10465.29237.161575.42120.718.6 14568.49345.962245.02140.622.5 19768.36506.253163.5883.9129.5 87703.231987.59 13031.18STAT一些人相信他们的手掌生命线的长度可以来预测他们的寿命。M.E.Wilson和L.E.Mather在美国医学协会学报
12、上发表的一封信中,通过对尸体的研究对此给予了驳斥。死亡时的年龄与手掌生命线的长度被一起记录下来。作者得出死亡时的年龄与生命线的长度不存在显著相关的结论。手相术失传了,手也就放下了。STAT(六)样本相关系数的特性1、两变量均为随机变量;2、两变量的地位是平等的 rxy= ryx。3、其接近于1的程度与样本容量n有关。 n小,r 1。特例:当n = 2时,r = 1。 例样本(x,y)为(6,12.6),(1,3.0), n = 2。例例 随随 机机 从从 100 家家 商商 店店 中中 抽抽 取取 10 家家 , 结结 果果 如如 下下 店店 A1 A2 A3 A4 A5 A6 A7 A8 A
13、9 A10 金金额额 6 6 5 5 8 8 1 1 4 4 7 7 6 6 3 3 3 3 7 7 利利润润% 12.6 10.4 18.5 3.0 8.1 16.3 12.3 6.2 6.6 16.8 1484816.922548)()(2222yynxxnyxxynrSTAT(十)关于相关的普通错误在解释关于相关的结果中会出现三种普通的错误:1、相关就一定意味着因果关系。如:一项研究表明,统计学教授的薪金与每人的啤酒消费量之间有很强的正相关关系,但这两个变量都受经济形势的影响。(隐藏变量)2、相关系数为0,一定不相关。3、基于平均数进行相关分析与基于个体数据进行相关分析,其相关程度不一样
14、。如:一项研究中,关于个人收入和教育的成对数据产生了一个0.4的线性相关系数,但当使用区域平均时,线性相关系数变为0.7。STAT(八)线性相关的假设检验(两种方法)1、提出原假设与备择假设2、给定显著性水平3、选择检验方法,构建检验统计量4、将检验统计量与临界值比较,如检验统计量的绝对值大于临界值,则拒绝原假设,否则,就不拒绝原假设。T检验法r检验法:用已经算好的r作为检验统计量,其临界值可以在附表中找到。0:, 0:10HH212nrrtSTAT(八)线性相关的假设检验(两种方法)如袭前例:账单与小费之间的r=0.92,若用T统计量:r检验法:N=10,r=0.92,r=0.632, r
15、r拒绝原假设,则认为两者存在显著的线性相关。0:, 0:10HH关关系。之间存在显著性线性相即认为账单消费与小费拒绝原假设,则若)()(828222T306. 2T05. 0840. 521092. 0192. 021 tnrrtSTAT一、回归分析概述(一)概念1、线性相关分析:计算线性相关系数 r 确定两变量之间的相关方向与密切程度。不足无法表明两变量之间的 无法从一个或几个变量(xi)的变化来推测另一个变量(y)的变化情况。 10名用餐顾客消费金额与所付小费数据如下:账单X 33.550.763.678.587.998.8107.3 102.3120.7 140.6小费Y 5.55129
16、.48.1171615.418.622.5 r=0.92STAT2、:通过一个(些)变量的变化解释另一变量的变化 y = a+bx 、 y=a+b1x1+bx2 、 y= 0+ 1x1+ 2x2+ nxn 回归回归 英国生物学家 F Galton 首次提出。 父辈身高 子辈身高 x y y = f(x)+ 人类的平均身高。(二)回归分析的种类1、按自变量的多少分(1):自变量只有一个 。例 y = a+bx 一元回归方程(2):自变量为2个或2个以上。例 y= 0+ 1x1+ 2x2+ nxnSTAT2、按回归方程式的特征分(1):因变量为自变量的线性函数。例 y = a+bx 一元线性回归方
17、程一元线性回归方程(2):因变量为自变量的非线性函数。例 双曲线回归方程xbay11对数函数回归方程xbayln幂函数回归方程baxy指数函数回归方程bxaeySTAT(三)回归分析的步骤1、确定自变量和因变量确定自变量和因变量;例粮食产量(y) 施肥量(x); 消费支出( y ) 国民收入( x ); 火灾损失额( y ) 火灾发生地与最近一个消防站之间的距离( x )。2、确定样本回归方程确定样本回归方程;3、统计检验统计检验;4、预测或控制预测或控制。例 消费与收入的回归方程: y= a+bx= 200+0.15x 已知 x确定y:估计或预测 已知y确定x:控制STAT二、一元线性回归方
18、程的拟合(一)总体回归方程总体回归方程例例总体总体 40 户家庭的可支配收入与消费支出的有关数据如下户家庭的可支配收入与消费支出的有关数据如下 收入收入消支消支X X1 18080X X2 2100100X X3 3120120X X4 4140140X X5 5160160X X6 6180180X X7 7200200X X8 8220220第第 1 1 组:组:Y Y1 1第第 2 2 组:组:Y Y2 2第第 3 3 组:组:Y Y3 3第第 4 4 组:组:Y Y4 4第第 5 5 组:组:Y Y5 555556060656570707575656570707474808085857
19、9798484909094949898808093939595103103108108102102107107110110116116118118110110115115120120130130135135120120136136140140144144145145135135137137140140152152157157条件概率条件概率条件均值条件均值1/51/565651/51/574.874.81/51/589891/51/595.895.81/51/5110.6110.61/51/51221221/51/51371371/51/5144.2144.2条件概率:条件概率:Py = 55
20、/x = 80 = 1/5 条件均值:条件均值:E(y/x = 80) = 65STAT图示5010015020080100120140160180200iXiY总体回归直线分布80y分布100y分布200ySTAT假定Y。5010015020080100120140160180200)/(iiXYEiXiY总体回归直线间确实存在线性关系与前提)/(:1XYEXN:2前提总体回归直线iX偶然因素的影响被抵消前提 :3STAT Yi/Xi=条件均值+i =+Xi+ i5010015020080100120140160180200iXiY总体回归直线22)()var(NYYii2)(, 0)(Va
21、rE随机扰动项且假定总体回归直线iiiXXYE)/(iiXY /ii160STAT拟合思想抽样 N n,5010015020080100120140160180200iXiY总体回归直线总体回归方程iiiXYXYE)/(样本回归方程bxay bxayiiiXXYE)/(STAT(二) 从总体中随机取样,获取一组样本观察值样本观察值。例例总体总体 40 户家庭的可支配收入与消费支出的有关数据如下户家庭的可支配收入与消费支出的有关数据如下 收入收入消支消支X X1 18080X X2 2100100X X3 3120120X X4 4140140X X5 5160160X X6 6180180X
22、X7 7200200X X8 8220220Y Y1 1Y Y2 2Y Y3 3Y Y4 4Y Y5 5555560606565707075756565707074748080858579798484909094949898808093939595103103108108102102107107110110116116118118110110115115120120130130135135120120136136140140144144145145135135137137140140152152157157条件概率条件概率条件均值条件均值1/51/565651/51/574.874.81/51
23、/589891/51/595.895.81/51/5110.6110.61/51/51221221/51/51371371/51/5144.2144.2N=40n=8STAT图示5010015020080100120140160180200未知总体回归方程 )/(iiiXXYEiXiY样本回归直线)(直线样本回归方程bxay1e2e回归值观察值残差iiiyye:iiiiiebxaeyy 总体样本总体样本回归系数baSTAT步骤:1、利用样本数据拟合样本回归直线,尽量减少误差;2、检验样本回归直线对总体回归直线的代表程度。5010015020080100120140160180200未知iiiX
24、XYE)/(iXiY样本回归直线1e2e已知bxay STAT(三)样本回归方程的拟合方法1、XXYE)/(bxaymin11最优直线的直线使niiiniiyyeniieQ122、(OLS法)基本思路:使残差平方和最小的直线“最优直线”。niiiyy12)(min)(12niiibxayba,寻找最优寻找最优直线 STAT 总可以设法找到一对a、b的取值,使Q为最小值。min)() (22bxayyyQxbyna式由 ) 1 (0)()(20) 1)(2xbxaybQbxayaQ)2() 1 (2xbxaxyxbnay整理得xbynxbnyaSTAT将a代入(2)式得xbynxbnyaxbxa
25、xyxbnay)2() 1 (2nxxnyxxyb22)(2xbxnxbnyxynxxbnyxxy22)(:整理22)(xbnxbnyxSTAT简捷计算式xbynxbnyanyxxyyyxx)(:已知2)()(xxyyxxbnxxnyxxyb22)(22)( xxnyxxynnxxxx222)()(nxxnyyxx2)()(2xxySTATrb2xxyyxxybryxxyyxxxyyxbr22xxyxyyxxyxyrb(1)两者是同向的两者是同向的;(2)r反映变量的相关方向与密切程度反映变量的相关方向与密切程度; b反映某一变量变动一个单位时另一变量的平均变动量反映某一变量变动一个单位时另一
26、变量的平均变动量。bxay STAT例为研究用餐消费与小费支出的关系,随机抽取了10位用餐顾客,得样本数据如下:请拟合样本回归方程请拟合样本回归方程餐餐饮饮消消费费额额与与小小费费数数据据如如下下:单单位位:美美元元 消消 费费 33.5 50.7 87.9 98.8 63.6 107.3 120.7 78.5 102.3 140.6 小小 费费 5 5. .5 5 5 5. .0 0 8 8. .1 1 1 17 7 1 12 2 1 16 6 1 18 8. .6 6 9 9. .4 4 1 15 5. .4 4 2 22 2. .4 4 样本的相关系数r=0.92STAT例为研究用餐消费
27、与小费支出的关系,随机抽取了10位用餐顾客,得样本数据如下(用EXCEL软件生成的散点图)请拟合样本回归方程请拟合样本回归方程5.55129.48.1171615.418.622.5051015202533.550.763.678.587.998.8107102121141系列1STAT解:通过散点图可近似看出收入与食品支出之间呈线性关系,故设两者有关系bxay18.13031,59.198723.87703, 5 .129, 9 .883,1022xyyxyxn166. 009.9575375.158469 .88323.87703105 .1299 .88318.1303110)(222x
28、xnyxxynb723. 139.88166. 095.12nxbnyxbyaxbxay166. 0723. 1: 回归方程经济意义:用餐消费每增加经济意义:用餐消费每增加100100元,小费支出平均增加元,小费支出平均增加16.616.6元。元。高度正相关92. 087. 561.32166. 0yxbrSTAT三、回归方程的方差分析即拟合优度的大小关心样本问题的提出,) (:yybxayxy)(yy bxay) (yy )(yy yy )() ()(yyyyyy(一)总离差平方和的分解bxayebxay回归离差残差总离差xbayxbya残差eyy回归离差)(xxbyy)() ()(yyyy
29、yySTAT由:22)() ()(yyyyyy)(2)() ()(222yyyyyyyyyyxbayxbyabxay)()(xbabxabxayyyyy)()(xxbbxxbyy0)()(2xxbyyxxb22)()()()(xxbyyxxxxyyxxb22)() ()(yyyyyy两边加总得)() ()(yyyyyy)()(xxxxbyyb)()(xbbxbxxbyySTAT离差分析222)() ()(yyyyyy)() (2剩余变差差由残差的原因造成的误yy)()()(SSRSSESST回归平方和残差平方和总离差平方和222)() (:) 1 (ebxaebxayySSE分析拟合程度越差越
30、远离越大误差拟合程度越好越接近越小误差yyeyye)()(2可解释变差的变动造成的离差由xyy2222)()()(:)2(xxbxbabxayySSR分析STAT(二)222)() ()(yyyyyy的拟合效果差对越大越小的拟合效果好对越小越大yyyyryyyyr) () (2222222222)()()() ()()(yyyyyyyyyyyy22222)()()() (1ryyyyyyyy判定系数222)() (1yyyyr的比重占SSTSSRyyyy22)()(STAT 判定系数的作用判定系数的作用 xy)(yy bxay) (yy )(yy yy 222)() (1yyyyr22)()(
31、yyyy呈函数关系与yxyyr12无线性相关与yxyyr02呈线性相关关系与yxr102STATr2r总离差平方和回归离差平方和222)()(yyyyrxbaybxay:且2222)()()(xxbxbabxayy222)()(yyyyr222222rbryxxyyxxxyyx222)()(yyxxbnyynxxb222)()(222yxbSTAT(三)1、定义:观察值与回归值之间的平均误差。2、公式XYEbxay)(:总体样本回归分析的平均误差与yynyySyx2) (2拟合效果越好平均离差越小越小拟合效果越差平均离差越大越大yxS平方和观察值与回归值的离差:) (2yy STAT图示501
32、0015020080100120140160180200iXiY总体回归直线NYYnyySyyx22)(2) (的无偏估计量为SSEyyx)(简捷计算式22nxybyaySyxSTAT(四)22222)() (1)()(yyyyyyyyr判定系数22)() (1yyyyr2nnn很大2221yyxSrnyynyy22)() (122) (1ynyy122方差法yyxSr21rSyyx2221rSyyxSTAT例已知下列资料,试计算判定系数与估计标准误。收入收入 x x支出支出 y yx x2 2y y2 2xyxy2020303033334040151513132626383835354343
33、7 79 98 811115 54 48 810109 91010400400900900108910891600160022522516916967667614441444122512251849184949498181646412112125251616646410010081811001001401402702702642644404407575525220820838038031531543043029329381819577957770170125742574STAT例已知下列资料,试计算判定系数与估计标准误。2574,701,9577,81,293,1022xyyxyxn2992.
34、 4) (22xybyayyy73. 02102992. 42) (2nyySyx%03.8849. 45374. 011 . 81 .705374. 015374. 011222222yySryyx2033. 01726. 2ba答:观察值与回归值之间的平均离差为答:观察值与回归值之间的平均离差为0.730.73,总离差中的总离差中的88.03%88.03%是因为是因为x x的变动所引起的的变动所引起的。STAT第三节第三节 多元线性回归分析多元线性回归分析多元线性回归模型:是指在线性相关的条件下,研究2个或2个以上自变量与因变量之间的数量关系。其模型为: y= 0+ 1X1 2X2+ nXn+ei二、多元线性回归模型参数的估计:最小平方法最小平方法。求解回归系数的估计值,通常用统计软件。其方程用矩阵表示为:nnnnnknnkkneeeeByyyYBuuuUxxxxxxXyyyY2121212121222212121,111,