《第七讲 回归分析.pdf》由会员分享,可在线阅读,更多相关《第七讲 回归分析.pdf(21页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、应 用 统 计 学 及 实 践应 用 统 计 学 及 实 践Applied Statistics (ST3102)2008.9西安交通大学管理学院管理科学系胡平2010.4-西安交通大学管理学院管理科学系-胡平第五讲 相关分析和回归分析第五讲 相关分析和回归分析一、相关分析和回归分一、相关分析和回归分析概述析概述二、简单回二、简单回归分析归分析三、多元回三、多元回归分析归分析析概述析概述归分析归分析归分析归分析2010.4西安交通大学管理学院管理科学系胡平一、相关分析和回归分析概述一、相关分析和回归分析概述?相关分析相关分析:用于测定变量间关系的紧密程度,:用于测定变量间关系的紧密程度,关注的
2、是评价对象两两之间的相对变动关注的是评价对象两两之间的相对变动它们它们关注的是评价对象两两之间的相对变动关注的是评价对象两两之间的相对变动,它们它们各自的单独变化状况不用清楚地加以限制或确各自的单独变化状况不用清楚地加以限制或确定定定定。?回归分析回归分析:希望明确建立一个方程关系式,希望明确建立一个方程关系式,是借助是借助一一个或多个变量个或多个变量(自变量自变量)来推测另来推测另一一是借助个或多个变量是借助个或多个变量(自变量自变量)来推测另来推测另个变量(因变量)变化趋势的。个变量(因变量)变化趋势的。2010.4西安交通大学管理学院管理科学系胡平一、相关分析和回归分析概述一、相关分析和
3、回归分析概述回归分析种类回归分析种类?回归分析种类回归分析种类:简单回归:简单回归:只包括一个自变量和一个因变量的回只包括一个自变量和一个因变量的回归分析归分析归分析归分析。多元回归:多元回归:包括两个或两个以上的自变量的回归包括两个或两个以上的自变量的回归分析分析分析分析。?相关关系的种类相关关系的种类?相关关系的种类相关关系的种类:单相关、复相关;线性相关、非线性相关;:单相关、复相关;线性相关、非线性相关;正相关正相关负相关负相关完全相关完全相关高度相关高度相关正相关正相关、负相关负相关;完全相关完全相关、高度相关高度相关、低度相关、无相关。、低度相关、无相关。2010.4西安交通大学管
4、理学院管理科学系胡平别别直线回归与相关的区别与联系直线回归与相关的区别与联系区区别别:、服从双变量正态分布服从双变量正态分布Y正态随机变量,正态随机变量,X为选定变量为选定变量回归回归相关相关 X、Y服从双变量正态分布服从双变量正态分布回归回归2.应用:2.应用:相关相关回归回归 由一个变量值推算另一个变量值由一个变量值推算另一个变量值相关相关只反映两变量间互依关系只反映两变量间互依关系相关相关 只反映两变量间互依关系只反映两变量间互依关系3 3.回归系数有单位回归系数有单位,相关系数无单位相关系数无单位3 3 回归系数有单位回归系数有单位,相关系数无单位相关系数无单位2010.4西安交通大学
5、管理学院管理科学系胡平联系联系1.方向一致方向一致:r与与 b的正负号一致。的正负号一致。联系联系:2.假设检验等价假设检验等价:tr=tb 3.YYXXllbr=4.用回归解释相关用回归解释相关 决决定定系系数数(coefficient of determination)决决定定系系数数(coefficient of determination)剩总回SSSSSSlllXXXYXY222总剩总总回SSSSlllrYYXXXYYYXXXY=2 2010.4西安交通大学管理学院管理科学系胡平直线回归与相关的直线回归与相关的应用注意事项应用注意事项应用注意事项应用注意事项 要有 要有实实际意义际意
6、义实实 不能任意“外延”不能任意“外延”绘制绘制散点图散点图绘制绘制散点图散点图2010.4西安交通大学管理学院管理科学系胡平二二简单回归分析简单回归分析元线性回元线性回最小二乘估最小二乘估误差和标准误差和标准二二、简单回归分析简单回归分析一一元线性回元线性回归模型归模型最小二乘估最小二乘估计计误差和标准误差和标准差差相关分析相关分析回归分析的假设检验回归分析的假设检验回归的好坏标准回归的好坏标准区间估计区间估计预测与控制预测与控制2010.4西安交通大学管理学院管理科学系胡平统计数据举例统计数据举例统计数据举例统计数据举例散点图指出若干对广告费用和销售量数据的对应关系。散点图指出若干对广告费
7、用和销售量数据的对应关系。Scatterplotof AdvertisingExpenditures(X)andSales(Y)140120销售额的大小与广告费用的大销售额的大小与广告费用的大小的趋势是基本致的小的趋势是基本致的100806040Sales小的趋势是基本小的趋势是基本一一致的致的5040302010040200Advertising散点沿一条直线周围分布散点沿一条直线周围分布广告额与销售量之间的对应并不是精确对应在直线上广告额与销售量之间的对应并不是精确对应在直线上。直线只是提供了对应关系的平均趋势直线只是提供了对应关系的平均趋势2010.4西安交通大学管理学院管理科学系胡平。
8、直线只是提供了对应关系的平均趋势直线只是提供了对应关系的平均趋势它点它点其其它它散散点点图例图例Y00YY00XX0XYYYXXX2010.4西安交通大学管理学院管理科学系胡平建模依据建模依据应用统计模型将类似于广告费与销售额之应用统计模型将类似于广告费与销售额之数据系统成分是样本的均值变量而随机成分则系统成分是样本的均值变量而随机成分则于广告费与销售额之间的关系进行分析.于广告费与销售额之间的关系进行分析.统计值变量而随机成分则是不可解释变量值变量而随机成分则是不可解释变量模型统计模型可以将系统成分从随机成分中分统计模型可以将系统成分从随机成分中分系统成分+按照回归的理解,系统成分是直线上的
9、部分而随机成分则是直按照回归的理解,系统成分是直线上的部分而随机成分则是直成分从随机成分中分离出来.成分从随机成分中分离出来.+随机误差分而随机成分则是直线周围的散布情况分而随机成分则是直线周围的散布情况2010.4西安交通大学管理学院管理科学系胡平一元线性回归模型一元线性回归模型一元线性回归模型一元线性回归模型:Y=a +b X +非随机部分随机部分或系统部分Y Y称为依赖变量,因变量或被解释变量,称为依赖变量,因变量或被解释变量,X X称为独立变量,自变量或解释变量,称为独立变量,自变量或解释变量,是随机误差项是随机误差项是模型中唯是模型中唯一一的随机成分的随机成分也是也是Y Y的随机性的
10、来源的随机性的来源 是随机误差项是随机误差项,是模型中唯的随机成分是模型中唯的随机成分,也是也是Y Y的随机性的来源的随机性的来源。a 是模型中系统成分的截距.a 是模型中系统成分的截距.b b 是斜率是斜率b b 是斜率是斜率.Y Y 的条件数学期的条件数学期望望是是:bxaXY+=|E2010.4西安交通大学管理学院管理科学系胡平的条件数学期是的条件数学期是一元线性回归模型图示一元线性回归模型图示一元线性回归认定在依赖变一元线性回归认定在依赖变元线性回归认定在依赖变量 Y的数学期望或均值和独立变量 X之间有着准确的线性关系元线性回归认定在依赖变量 Y的数学期望或均值和独立变量 X之间有着准
11、确的线性关系性关系:EYi=0+1Xi性关系:EYi=0+1XiY的实际观察值与期望值之间差一个随机误差:Y的实际观察值与期望值之间差一个随机误差:Yi=EYi+i=0+1Xi+iYi=EYi+i=0+1Xi+i2010.4西安交通大学管理学院管理科学系胡平一元线性回归模型假设一元线性回归模型假设X与Y之间是线性关系X与Y之间是线性关系独立变量X为固定变量;在观察值Y中的随机成分仅来自于误差变量独立变量X为固定变量;在观察值Y中的随机成分仅来自于误差变量分仅来自于误差变量.误差项 i服从均值为0,方差为2的正态分布分仅来自于误差变量.误差项 i服从均值为0,方差为2的正态分布方差为2的正态分布
12、。误差项之间不相关。即N(02)方差为2的正态分布。误差项之间不相关。即N(02)即:N(0,2)即:N(0,2)2010.4西安交通大学管理学院管理科学系胡平乘估乘估估计的回归方程:估计的回归方程:最小二最小二乘估乘估计计eXbaY+是回归直线的截距 a 的估计值;是回归直线的斜率 b 的估计值;是回归直线的截距 a 的估计值;是回归直线的斜率 b 的估计值;eXbaY+=+a 是回归直线的斜率 b 的估计值;e称为残差,是估计的回归直线与各个观测值之间的差是回归直线的斜率 b 的估计值;e称为残差,是估计的回归直线与各个观测值之间的差b:回归估计式XY+计值由回归直线所给出的估是根据给定其
13、中XbaY=2010.4西安交通大学管理学院管理科学系胡平.X Y计值由回归直线所给出的估是根据给定其中适配一条回归直线适配一条回归直线2010.4西安交通大学管理学院管理科学系胡平X回归误差回归误差2010.4西安交通大学管理学院管理科学系胡平最小二乘法最小二乘法回归的误差平方和为:=+=niiniiniiebxayyyeS121212)()(将其最小化以求得代表各点距离之总和,nnba。即:与回归方程系数估计量=+=+=+iibaiibxayxbay12,12)(min)(2010.4西安交通大学管理学院管理科学系胡平最小二乘法最小二乘法=niiiebxayaS10)(2=niiieixb
14、xaybS110)(2=ib1于是有:+=niniiixbnay11+=niniiiniiixbxayx11212010.4西安交通大学管理学院管理科学系胡平=iii111最小二乘估计最小二乘估计():2令()()nxxxxSSx=)(222()()yxnyyyySSy=)()(22()nyxxyyyxxSSxy=:)()(则方程的解为xaybSSSSaXXY=:则方程的解为2010.4西安交通大学管理学院管理科学系胡平X例 距离与费用的关系MilesDollarsMiles 2Miles*Dollars1211180214665212182222MilesDollarsMiles 2Mile
15、s*Dollars1211180214665212182222例 距离与费用的关系1211180214665212182222134524051809025323472514222005202208428511101687251128459694236057184923323418801431186820262305410467646699301211180214665212182222134524051809025323472514222005202208428511101687251128459694236057184923323418801431186820262305410467646
16、69930()22=nxxxSS202623054104676466993021333016454968964331282253338550760097626405240030905760000741600024683694609102491167922699337172846019098329202623054104676466993021333016454968964331282253338550760097626405240030905760000741600024683694609102491167922699337172846019098329()(40947552252794482
17、93426944=yxSS2699337172846019098329280639987873636112183883082355594987241095651032094692102976811505662834664244120131561470970436435298132714491930061426993371728460190983292806399878736361121838830823555949872410956510320946921029768115056628346642441201315614709704364352981327144919300614()51402
18、848252106605390185024)(=nyxxyxySS364352981327144919300614385248011483790418493452403351471626508920757852426757381820728824484046449864202023200428877160453360592054808827465448364352981327144919300614385248011483790418493452403351471626508920757852426757381820728824484046449864202023200428877160453
19、36059205480882746544826.1255333776.1409475525140284825=XSSXYSSa453360592054808827465448480464262307841630870504509063212590810032173890523370262738428836767056543969642958272037877196453360592054808827465448480464262307841630870504509063212590810032173890523370262738428836767056543969642958272037877
20、196852742579448)255333776.1(25106605=xayb2010.4西安交通大学管理学院管理科学系胡平7949810605293426944390185024794981060529342694439018502485.274=例距离与费用的回归直线距离与费用的回归直线8 0 0 08 0 0 07 0 0 06 0 0 0o lla rs5 0 0 04 0 0 0D3 0 0 02 0 0 0Y=2 7 4.8 5 0+1.2 55 3 3 Xr2=0.9655 5 0 05 0 0 04 5 004 0 0 03 5 0 03 0 0 02 5 0 02 0 0
21、 01 5 0 01 0 0 0Mi le s1 0 0 02010.4西安交通大学管理学院管理科学系胡平例 SPSS结果SUMMARY OUTPUTRegression StatisticsRegression StatisticsMultiple R0.98243393R Square0.965176428Adjusted R Square0.963662359Standard Error248 9927747Standard Error248.9927747Observations25ANOVAdfSSMSFSiifiFdfSSMSFSignificance FRegression139
22、521617.639521617.6637.47215862.85084E-18Residual231425940.24361997.40187Total2440947557.84CoefficientsStandard Errort StatP-valueLower 95%Upper 95%Lower 95.0%Upper 95.0%Intercept-100.6545127139.0751189-0.7237420570.476521379-388.3529241 187.0438988-388.3529241187.0438988X Variable 10.7688603990.0304
23、5207425.2482112.85084E-180.705865569 0.8318552280.7058655690.8318552282010.4西安交通大学管理学院管理科学系胡平总变差与残差总变差与残差2010.4西安交通大学管理学院管理科学系胡平残差和标准差残差和标准差回归的误差平方和为:bSSSSyyeSnini=)(22回归的误差平方和为:ndfbSSSSyyeSxyyiiiie=2)(11ndf2标准差:MSEsnSMSEe=22010.4西安交通大学管理学院管理科学系胡平回归估计系数的标准差回归估计系数的标准差a:)(的标准差截距22例nSSxsas=)(2293426944
24、1583182)(=XnSSxsasXnSSMSE=s此处338.170 )84.4097557()25(293426944158.318 =b:)(1的标准差斜率)(=XSSsbsXSSsbs=)(04972.0 84.40947557158.318 =2010.4西安交通大学管理学院管理科学系胡平X回归参数的置信区间回归参数的置信区间:100%)-(1 a置信区间的回归参数的置信区间回归参数的置信区间2例)()2(2asnta置信区间的2)()(asta:95%置信区间例)()2(:100%)-(1 2bsntbb置信区间的)338.170(2.069)(274.85=)()225(,02
25、5.0asta最小二乘估计量a=1.2553328.627,58.7743.35285.274=Height=Sa 1.25533)()225(,025.0bstb长度=1Slope0358201152461 10287.025533.1).049720(2.069)(1.25533=2010.4西安交通大学管理学院管理科学系胡平长度=135820.1,15246.1 直线相关直线相关回归回归变量间的依存关系变量间的依存关系回归回归-变量间的依存关系变量间的依存关系相关-变量间的互依关系相关-变量间的互依关系直 线 相 关直 线 相 关(linear correlation):简 单 相 关简
26、 单 相 关(simple直 线 相 关直 线 相 关(linear correlation):简 单 相 关简 单 相 关(simplecorrelation),用于,用于双变量双变量正态分布资料。正态分布资料。2010.4西安交通大学管理学院管理科学系胡平散点呈椭圆形分布,散点呈椭圆形分布,X X、Y Y 同时同时增减-增减-正正相关相关(positive correlation);(positive correlation);X X、Y Y 此增彼减此增彼减-负负相关相关(til ti)(til ti)(neganegatitive correve correl la atitionon
27、)。散点在一条直线上,散点在一条直线上,X X、Y Y 变化趋势变化趋势相同相同-完全正相关完全正相关完全正相关完全正相关;反向反向变化-完全负相关。变化-完全负相关。相关系数示意图相关系数示意图2010.4西安交通大学管理学院管理科学系胡平X XY Y变化互不影响变化互不影响-零零X X、Y Y 变化互不影响变化互不影响-零零相关相关(zero correlation)(zero correlation)相关系数示意图相关系数示意图相关系数示意图相关系数示意图2010.4西安交通大学管理学院管理科学系胡平相关系数概念相关系数概念相关系数相关系数(correlation coefficient
28、),又称积差相关,又称积差相关系数(系数(coefficient of product moment correlation),或),或 Pearson 相关系数Pearson 相关系数(软件中常用此名称)(软件中常用此名称)说明相关的说明相关的密切程度密切程度和和方向方向的指标。的指标。r 样本相关系数样本相关系数2010.4西安交通大学管理学院管理科学系胡平相关系数的意义相关系数的意义()()()()YYXXXYlllYYXXYYXXr=22()()r无单位,无单位,-1 r 1。r 值为正值为正 正相关,正相关,为负为负 负相关;负相关;(与回归系数与回归系数b b的符号相同的符号相同)
29、(与回归系数与回归系数b b的符号相同的符号相同)|r|=1-完全相关,-完全相关,零相关零相关|r|=0-零相关零相关。2010.4西安交通大学管理学院管理科学系胡平相关分析相关分析两随机变量X 和 Y之间的 相关,由两变量之间的线性拟合度测度.两随机变量X 和 Y之间的 相关,由两变量之间的线性拟合度测度.总体相关系数,是一个由-1 到 1之间的值.总体相关系数,是一个由-1 到 1之间的值.=1 完全负相关-1 0 负相关=1 完全负相关-1 0 负相关=0不相关0 1 正相关1 完全正相关=0不相关0 1 正相关1 完全正相关=1 完全正相关 的绝对值表示相关性的强弱=1 完全正相关
30、的绝对值表示相关性的强弱2010.4西安交通大学管理学院管理科学系胡平 的绝对值表示相关性的强弱.的绝对值表示相关性的强弱.相关关系的测度相关关系的测度(相关系数取值及其意义)完全负相关完全负相关无线性相关无线性相关完全正相关完全正相关完全负相关完全负相关无线性相关无线性相关完全正相关完全正相关-1.01.0+1.0+1.00 0-0.50.5+0.5+0.5负相关程度增加负相关程度增加r r相关程度增加相关程度增加负相关程度增加负相关程度增加正相关程度增加正相关程度增加2010.4西安交通大学管理学院管理科学系胡平相关关系的测度(相关系数)1.对变量之间关系密切程度的度量2.对两个变量之间线
31、性相关程度的度量称为简单相关系数3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 为总体相关系数,记为 4.若是根据样本数据计算的,则称为样本相关系数记为系数,记为 r2010.4西安交通大学管理学院管理科学系胡平协方差与相关协方差与相关协方差与相关协方差与相关差两随机变量之间的协方的均值为差两随机变量之间的协方YXYXEYXCovYX)(),(=2例的均值为YXyX,总体相关系数:2=XYSSr例YXYXCov),(=总体相关系数:4.51402852YXSSSSYX样本相关系数:9824.029.52321943=YXXYSSSSSSr=2010.4西安交通大学管理学院管理科
32、学系胡平相关关系的测度(相关系数)?样本相关系数的计算公式=22)(yyxxr22)()(yyxx或化简为或化简为()()22=yxxynr()()2222yynxxn2010.4西安交通大学管理学院管理科学系胡平相关关系的测度(相关系数取值及其意义)1.r 的取值范围是-1,12|r|=1为完全相关2.|r|=1,为完全相关?r=1,为完全正相关?r=1为完全负正相关?r=-1,为完全负正相关3.r=0,不存在线性相关关系相关为负相关4.-1r0,为负相关5.0 t t/2/2,拒绝,拒绝H H0 0 若若|t t|t t接受接受H H 若若|t t|=64.9809t t/2/2(13(1
33、3-2)=2.2012)=2.201,拒绝,拒绝H H0 0,人均,人均消费金额与人均国民收入之间的相关关系显著消费金额与人均国民收入之间的相关关系显著消费金额与人均国民收入之间的相关关系显著消费金额与人均国民收入之间的相关关系显著2010.4西安交通大学管理学院管理科学系胡平相关系数的显著性检验(相关系数检验表的使用)1.若IrI大于表上的=5%相应的值,小于表上1%相应的值,称变量x与y之间有显著显著的线性关系1%相应的值,称变量x与y之间有显著显著的线性关系2.若IrI大于表上=1%相应的值,称变量x与y之间有十分显著十分显著的线性关系十分显著十分显著的线性关系3.若IrI小于表上=5%
34、相应的值,称变量x与y之间没有明显明显的线性关系有明显明显的线性关系4.根据前例的r0.9987=5%(n-2)=0.553,表明人均消费金额与人均国民收入之间有十分显著的线性相关关系2010.4西安交通大学管理学院管理科学系胡平相关的图例相关的图例Y=0Y=-1Y=1XY=-.8Y=.8Y=0XX.8.8 0XXX2010.4西安交通大学管理学院管理科学系胡平回归方程的显著性检验回归方程的显著性检验回归方程的显著性检验回归方程的显著性检验离差平方和的分解离差平方和的分解1因变量的取值是不同的取值的这种波动称1.因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变
35、量的取值不同造成的?由于自变量 x 的取值不同造成的?除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响误差等)的影响2.对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示该实际观测值与其均值之差来表示yy2010.4西安交通大学管理学院管理科学系胡平离差平方和的分解(图示)y y),(iiyxxy10+=yy yy?y yyy yy y yx x离差分解图离差分解图离差分解图离差分解图2010.4西安交通大学管理学院管理科学系胡平离差平方和的分解(三个平方和的关系)()()yyyyyy+=1.1.从图上看有从图上看有?2.两端平方后求和有()()yyyyy
36、y+=nnn()()()=+=niiniiniiyyyyyy121212总变差平方和总变差平方和回归平方和回归平方和残差平方和残差平方和SSTSST=SSRSSR+SSESSE总变差平方和总变差平方和(SSTSST)回归平方和回归平方和(SSRSSR)残差平方和残差平方和(SSESSE)SSTSST SSRSSR+SSESSE2010.4西安交通大学管理学院管理科学系胡平离差平方和的分解(三个平方和的意义)1.总平方和总平方和(SST)反映因变量的个观察值与其均值的总离差?反映因变量的 n 个观察值与其均值的总离差2.回归平方和回归平方和(SSR)?反映自变量 x 的变化对因变量 y 取值变化
37、的影响,或者说,是由于 x 与 y 之间的线性关系引起的的值变化也称为解的起的 y 的取值变化,也称为可解释的平方和3.残差平方和残差平方和(SSE)()?反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和称为解释平方或剩余平方2010.4西安交通大学管理学院管理科学系胡平样本决定系数(判定系数 r2)1.回归平方和占总离差平方和的比例2.2.反映回归直线的拟合程度反映回归直线的拟合程度3.3.取值范围在取值范围在 0,1 0,1 之间之间4.4.r r2 2 1 1,说明回归方程拟合的越好;,说明回归方程拟合的越好;r r2 20 0,.,说明回归方程拟合的越好
38、;,说明回归方程拟合的越好;0 0,说明回归方程拟合的越差说明回归方程拟合的越差5 5 判定系数等于相关系数的平方,即判定系数等于相关系数的平方,即r r2 2(r r)2 25.5.判定系数等于相关系数的平方,即判定系数等于相关系数的平方,即r r(r r)2010.4西安交通大学管理学院管理科学系胡平回归方程的显著性检验(线性关系的检验)1.检验自变量和因变量之间的线性关系是否显著2具体方法是将回归离差平方和(SSR)同剩余离差平2.具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著的差别是否显著?如果是显著的,两个变量之间存在线
39、性关系?如果不显著,两个变量之间不存在线性关系如果不显著两个变量之间不存在线性关系2010.4西安交通大学管理学院管理科学系胡平回归方程的显著性检验(检验的步骤)1.提出假设?H0:线性关系不显著H0:线性关系不显著2.2.计算检验统计量计算检验统计量F F3.3.确定显著性水平确定显著性水平,并根据分子自由度,并根据分子自由度1 1和分和分母自由度母自由度n n-2 2找出临界值找出临界值F F 4.4.作出决策:若作出决策:若F F F F,拒绝拒绝H H0 0;若若F F t t/2/2,拒绝,拒绝H H0 0;t t t t/2/2=2 2.201201,拒绝拒绝H H0 0,表明表明
40、人均收入人均收入与人均消费之间有线性关系与人均消费之间有线性关系与人均消费之间有线性关系与人均消费之间有线性关系2010.4西安交通大学管理学院管理科学系胡平回归系数的显著性检验(Excel输出的结果)SUMMARY OUTPUTSUMMARY OUTPUT回归统计回归统计+=nyxnSS22)()(10回归统计回归统计MulMul0.9987038210.998703821R SR S0 9974093220 9974093222228639254=iixxn12)(ySSR R S Squarequare0 0.997409322997409322Adjusted R Adjusted R
41、 0.9971738060.997173806标准误差标准误差14 9496776614 9496776699397869.822286392.54000=St=niiyxxS12)(1标准误差标准误差14 14.9496776694967766观测值13观测值1300808855.052637714.0111=St=i 1Coefficients标准误差t StatP-valueLower 95%Upper 95%InterceCoefficients标准误差t StatP-valueLower 95%Upper 95%Intercep pt t54.2228639254.22286392
42、8.993978698.99397869 6.0287966.0287968.56501E-05 34.4272403 74.01848758.56501E-05 34.4272403 74.01848751p pX Variable X Variable 0.526377140.52637714 0.008088550.00808855 65.0768265.076821.39842E-15 0.50857435 0.544179931.39842E-15 0.50857435 0.544179932010.4西安交通大学管理学院管理科学系胡平使用回归模型预测使用回归模型预测点预测点预测区间
43、预测区间预测 Y值的预测值的预测 Y的均值的预测的均值的预测2010.4西安交通大学管理学院管理科学系胡平Errors in Predicting EY|XYRegression lineUpper limit on slopeYRegression lineUpper limit on interceptYLower limit on slopeYLower limit on interceptLower limit on interceptXX1)Uncertainty about the slope XX2)Uncertainty about the intercept)ypof the
44、 regression line)ypof the regression line2010.4西安交通大学管理学院管理科学系胡平利用回归方程进行估计和预测(点估计)1.1.对于自变量对于自变量 x x 的一个给定值的一个给定值x x0 0,根据回归方根据回归方程得到因变量程得到因变量 y y 的一个估计值的一个估计值 y2.2.点估计值有点估计值有程得到因变量程得到因变量 y y 的个估计值的个估计值0y?y y 的平均值的点估计的平均值的点估计?y y 的个别值的点估计的个别值的点估计3 3 在点估计条件下平均值的点估计和个别值的在点估计条件下平均值的点估计和个别值的3.3.在点估计条件下,
45、平均值的点估计和个别值的在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同的点估计是一样的,但在区间估计中则不同2010.4西安交通大学管理学院管理科学系胡平利用回归方程进行估计和预测(点估计)?y 的平均值的点估计的平均值的点估计1利用估计的回归方程,对于自变量 x 的一个1.利用估计的回归方程,对于自变量 x 的个给定值 x0,求出因变量 y 的平均值的一个估计值E(y)就是平均值的点估计估计值E(y0),就是平均值的点估计2.在前面的例子中,假如我们要估计人均国民收入为元时所有年份人均消费金额的收入为2000元时,所有年份人均消费金额的的平均值,就是平均值的点
46、估计。根据估计的回归方程得)(98.1160200052638.022286.540元=+=y)(0y2010.4西安交通大学管理学院管理科学系胡平利用回归方程进行估计和预测(点估计)?y 的个别值的点估计的个别值的点估计利用估计的回归方程利用估计的回归方程对于自变量对于自变量的个的个1.1.利用估计的回归方程利用估计的回归方程,对于自变量对于自变量 x x 的一个的一个给定值给定值 x x0 0,求出因变量求出因变量 y y 的一个个别值的估的一个个别值的估0 y计值计值,就是个别值的点估计就是个别值的点估计2.2.比如,如果我们只是想知道比如,如果我们只是想知道19901990年人均国民年
47、人均国民如如果我们只是想知如如果我们只是想知年人均国民年人均国民收入为收入为1250.71250.7元时的人均消费金额是多少,元时的人均消费金额是多少,则属于个别值的点估计。根据估计的回归方则属于个别值的点估计。根据估计的回归方程得程得)(57.7127.125052638.022286.540元=+=y)(0y2010.4西安交通大学管理学院管理科学系胡平利用回归方程进行估计和预测利用回归方程进行估计和预测(区间估计)1.点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计值之间是有误差的,因此需要进行区间估计2.对于自变量 x 的一个给定值 x0,根据回归方程得到
48、因变量的一个估计区间得到因变量 y 的一个估计区间3.区间估计有两种类型?置信区间估计?预测区间估计2010.4西安交通大学管理学院管理科学系胡平利用回归方程进行估计和预测(置信区间估计)?y 的平均值的的平均值的置信区间置信区间估计估计1利用估计的回归方程对于自变量 x 的一个1.利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的平均值E(y0)的估计区间这估计区间称为置信区间置信区间计区间,这一估计区间称为置信区间置信区间2.E(y0)在1-置信水平下的置信区间为()+xxSnty201)2()=+niiyxxnSnty1220)2(式中:式中:S Sy y为估计标
49、为估计标准误差准误差=i 12010.4西安交通大学管理学院管理科学系胡平利用回归方程进行估计和预测(置信区间估计:算例)?【例】【例】根据前例,求出人均国民收入为1250.7元时,人均消费金额95%的置信区间?解:根据前面的计算结果?712 57,S=14 95,t/2(13-2)2 201,0 y?712.57,Sy14.95,t/2(13 2)2.201,n=13?置信区间为0y?置信区间为712.57712.57 10.26510.265人 均 消 费 金 额人 均 消 费 金 额 9595%的 置 信 区 间 为的 置 信 区 间 为 702702.305305 元元722722 8
50、35835元之间元之间 722722.835835元之间元之间2010.4西安交通大学管理学院管理科学系胡平利用回归方程进行估计和预测(预测区间估计)?y 的个别值的的个别值的预测区间预测区间估计估计利用估计的回归方程对于自变量的个1.利用估计的回归方程,对于自变量 x 的一个给定值 x0,求出因变量 y 的一个个别值的估计区间这区间称为预测区间预测区间计区间,这一区间称为预测区间预测区间2.y0在1-置信水平下的预测区间为y0在信水平下的预测区间为注意注意注意注意!2010.4西安交通大学管理学院管理科学系胡平利用回归方程进行估计和预测(置预测区间估计:算例)?【例】【例】根据前例,求出19