《常用统计预测方法PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《常用统计预测方法PPT讲稿.ppt(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、常用统计预测方法第1页,共51页,编辑于2022年,星期六第一节第一节 概概 述述第2页,共51页,编辑于2022年,星期六 一、基本任务和意义 统计预测(统计预测(forecasting)应用最广泛的预测方法,对大量的数据资料进行统计分析,以求得比较准确的预测结果的理论和方法。第3页,共51页,编辑于2022年,星期六 统计预测的作用w为管理决策提高科学依据;w为制定政策、编制计划和检查政策、计划的执行情况提供科学依据;w为统计工作的本身发展开拓了一个新的领域。w局限性:不能过多外延,影响预测的主观、客观因素较多。第4页,共51页,编辑于2022年,星期六 二、统计预测的分类w按预测方法分:
2、定性预测与定量预测w按预测时间分:短期预测:月、季、1年 中期预测:35年 长期预测:510年或以上第5页,共51页,编辑于2022年,星期六1、定性预测w依据预测者的直观判断能力对预测事件的未来状况进行直观判断的方法。w主要是对未来状况作性质上的预测,而不着重考虑其量的变化。w主要有:头脑风暴法、特特尔尔菲菲法法DelphiDelphi(专专家调查法)、家调查法)、主观概率法、交叉概率法等。第6页,共51页,编辑于2022年,星期六德尔菲法Delphiw这是由美国兰德公司和道格拉斯公司协作发展的一种专家预测方法。它通过寄发调查表的形式征求专家的意见:专家在提出意见后以不记名的方式反馈回来;组
3、织者将得到的初步结果进行综合整理,然后反馈给各位专家,请他们重新考虑后再次提出意见;经过几轮的匿名反馈过程,专家意见基本趋向一致;组织者依此得出预测结果。第7页,共51页,编辑于2022年,星期六 2、定量预测方法 根据历史数据可统计资料,运用数学或其它分析的方法所建立的模型计算预测对象在未来可能表现的数量。第8页,共51页,编辑于2022年,星期六w(1)时间序列法时间序列法:确定性时间序列预测,如移动平均法(一、二次),指数平滑法(一、二、三次),季节周期法 随机性时间序列预测,如平稳时间序列预测(ARMA,ARIMA等),回归预测(线性、非线性、自回归预测等)马尔柯夫(Markov)预测
4、 系统动力学(SD)预测w(2)模糊预测模糊预测w(3)灰色系统预测灰色系统预测第9页,共51页,编辑于2022年,星期六 三、预测步骤确定预测目标确定预测目标数据收集与预处理数据收集与预处理预测方法选择与评价预测方法选择与评价建立预测模型建立预测模型利用预测模型作预测计算利用预测模型作预测计算结果分析与检验评价结果分析与检验评价满意否满意否结束结束NY第10页,共51页,编辑于2022年,星期六 预测结果的检验评价w相互检验:使用不同预测方法对同一对象进行预测,比较各自的预测误差。w对比检验:用预测结果与别人的预测结果进行比较。w专家检验:通过专家对结果的咨询,来评价其准确度。第11页,共5
5、1页,编辑于2022年,星期六第二节 指数平滑方法时间序列时间序列定义:一组按时间先后顺序排列的数定义:一组按时间先后顺序排列的数据序列称为时间序列,用符号据序列称为时间序列,用符号y1,y2,yT表示,此中表示,此中T称为时间序列的长度。称为时间序列的长度。第12页,共51页,编辑于2022年,星期六w分析要求:序列的平稳分析要求:序列的平稳 即:即:1.均数不随时间变化(差分)均数不随时间变化(差分)2.方差不随时间变化(对数和平方方差不随时间变化(对数和平方根转换)根转换)3.无周期性变化;(季节差分)无周期性变化;(季节差分)4.自相关系数只与时间间隔有关,自相关系数只与时间间隔有关,
6、于所处的时间无关。于所处的时间无关。第13页,共51页,编辑于2022年,星期六 指数平滑方法 利用本期实际数与本期预测数。以平滑系数加权计算指数平滑平均数,作为下期预测数。一般适用于短期和近期预测。第14页,共51页,编辑于2022年,星期六1、一次指数平滑w 第t时刻的实际值w 第t时刻的预测值w 平滑系数,0 1反复递推得,第15页,共51页,编辑于2022年,星期六 值的选择w 值实际上是t期实际值和预测值的比例分配。其确定,是指数平滑法预测的关键。w数据呈水平波动发展,于其无关;w长期趋势比较稳定,取较小值0.050.20;w呈迅速明显变动趋势,取较大值0.30.7w或者选取不同值,
7、分别预测,根据结果选取符合实际的 值。第16页,共51页,编辑于2022年,星期六 初始值的估计w当数据较多的时候,初始值的影响被逐步平滑而降低到最小,此时可以用第一个数据代替。w当数据较少时,初始值的影响较大,可以取最初几个实际值的平均值作为初始值的估计值。第17页,共51页,编辑于2022年,星期六2、多次指数平滑预测w二次指数平滑预测:对于有明显线性趋势的时间序列,对一次平滑值再作一次指数平滑。w三次指数平滑预测:出现曲线趋势。w各自的预测模型如下:线性趋势 曲线趋势第18页,共51页,编辑于2022年,星期六例w某公司1992年1季度到2000年4季度的销售资料,请用指数平滑法分析预测
8、将来4个季度的销售额第19页,共51页,编辑于2022年,星期六预测结果第20页,共51页,编辑于2022年,星期六优缺点w只要知道本期的实际值和预测值就可以预测下一个时间的数值了w只适用于随时间的消逝呈指数下降的数据w平滑参数的确定没有很好的判断原则。w初始值的确定,如果数据点少,初始值对预测值的影响较大,违背了指数衰减的假设了。一般数据点大于40,初始值就影响不大。w适用于呈水平发展的序列,如有上升、下降和季节变化的,可以通过差分使得数据平稳化。w时间序列的预测一般不能太超前。第21页,共51页,编辑于2022年,星期六 第三节第三节 ARIMA预测方法预测方法 (autoregressi
9、ve integrated moving average)w 一、预测模型一、预测模型 自回归模型(AR)滑动平均模型(MA)自回归滑动平均模型(ARIMA)该方法包含三个过程:自回归、滑动平均和差分求和。第22页,共51页,编辑于2022年,星期六1、自回归模型(AR)wYt与自己过去值的线性回归。wYt=1Yt-1+2Yt-2+pYt-p+et 式中:1,2,p 是自回归系数;et 是随机项或称误差项又称白噪声;p 是自回归阶数。w若p1,则模型为 Yt=1Yt-1+et第23页,共51页,编辑于2022年,星期六 2、滑动平均模型(MA)t期观测值Yt被描述为过去误差e(et:t时期的误
10、差)的线性回归。其模型形式为:Yt=et-1et-1-2et-2-qet-q 式中:是移动平均系数,q 是滑动平均的阶数。若q=1,模型为 Yt=et-1et-1第24页,共51页,编辑于2022年,星期六3、自回归滑动平均模型(ARIMA)其模型为自回归模型与滑动平均模型的组合:Yt=1Yt-1+2Yt-2+pYt-p+et 1et-1-2et-2-qet-q 若p=1,q=1,则模型为:Yt=1Yt-1+et-1et-1第25页,共51页,编辑于2022年,星期六 运用的前提条件w待分析的时间序列已经是由一个待分析的时间序列已经是由一个零均值零均值的的平稳平稳随机随机过程产生,平稳表明其折
11、线图无明显的上升或下降过程产生,平稳表明其折线图无明显的上升或下降趋势。趋势。w非零均值、不平稳序列处理方法:非零均值、不平稳序列处理方法:1、零均值化处理:、零均值化处理:2、对零均值非平稳序列进行差分、对零均值非平稳序列进行差分:滞后滞后1项一阶差分:项一阶差分:滞后滞后1项二阶差分:项二阶差分:滞后滞后k项一阶差分:项一阶差分:.3、对数或平方根转换、对数或平方根转换第26页,共51页,编辑于2022年,星期六Y1,Y2,Y3,Yt一阶差分一阶差分(t1):Y2(Y2-Y1),Y3(Y3-Y2),Y4(Y4-Y3),Yt(Yt-Yt-1),二阶差分二阶差分(t2):2 2Y3(Y3-Y2
12、),),2 2Y4(Y4 Y3),),2 2Yt(Yt-Yt-1).第27页,共51页,编辑于2022年,星期六 预测的三个阶段1、模型的识别 identification:主要通过自相关函数ACF、偏自相关函数PACF和CCF分析系列的随机性、平稳性、季节性,把握模型的大致方向,为模型定阶,提供粗的模型。2、参数估计和模型诊断estimation and diagno-stic:对提供的粗模型进行参数估计和假设检验,作模型的诊断。3、预测 forecasting:模型应用价值的体现。ARIMA:自回归的阶为自回归的阶为p,差分次数为,差分次数为d,滑动滑动平均的阶为平均的阶为q第28页,共5
13、1页,编辑于2022年,星期六 二、二、ARIMA自相关分析自相关分析wn 是时间序列的观测值数目;是时间序列的观测值数目;是是n 个样本数据的平个样本数据的平均值;均值;Yt 是时间序列在是时间序列在t 时刻的值;时刻的值;Yt+k 是时间序是时间序列与列与t 时刻相隔时刻相隔k 期的值。期的值。rk 的取值范围是的取值范围是w1,1,它代表相差,它代表相差k个时期两项数据个时期两项数据系列系列之之间的相关程度。间的相关程度。1.自相关分析自相关分析自相关系数自相关系数第29页,共51页,编辑于2022年,星期六Yt:Y1,Y2,Y3,Yn-k,Yn-2,Yn-1,YnYt+1(k=1):Y
14、2,Y3,Y4,YnYt+2(k=2):Y3,Y4,Y5,Yn.Yt+k:Y1+k,Y2+k,Y3+k,Yn第30页,共51页,编辑于2022年,星期六w 由随机数字构成的序列,其各阶自相关由随机数字构成的序列,其各阶自相关系数应该是系数应该是0。当序列诸项之间没有相关时,。当序列诸项之间没有相关时,样本自相关系数的抽样分布近似于以样本自相关系数的抽样分布近似于以0为均值为均值的正态分布。这样,可以建立序列自相关系的正态分布。这样,可以建立序列自相关系数的随机区间。将时间系列的自相关系数与数的随机区间。将时间系列的自相关系数与偏自相关系数绘制成图,并在图上标出随机偏自相关系数绘制成图,并在图上
15、标出随机区间就是自相关分析图,它可以用来分析时区间就是自相关分析图,它可以用来分析时间序列的随机性、平稳性、季节性特性。间序列的随机性、平稳性、季节性特性。第31页,共51页,编辑于2022年,星期六2.偏自相关系数w时间序列Yt 与Yt-k 之间的相关是与中间各项Yt-1,Yt-2,Yt-k+1 的相关结合在一起的,为了排除中间诸项因素的影响,只观察Yt 与Yt-k之间的相关,需要计算偏自相关系数。在时间序列中,偏自相关是在给定了Yt-1,Yt-2,Yt-k+1 的条件下,Yt 与Yt-k 之间的条件相 关。w偏自相关和自相关系数被用来共同识别合适的ARIMR模型。第32页,共51页,编辑于
16、2022年,星期六 三、三、ARIMA的计算步骤的计算步骤1.识别识别 通过序列图、自相关分析对平稳性、季节性进通过序列图、自相关分析对平稳性、季节性进行识别。短时滞行识别。短时滞ACF为正且大,随为正且大,随lag增加而缓慢下增加而缓慢下降,降,有上升或下降趋势有上升或下降趋势;L12时时lag=12,24,ACF最大,最大,无趋势有季节性无趋势有季节性;ACF摆动在时滞摆动在时滞12,24,有峰值,有峰值,有趋势的季节性。有趋势的季节性。proc arima;identify var=x(k);/*对滞后对滞后k项作一阶差分项作一阶差分*/proc arima;identify var=x
17、(1,1);/*对滞后对滞后1项作二阶差分项作二阶差分*/第33页,共51页,编辑于2022年,星期六2、模型诊断w残差序列的分析:其自相关和偏自相关不应与0有显著的差异。残差是随机的,是白噪声。w拟合优度的检验:AIC 和 SBC 其值越低,模型越好。w根据选中的模型,进行参数的粗略估计,然后用SAS软件进行分析比较,选择最佳的模型。第34页,共51页,编辑于2022年,星期六例例223:某医院:某医院90.101.12逐月门诊量数据:逐月门诊量数据:w112 118 132 129 121 135 148 148 136 119 104 118w115 126 141 135 125 14
18、9 170 170 158 133 114 140w145 150 178 163 172 178 199 199 184 162 146 166w171 180 193 181 183 218 230 242 109 191 172 194w196 196 236 235 229 243 264 272 237 211 180 201w204 188 235 227 234 264 302 293 259 229 203 229w242 233 267 269 270 315 364 347 312 274 237 278w284 277 317 313 318 374 413 405 35
19、5 306 271 306w315 301 356 348 355 422 465 467 404 347 305 336w340 318 362 348 363 435 491 505 404 359 310 337w360 342 406 396 420 472 458 559 463 407 362 405w417 391 419 461 472 535 622 606 508 461 390 432第35页,共51页,编辑于2022年,星期六data ar;date=intnx(month,31dec1989d,_n_);input x;cards;112 118 132 129 12
20、1 135 148 148 136 119 104 118115 126 141 135 125 149 170 170 158 133 114 140145 150 178 163 172 178 199 199 184 162 146 166171 180 193 181 183 218 230 242 109 191 172 194196 196 236 235 229 243 264 272 237 211 180 201204 188 235 227 234 264 302 293 259 229 203 229242 233 267 269 270 315 364 347 312
21、274 237 278284 277 317 313 318 374 413 405 355 306 271 306315 301 356 348 355 422 465 467 404 347 305 336340 318 362 348 363 435 491 505 404 359 310 337360 342 406 396 420 472 458 559 463 407 362 405417 391 419 461 472 535 622 606 508 461 390 432;proc print data=ar;proc gplot data=ar;第第一一步步:对对平平稳稳性性
22、、季季节节性性的的识识别别第36页,共51页,编辑于2022年,星期六plot x*date /*date为横轴,为横轴,x为纵轴为纵轴*/vaxis=axis1 /*变量轴记为变量轴记为axis1*/haxis=axis2 /*时间轴记为时间轴记为axis2*/href=31dec1989d to 1jan02d by year;symbol i=join v=c h=0.5 l=1 font=swissb;axis1 order=(100 to 650 by 50);axis2 order=(31dec1989d to 1jan02d by year);run;第37页,共51页,编辑于2
23、022年,星期六季节性,季节性,7、8月高,月高,1、2月低;上升趋势。取对数消除振幅变大趋势;对月低;上升趋势。取对数消除振幅变大趋势;对滞后滞后1项、项、12项取两次差分,消除季节增长趋势。项取两次差分,消除季节增长趋势。第38页,共51页,编辑于2022年,星期六data ar1;date=intnx(month,31dec1989d,_n_);input x;cards;112 118 132 129 121 135 148 148 136 119 104 118417 391 419 461 472 535 622 606 508 461 390 432;run;data ar2;s
24、et ar1;xlog=log(x);run;/*取对数,消除振幅变大趋势取对数,消除振幅变大趋势*/proc arima data=ar2;/*调用调用arima过程过程*/identify var=xlog(1,12)/*对变量对变量xlog进行滞后进行滞后1项、项、12项共项共2次差次差 分,使系列平稳分,使系列平稳*/nlag=15;/*计算自相关的滞后数为计算自相关的滞后数为15,大于,大于p+d+q,小于小于n,默认默认 值为值为24*/*/run;第39页,共51页,编辑于2022年,星期六w AutocorrelationsLag Covariance Correlation
25、-1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error 0 0.017435 1.00000|*|0 1 -0.0083475 -.47877|*|.|0.087370 2 0.00049442 0.02836|.|*.|0.105514 3 -0.0018747 -.10752|.*|.|0.105572 4 0.0012192 0.06993|.|*.|0.106405 5 0.00056013 0.03213|.|*.|0.106755 6 0.00097085 0.05568|.|*.|0.106829 7 -0.0023892 -.1
26、3703|.*|.|0.107050 8 0.00016580 0.00951|.|.|0.108381 9 0.0012098 0.06939|.|*.|0.10838710 -0.0001744 -.01001|.|.|0.10872611 0.0034000 0.19501|.|*|0.10873312 -0.0081267 -.46611|*|.|0.11137113 0.0039737 0.22791|.|*|0.12538114 -0.0000820 -.00470|.|.|0.12850415 0.0017610 0.10101|.|*.|0.128506w .marks two
27、 standard errorsACF在在 lag=1、12时其值时其值大,选大,选MA阶数阶数为为1、12第40页,共51页,编辑于2022年,星期六w Inverse Autocorrelations Lag Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1w 1 0.72768|.|*|w 2 0.51555|.|*|w 3 0.36419|.|*|w 4 0.25820|.|*|w 5 0.21269|.|*|w 6 0.17373|.|*|w 7 0.18386|.|*|w 8 0.16782|.|*|w 9 0.18360
28、|.|*|w 10 0.21946|.|*|w 11 0.26616|.|*|w 12 0.32391|.|*|w 13 0.18256|.|*|w 14 0.08070|.|*.|w 15 0.01955|.|.|IACF在在 lag=1、12时其值大,时其值大,选选AR阶数为阶数为1、12第41页,共51页,编辑于2022年,星期六w Partial Autocorrelationsw Lag Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1w 1 -0.47877|*|.|w 2 -0.26060|*|.|w 3 -0.2995
29、1|*|.|w 4 -0.20526|*|.|w 5 -0.09406|.*|.|w 6 0.04898|.|*.|w 7 -0.07396|.*|.|w 8 -0.11844|.*|.|w 9 -0.02010|.|.|w 10 -0.02542|.*|.|w 11 0.30690|.|*|w 12 -0.26980|*|.|w 13 -0.19225|*|.|w 14 -0.13264|*|.|w 15 -0.05070|.*|.|PACF在在 lag=1、12时其值时其值大,选大,选AR阶数为阶数为1、12第42页,共51页,编辑于2022年,星期六w Autocorrelation C
30、heck for White Noise To Chi-Pr Lag Square DF ChiSq -Autocorrelations-6 33.65 6 .0001 -0.479 0.028 -0.108 0.070 0.032 0.05612 74.33 12 .0001 -0.137 0.010 0.069 -0.010 0.195 -0.466P|t|LagMU 0.0004856 0.0005636 0.86 0.3905 0MA1,1 0.75055 0.08158 9.20 .0001 1MA2,1 0.83332 0.07743 10.76 0.05,系系数为数为0,丢弃这两
31、项,丢弃这两项第45页,共51页,编辑于2022年,星期六data ar1;input x;cards;112 118 132 129 121 135 148 148 136 119 104 118;run;data ar2;set ar1;xlog=log(x);run;proc arima data=ar2;identify var=xlog(1,12)nlag=15;estimate q=(1)(12);第第三三步步:确确定定模模型型进进行行预预测测第46页,共51页,编辑于2022年,星期六forecast lean=12 /*向前预测的次数为向前预测的次数为12*/interval=
32、month /*按月对总体均数作区间估计按月对总体均数作区间估计*/out=foxxlog;run;/*将运行结果存入数据集将运行结果存入数据集foxxlog*/proc print data=foxxlog;/*输出数据集输出数据集foxxlog*/run;run;第47页,共51页,编辑于2022年,星期六Conditional Least Squares Estimation Standard ApproxParameter Estimate Error t Value Pr|t|LagMU 0.0004486 0.0005787 0.78 0.4397 0MA1,1 0.72660 0
33、.06081 11.95 .0001 1MA2,1 0.81285 0.06010 13.52 Lag Square DF ChiSq -Autocorrelations-6 1.28 4 0.8641 0.023 0.022 -0.054 -0.017 0.062 -0.03512 4.88 10 0.8988 -0.127 -0.057 0.029 0.048 0.051 0.01618 11.53 16 0.7753 0.073 0.081 0.074 -0.073 0.124 -0.07824 15.60 22 0.8354 -0.040 -0.081 -0.018 0.056 0.1
34、16 0.016第48页,共51页,编辑于2022年,星期六w Forecasts for variable xlogw Obs Forecast Std Error 95%Confidence Limitsw 145 6.1305 0.0835 5.9669 6.2940w 146 6.1013 0.0865 5.9317 6.2709w 147 6.2373 0.0895 6.0619 6.4127w 148 6.2356 0.0924 6.0546 6.4166w 149 6.2540 0.0951 6.0675 6.4404w 150 6.3923 0.0978 6.2006 6.58
35、41w 151 6.4891 0.1005 6.2922 6.6860w 152 6.5174 0.1030 6.3155 6.7193w 153 6.3441 0.1055 6.1373 6.5509w 154 6.2447 0.1080 6.0331 6.4563w 155 6.1095 0.1103 5.8932 6.3257w 156 6.2256 0.1127 6.0048 6.4464第49页,共51页,编辑于2022年,星期六1.绘序列图:季节性,绘序列图:季节性,7、8月高,月高,1、2月低;上升月低;上升趋势趋势2.取对数消除振幅变大趋势取对数消除振幅变大趋势3.对滞后对滞后
36、1项、项、12项取两次差分,消除季节增项取两次差分,消除季节增长趋势长趋势4.选选AR(从从IACF、PACF图中看到图中看到lag=1、12时时其值大)的阶数为其值大)的阶数为1,12;MA(从从ACF图中图中看到看到lag=1、12时其值大)的阶数为时其值大)的阶数为1,125.采用最小二乘估计,采用最小二乘估计,AR1,1及及AR2,1的的t值小无显著性,去掉这两项值小无显著性,去掉这两项6.使用确定的模型预测。使用确定的模型预测。第50页,共51页,编辑于2022年,星期六练习题1、江苏省1980-2002年卫生技术人员数量如下,请采用arima模型预测2004-2008年逐年的卫生技
37、术人员数量。1980 150364 1981 1623071982 169282 1983 1722301984 176750 1985 1827681986 189821 1987 1917901988 200548 1989 2074681990 213545 1991 2221561992 228910 1993 2344261994 240500 1995 2455381996 246919 1997 2515741998 256681 1999 2666962000 272609 2001 2785232002 284436 2003 290350第51页,共51页,编辑于2022年,星期六