《2022年SPSS在医院统计预测中的应用 .pdf》由会员分享,可在线阅读,更多相关《2022年SPSS在医院统计预测中的应用 .pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、?论 著?SPSS在医院统计预测中的应用张彦琦1黄 彦2田考聪2【摘要】目的 探讨SPSS 8.0统计软件包中回归、指数平滑及ARIMA等时间序列分析模块的建模及诊断方法。方法 根据某医院1995年1月 2001年11月的门诊人次历史资料,建立对数模型、指数平滑模型和ARIMA乘积模型,并对三者的预测结果进行比较分析。结果 对数模型、指数平滑模型和ARIMA乘积模型的预测平均相对误差分别为14.34%,8.14%和4.89%。结论 ARIMA乘积模型适于对有趋势性和周期性的门诊量数据进行预测。SPSS8.0统计软件包时间序列分析模块操作方便,在医院统计预测中有广阔的应用前景。【关键词】SPSS
2、软件包 统计预测模型医院 应用中图分类号:R195.1,R197.3,TP317.4文献标识码:A文章编号:100625253(2002)0320131204ApplicationofSPSS inHospitalStatisticalPredictionZhangYanqi1The ThirdMilitaryMedicalUniversity,Chongqing 400038.HuangYan,TianKaocong.Chongqing Universityof MedicalSciences,Chongqing 400016.【Abstract】ObjectiveTo sum up the
3、 modulars of statistical predictionin SPSS 8.0 which are regression,expo2nential smoothing and ARIMAand analyze the methods to model and diagnose these models.MethodsWe establishedlogarithmicmodel,exponentialsmoothing model and model of seasonal multiple ARIMAand compared the predictionef2fects of t
4、hem.ResultsThe average relative error of logarithmicmodel,exponentialsmoothingmodel and model of sea2sonal multipleARIMAwas 14.34%,8.14%and 4.89%,respectively.ConclusionThe model ofmultipleseasonalARIMAcan be well used to predict the time series of outpatient amount which has the trend and periodici
5、ty.Time seriesanalysis modulars can be efficientlyapplied to hospital statistical prediction.【Key words】SPSSModel of statistical predictionHospitalApplication统计预测在医院管理工作中正发挥着重要的作用。本文针对医院统计预测中经常遇到的时间序列资料,从 SPSS不同功能模块中归纳出了几种常用的时间序列统计预测模型,并运用于医院门诊量资料的统计预测分析。1 SPSS时间序列统计预测模型时间序列即指在一段时间内,通过对某一变量定期测量而获得的一
6、组观察值的集合1。在医院统计工作中,时间序列资料是非常多见的,比如门诊量、药品消耗量等。在SPSS中适于处理时间序列资料的统计模型有:111 回归预测模型回归预测法是分析时间序列最常用的方法之一,它适用于无周期变动的时间序列,一般用于作短期预测。以时间为自变量x,所观察的某项变量或指标为因变量y,对y建立关于x的回归方程,即为回归预测。根据y与x依存变化关系的不同,又可分为11111 直线回归预测其散点图呈现直线变化的规律,SPSS预测模型为 Linear:y=b0+b1x11112 曲线回归预测其散点图呈现某种曲线变化规律。SPSS提供的曲线模型有:对数模型(Logarithmic):y=b
7、0+b1lnx二次模型(Quadratic):y=b0+b1x+b2x2三次模型(Cubic):y=b0+b1x+b2x2+b3x3Logistic 模型(Logistic):y=1/(1/u+b0bx1)指数模型(Exponential):y=b0eb1x另外还有倒数模型(Inverse)、幂模型(Power)、复合 模 型(Compound)、S 型 模 型(S)、生 长 模 型(Growth)等。11113 多元线性回归预测?131?中国医院统计 2002年9月第9卷第3期作者单位:1400038解放军第三军医大学 重庆市2重庆医科大学?1995-2006 Tsinghua Tongfa
8、ng Optical Disc Co.,Ltd.All rights reserved.名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 4 页 -若影响预测指标的因素(自变量)不止一个,就应采用多元回归。预测模型为y=b0+b1x1+b2x2+bmxm(m=2,3,)112 指数平滑模型指数平滑的根本目的是去除一些随机的波动,以体现序列的规律性。一旦识别出这种规律性,就可以用它来预测了。指数平滑模型适于分析呈现自相关的时间序列,也适用于有周期性和趋势性变动的资料。SPSS为指数平滑模型提供了4 个参数来控制近期观察值在预测中所起的作用:常规参数,趋势参数,周期参数,以及趋势修正参
9、数。前 3 个参数可以控制加载到近期观察值的权重。它们的变化范围是从0 到 1,其值越接近于1,则赋予近期观察的权重就越高。控制随着时间的前进,趋势“衰减”的比率或降低的幅度。它的变化范围也是从0到 1(但不包括1),其值越接近于1,表示衰减得越缓慢。在一个模型中,这 4 个参数并不是全都需要。如果序列无趋势性和周期性,则模型中只需常规参数即可;若序列显示了趋势性或(和)周期性,则可再选择其他3 个参数。113 ARIMA模型ARIMA(Autoregressive Integrated Moving Av2erage)即自回归求和移动平均,是 Box2Jenkins 方法中重要的预测模型,适
10、于处理非平稳时间序列。ARIMA是多个模型的混合,即自回归AR,求和 I,和移动平均MA。若 AR 和 MA 的阶数分别为p和q,差分的次数为d,则非季节性ARIMA模型可写作 ARIMA(p,d,q)。即dxt=1dxt-1+2dxt-2+pdxt-p+et+1et-1+2et-2+qet-q或简写为(B)dxt=(B)et其中,B为后移算子;d为向后差分算子;(B)=1-1B-2B2-pBp,为自回归算子;(B)=1-1B-2B2-qBq,为移动平均算子。SPSS可为模型确定参数1,2,p和 1,2,q,可见,阶数越高,模型中的参数也越多。114 季节性 ARIMA模型其建模过程与非季节性
11、ARIMA模型相同,只是在对时点进行预测时考虑了季节周期的因素。对于有季节性或周期性变动的数据,季节性ARIMA模型尤为适用。若sp,sq分别表示季节性自回归和季节性移动平均的阶数,sd为季节性差分的次数,则其一般形式为ARIMA(sp,sd,sq)S,即sdSxt=1sdSxt-S+2sdSxt-2S+spsdSxt-spS+et+1et-S+2et-2S+sqet-sqS或简写为(BS)sdSxt=(BS)et其中,S为周期中所包含的观察值数;(BS)=1-1BS-2B2S-spBspS,为季节性自回归算子;(BS)=1-1BS-2B2S-sqBsqS,为季节性移动平均算子。SPSS为模型
12、确定参数1,2,sp和1,2,sq。往往,一个季节性时间序列不仅仅有季节性成分,还会含有非季节性成分;或者说研究者不仅关心不同周期间的变化情况,还关心同一周期中不同观察值的变化情况。这时可用 ARIMA乘积模型进行预测:ARIMA(p,d,q)(sp,sd,sq)S,即(B)(BS)dsdSxt=(B)(BS)et115 SPSS模型选择软件操作示意图以上 介 绍 的 几 个 模 型 都 可 在 SPSS 8.0 的Statistics 模块中找到。直线回归和多元回归对应Regression中的 Linear 命令,曲线回归对应CurveEstimation 命令,如图 1 所示。指数平滑及A
13、RIMA模 型 分 别 对 应TimeSeries 中 的ExponentialSmoothing 和 ARIMA命令,如图 2所示。图1 回归模型选择界面2 模型诊断标准不同的模型有不同的诊断标准,以判断其是否适用于预测。211 回归模型?231?中国医院统计 2002年9月第9卷第3期?1995-2006 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 4 页 -图2 指数平滑及ARIMA模型选择界面SPSS给出回归模型的方差分析表、模型的系数及其显著水平、以
14、及决定系数Rsq。选择模型时,应在模型有意义,各系数有意义的基础上,选择Rsq较大的一个。但这个标准并不是绝对的。比如,三次模型的拟合效果往往优于二次模型,但在实际运用时,二次模型更便于解释,这时可选二次模型进行预测。212指数平滑模型若在确定模型时选择了“grid search”对参数值进行搜索,则参数每改变一个值,SPSS都为相 应 的模型计算一个误差平方和SSE。SSE越小,拟合效果越好。按照SSE由小到大的顺序,最终 SPSS可给出 10 个最优模型,一般选择SSE最小的模型。213 ARIMA模型在识别了模型的p,d,q或(和)sp,sd,sq后,通过 ARIMA过程,SPSS给出模
15、型的拟合优度统计量A IC(Akaike信 息 标 准)和SBC(SchwartzBayesian 标准),二者越小越好。一般说来,A IC适用于自回归过程,SBC是更通用的标准。同时,SPSS还报告了方差分析表和模型参数及其显著水平。若参数有意义,则绘残差序列的A CF(自相关函数)和PACF(偏自相关函数)图,SPSS还同时给出A CF的 Box2Ljung 统计量。若ACF和PA CF图显示绝大部分相关函数都在可信限范围内,且 Box2Ljung 统计量无显著性,则可认为残差是一个“白噪声”序列,意味着所估计的模型已包含了原始时间序列的所有季节性及周期性变动,可接受所估计的模型。反之,则
16、需重新对模型进行识别和估计3。3 应用举例从第三军医大学第二附属医院病案室收集了1995 年 1 月 2001 年 11 月该院每月门诊人次,以此数据建立模型,对该院的门诊接诊人次进行预测。表1第二附属医院1995年1月 2001年11月门诊量(人次)年份1月2月3月4月5月6月7月8月9月10月11月12月199516 18318 16929 31032 66526 64521 80023 32120 62119 25520 21917 98515 567199614 86713 55518 16119 77617 56316 08018 84414 97315 72817 87819 70
17、119 263199719 19813 65021 03121 14820 10820 07521 82417 90818 47318 59717 59518 071199812 54217 10923 00321 31518 04420 96921 40020 26619 79619 79820 81620 078199917 19615 49922 10620 47419 81119 17320 46419 39719 12217 93120 41717 438200015 88914 48222 05320 32422 43123 51022 51423 03920 35422 8672
18、2 39819 734200116 92121 72724 37123 82427 75927 57828 49728 30427 45628 09627 818绘序列图(如图 3),发现序列有趋势性及周期性变动,逐年的门诊量呈现波动的趋势,且年内也呈现波动,每年 1 月或 2 月门诊量最低,4 月达到高峰。以 1995 年 1 月 2001 年 6 月的数据建立模型,剩余 5 个数据作为预测区间。回归预测模型用 Statistics regression 命令建立回归模型。其中,在回归方程都有显著性的条件下,对数模型的R2=0.905 为最大,其形式为y=5 463167lnx。指数平滑模型
19、用 Statistics Time Series Exponential Smoothing 命令建模。由于序列图呈现趋势性和周期性,故应选择Winters 模型。由“gridsearch”选项确定模型的常规参数=0.50,趋势参数 =0.00,周 期 参 数 =0.00,这 时SSE=316 909 977.32,为最小。图3门诊人次序列图?331?中国医院统计 2002年9月第9卷第3期?1995-2006 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 4
20、页 -ARIMA模型 用GraphsTime SeriesAuto2correlations 命令得到序列的ACF和PACF图,以文献1的方法首先识别季节性ARIM A模型为(0,1,1)12,用 Statistics Time SeriesARIMA命令估计其参 数,得 到 残 差 序 列;用 再 从 残 差 的A CF和PACF图中识别其非季节成分为(0,1,1),再运行ARIMA命令,最终得到ARIMA乘积模型(0,1,1)(0,1,1)12。其 参 数 为 1=0.361 6,1=0.506 3,且都具有显著水平。再检查新的残差序列的A CF和PACF图,发现 Box2Ljung 统计
21、量都无显著性,因此可确定模型形式为12xt=(1-01361 6B)(1-0.506 3B12)et用这 3 个模型对预测区间进行预测,结果如表2 所示,其中相对误差e=|xt-xt|xt。表2乘积ARIMA(0,1,1)(0,1,1)12模型与指数平滑模型预测结果比较月份(2001年)门诊量实际值门诊量预测值相对误差对数模型指数平滑ARIMA对数模型指数平滑ARIMA728 49723 87427 71327 5030.162 30.027 50.034 9828 30423 94225 24826 8820.154 10.108 00.050 2927 45624 01024 44425
22、4580.125 50.109 70.072 81028 09624 07725 36426 5120.143 10.097 20.056 41127 81824 14426 02726 9790.132 10.064 40.030 2平均预测相对误差0.143 40.081 40.048 9可见,ARIMA乘积模型的平均预测相对误差最小,预测效果最好。4 讨论411 在选用回归模型时,应以自变量和因变量存在理论上或经验上的相关关系为前提,根据变量间的依存变化规律选择相应的模型。应注意的是,在超出原始序列值的范围以外估计回归关系时应十分慎重,因为所建立的模型也许并不适于外推。一般说来,回归预测
23、只适于作短期预测。指数平滑和ARIMA模型分析的数据要求是等时间间隔采集的时间序列数据,尤其是ARIMA模型,要求至少有50 个时间点的数据或7 8 个周期的数据1,2。我们一般认为对未来要发生的事情而言,近期的观察将较早期的观察具有更大的权重,指数平滑能较好地满足这一要求。并且,SPSS能给出SSE最小的指数平滑模型,达到较高的拟合度。ARIMA模型克服了一般时间序列需对时间序列的发展规模作先验假设的局限,它先根据序列识别一个试用模型,再加以诊断,作出必要调整,反复进行识别、估计、诊断的过程,直到适合的模型。因此它适用于各种类型的时间序列,是迄今最通用的时间序列预测法 2。ARIMA可通过差
24、分的方法将非平稳序列转变为零均值的平稳随机序列,以满足预测的前提。ARIMA使残差进入模型,更提高了模型的精度。但是 ARIMA建模法假定时间序列为未来的发展模式与其过去的模式是一致的,因此它也往往只适于作短期的预测。412 在模型的选择上,如果只是对现有的时间序列作静态分析,则宜选择拟合度较高的模型。若还关心序列未来的走势,即进行外推分析,就应综合多方面的因素,比如作试预测,把预测值与实际值进行比较。上例中,由 SPSS运行结果,可直接得到或计算出对数模型的误差均方为39 342 505.3,指数平滑模型的误差均方为4 875 538.1,ARIMA乘积模型的误差均方为6 348 815.4
25、。可见,指数平滑模型的拟合度是最好的,但其预测效果却不太令人满意,可用它来做静态分析或短期预测。虽然对数模型有统计学意义,且Rsq也较大,但其误差均方过大,用在此例中是不太合适的。在实际工作中,针对具体的待预测资料,除了从数据自身特征寻找预测模型外,还应结合具体的外部信息,对因突发事件引起的序列值波动应进行识别,以便于对预测结果进行解释。总之,应考察多个模型,综合比较,选择最优模型。参考文献1Geoge E.P.Box,Gwilym M.Jenkins,Gregory C.Reinsel.著,顾岚译.时间序列分析预测与控制 M.北京:中国统计出版社,1997.23,211236,3774032徐国祥.统计预测和决策 M.上海:上海财经大学出版社,1998.1741763陈平雁,黄浙明.SPSS8.0统计软件应用教程 M.北京:人民军医出版社,2000.1624章扬熙.医学统计预测 M.北京:中国科学技术出版社,1995.6489(收稿日期:2002202218)?431?中国医院统计 2002年9月第9卷第3期?1995-2006 Tsinghua Tongfang Optical Disc Co.,Ltd.All rights reserved.名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 4 页 -