《基于美国交通部数据的航空运输延误分析预测模型dkiv.docx》由会员分享,可在线阅读,更多相关《基于美国交通部数据的航空运输延误分析预测模型dkiv.docx(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、基于美国国交通部部数据的的航空运运输延误误分析预预测模型型关菁菁 尚蕊 蒋安华华(中国人人民大学学统计学学院 11008872)摘要:本本文基于于美国交交通部的的公开数数据建立立了航空空运输延延误分析析预测的的时间序序列模型型。我们们针对飞飞行延误误情况进进行研究究。在建建模之前前给出了了所有要要用到的的定义概概念,为为建模提提供了测测度基础础。随后后,本文文利用所所得数据据充分描描述了航航空运输输业的概概况,包包括航线线分布、航航程分布布、延误误时长、系系统预定定飞行设设定等。在对数数据集充充分了解解的情况况下,我我们针对对月飞行行延误率率建立了了时间序序列模型型,通过过对这个个时间序序列模
2、型型的检验验与评价价,我们们确信模模型取得得很好的的效果。在在文章的的最后,我我们就本本次建模模进行了了总结,并并基于模模型的分分析预测测情况阐阐述了对对于航空空运输延延误问题题的一些些启示。一、背景景(一)研研究背景景空中交交通管理理影响到到飞行的的安全和和效率,已已经成为为当代一一个重要要问题。航航空活动动在二十十世纪330年代代之前,由由于飞机机只能在在白天天天气允许许的情况况下飞行行最多几几千米,当当时只需需由管制制员用红红旗和绿绿旗来控控制飞机机起降,人人们关心心飞行的的安全多多于飞机机是否按按时到达达。19934至至19445年间间,机身身和机场场都装备备了无线线电通信信和导航航设
3、备。二二次世界界大战给给航空技技术带来来了飞跃跃性进步步,雷达达的应用用和仪表表着陆系系统(IILS)。二二十世纪纪80年年代后,计计算机、空空管地面面设施和和卫星系系统被广广泛应用用到空中中交通管管理。这这些都为为空中及及地上飞飞行资源源的优化化配置提提供了便便捷,也也正是由由于航空空技术的的迅速发发展,航航空运输输量日益益增大,除除了航空空运输安安全问题题外,航航空运输输延误也也成为了了今日的的重要课课题。我们研究究的航班班延误问问题实际际上是空空中交通通管理成成效的一一个反映映。乘客客希望得得到最便便捷和最最安全的的航程。航航空公司司希望每每一飞行行架次都都可以安安全、高高效和成成本最优
4、优。在空空中交通通管理中中,地面面等待策策略也被被广泛采采用。因因为从成成本和飞飞行安全全等方面面来考虑虑,地面面等待总总比空中中等待更更安全、经经济一些些,所以以地面等等待策略略实质上上是将昂昂贵的空空中等待待转化为为地面等等待,以以达缩减减费用的的目的。但但是,这这并不意意味着起起飞前的的延误比比降落的的延误好好。事实实上,我我们总是是希望每每一飞行行架次均均可按时时完成飞飞行任务务,所有有的资源源都得到到优化配配置。因因此,为为了了解解目前民民用航空空的延误误情况,我我们将基基于得到到的数据据建立一一个关于于航班延延误时间间序列模模型。众众所周知知,统计计其实是是随机性性和规律律性的统统
5、一。我我们希望望可以在在这些飞飞行数据据中找到到一些规规律,并并将之用用于预测测。由于于统计具具有随机机性,所所以我们们得到的的预测并并不总是是准确的的。但一一般说来来,大量量的随机机事件则则会呈现现一定的的统计规规律性。(二)数数据来源源本文使用用的数据据来源于于美国交交通运输输部研究究与技术术创新管管理部门门(Reeseaarchh annd IInnoovattivee Teechnnoloogy Admminiistrratiion (RIITA) U.SS. DDepaartmmentt off Trranssporrtattionn (UUS DDOT), 12200 Neww J
6、eerseey AAvennue, SEE Wasshinngtoon, DC 205590 8800-8533-13351)。美美国交通通运输统统计局的的宗旨是是发布完完善且高高质量的的交通运运输信息息,提高高公共和和私人决决策的效效率,其其利用网网站发布布了很多多交通运运输信息息和相关关分析,对对我们有有很大的的启发和和借鉴意意义。我我们选择择了20003年年06月月至20009年年07月月美国所所有飞行行架次的的飞行情情况作为为数据集集。这个个数据集集聚焦于于每架次次是否按按时飞行行。二、问题题定义我们关注注的经济济事件是是一架次次飞机的的飞行情情况。此此经济事事件实际际包含三三个阶段段
7、:起飞飞,在空空和降落落。实现现一个完完整经济济事件的的飞行称称为一个个飞行架架次。因因在这三三个阶段段都可能能出现延延误,故故我们把把飞行架架次延误误时长定定义为在在起飞、在在空和降降落三个个阶段的的总延误误时长。因因一次实实现的飞飞行架次次延误时时长可正正可负,正正值代表表该架次次延误,负负值则代代表按时时到达。根根据上述述定义和和既得数数据,我我们可以以计算出出所有架架次的延延误时长长以及判判断其是是否被延延误。一一般说来来,只要要在起飞飞、在空空和降落落任一阶阶段发生生延误,该该飞行架架次都会会被延误误。飞行行延误率率被定义义为一段段时间内内,飞行行架次延延误时长长为正值值的飞行行架次
8、数数所占当当期所有有飞行架架次总数数的比例例。三、数据据描述(一)变变量概览览该数据集集所含主主要指标标分为以以下大类类,共计计55个个变量:时间;所属航航线、出出发及到到达地点点;起降降表现;是否取取消或绕绕道飞行行;航班班概况;延误原原因。根根据我们们的研究究目的,初初步筛选选之后留留下了118个变变量,如如下表所所示:变量名变量含义义Yearr年Montth月DayoofMoonthh日DayOOfWeeek星期几UniqqueCCarrrierr所属航空空公司Origgin始发地Destt目的地CRSDDepTTimee系统预定定起飞时时刻DepDDelaay实际起飞飞时刻与与系统预预
9、定起飞飞时刻差差值CRSAArrTTimee系统着陆陆时刻ArrDDelaay实际着陆陆时刻与与系统预预定着陆陆时刻差差值Canccellled该架次被被取消与与否(11=取消消)CanccelllatiionCCodee取消原因因Diveerteed该架次是是否改道道(1=改道)CRSEElappseddTimme系统预定定飞行时时长(以以分钟计计)ActuualEElappseddTimme实际飞行行时长(以以分钟计计)AirTTimee飞机在空空时长(以以分钟计计)Disttancce始末机场场距离(表一)变变量名称称及意义义说明(二)主主要变量量及其关关系分析析在数据集集中,每每个月起
10、起降的飞飞行架次次最高可可达6338,8833架次,最最少月份份也有4481,5066架次。鉴鉴于每个个月的起起降情况况类似,我我们选取取离目前前最近的的20009年007月的的数据来来进行主主要变量量关系分分析。由图一得得,Attlannta,亚亚特兰大大机场是是全美起起飞航班班最多的的机场,其其起飞架架次占全全美起飞飞架次总总量的66.600%,计计37,7055架次。芝加哥奥黑尔机场起飞的航班数量位居第二,占全美起飞架次总量的4.75%,累计27,161架次。图二为按照频率排序的始发地与目的地的往来对照图,相关地点往来航运量(按架次计)可以从该图查得。(图一)各各始发地地起飞架架次占总总
11、起飞架架次比例例图截选选(图二)起起始地点点往来飞飞行架次次图截选选(图三)始始末机场场距离分分布表如图三所所示,始始末机场场距离分分布其实实是一个个右偏分分布。有有1366,1558个飞飞行架次次的始末末机场距距离都在在3000千米附附近,1105,7255个飞行行架次的的始末机机场距离离在5000千米米附近。介介于5000千米米和2,5500千千米的飞飞行架次次也占有有相当大大的比例例。可见见,飞行行距离较较短的飞飞行架次次占了很很重的比比例。(图四)系系统预定定飞行耗耗时与实实际飞行行耗时对对比由图四看看出,系系统预定定飞行耗耗时与实实际飞行行耗时各各个统计计量都比比较接近近。只是是系统
12、预预定飞行行时长的的众数为为70分分钟,而而实际飞飞行时长长的众数数为800分钟,相相对较长长。图上上红色的的点以实实际飞行行时长为为横坐标标,系统统预定飞飞行时长长为纵坐坐标,黑黑色的线线为过原原点,斜斜率为11的射线线,可以以看到该该射线的的右下方方的点居居多,说说明对于于同一飞飞行架次次来说,实实际飞行行时长一一般会比比系统预预定飞行行时长更更长。(图五)起起飞延误误与降落落延误基基本统计计量图如图五所所示,起起飞延误误时长与与降落延延误时长长的均值值分别为为9.999和77.355分钟,标标准差分分别为334.667和337.443,极极差分别别是2,4977和2,5244分钟,可可见
13、起飞飞延误时时长相较较于降落落延误时时长波动动小,但但是其均均值比降降落延误误时长大大。初步步判断图图上绿色色的点有有较严重重的堆积积情况,我我们做一一条起飞飞延误时时长关于于降落延延误时长长的回归归线如图图中颜色色较淡的的、斜率率较大的的细线所所示,堆堆积情况况十分严严重。如如果利用用这两个个变量做做回归的的话,偏偏差一定定十分严严重。将将始末机机场距离离加入考考虑,得得到图六六。我们们可以看看到大部部分起飞飞延误的的架次一一般降落落也会延延误,大大部分起起降延误误集中在在始末机机场距离离介于00至3,0000千米的的架次。(图六)起起飞延误误、降落落延误与与飞行距距离关系系图如图七七所示,
14、2294,9944个飞行行架次按按时起飞飞。2660,7760架架次的起起飞延误误时间介介于500至1000分钟钟之间。起起飞延误误时长介介于1000至1150分分钟之间间的飞行行架次为为12,8311,起飞飞延误时时长超过过1000分钟的的飞行架架次为33,0446。因因此,起起飞延误误飞行架架次与按按时起飞飞飞行架架次比例例相当。(图七)起起飞延误误时长分分布图(图八)降降落延误误时长分分布图由图八八得,按按时着陆陆的飞行行架次为为3155,2556,降降落延误误时长介介于500至1000分钟钟的飞行行架次为为2399,2556,降降落延误误时长介介于1000至1150分分钟的飞飞行架次次
15、为133,8998,降降落延误误时长大大于1550分钟钟飞行架架次为33,2223。(图九)起起飞延误误、飞行行延误及及降落延延误关系系图不难从图图九看出出,在三三个坐标标轴取值值较小的的部分形形成了一一个三角角区域,这这说明一一般飞行行架次在在起飞、在在空及降降落三个个阶段的的延误一一般耗时时都不会会太长,但但是有很很多发生生这种飞飞行延误误的架次次。将那那些红色色的点投投影到起起飞与降降落延误误的平面面上,我我们可以以看到有有部分起起飞、降降落延误误时长相相对较长长的航班班。四、模型型建立为了对航航空运输输延误情情况进行行最有效效的刻画画和预测测,我们们把飞行行延误率率作为研研究的主主要对
16、象象。经过过多次试试验,我我们认为为使用月月度为最最小的时时间单位位来进行行研究会会比较合合适。因因此,我我们按月月建立关关于延误误率的时时间序列列模型。用用原始数数据经过过汇总后后,得到到20003年006月至至20009年007月每每月延误误飞行架架次占该该月总飞飞行架次次的比例例数据,即即月飞行行延误率率(以下下用deelayyratte命名名)。由由图十得得,飞行行延误率率有一定定的季节节性波动动,但趋趋势并不不明显。(图十)220033年066月至220099年077月飞行行延误率率时间序序列图(一)初初步建立立时间序序列模型型(图十一一)20003年年06月月至20009年年07月
17、月飞行延延误率自自相关分分析图图十一为为对飞行行延误序序列做自自相关分分析的结结果,从从图十一一中可以以看出,样样本自相相关系数数(Auutoccorrrelaatioon)不不呈现衰衰减趋势势,而呈呈现出一一定的周周期起伏伏趋势。结结合所研研究数据据的特性性,我们们认为飞飞行延误误率序列列应为季季节序列列。对飞飞行延误误率序列列进行周周期为112的季季节差分分后得到到新的序序列,即即除季节节序列(命命名为ssdellayrratee)。(图十二二)除季季节序列列的自相相关分析析图十二为为对除季季节序列列的自相相关分析析。从图图十二中中可以看看出,样样本自相相关系数数有衰减减趋势,且且随时间间
18、增大,表表现为拖拖尾。除除了K=122时偏相相关系数数(Paartiial Corrrellatiion)数数值较大大之外,在在K4之之后偏相相关系数数都落入入置信区区间内。考考虑到二二阶季节节差分会会损失大大量样本本数据,且且效果不不明显,不不再差分分。同时时,鉴于于偏相关关系数在在K4之之后都落落入置信信区间内内,而自自相关系系数具有有拖尾的的特性,最最终采用用AR(44)模型型,即44阶自回回归模型型。因此此,我们们认为对对于20003年年06月月至20009年年07月月美国航航空运输输飞行延延误率经经过除季季节差分分后的时时间序列列用4阶阶自回归归模型拟拟合较好好。经过计算算,sdde
19、laayraate均均值为-0.0003114,均均值标准准误为00.0228944,因此此可认为为均值近近似为00而不进进行中心心化直接接计算。另另外,考考虑到ssdellayrratee滞后期期为122时的样样本偏相相关系数数较大,为为消除这这个影响响,我们们将SAAR(112)加加入模型型中,所所以,用用于刻画画20003年006月至至20009年007月美美国航空空运输飞飞行延误误率时间间序列的的最终模模型为。将将此模型型用于拟拟合,得得到结果果如表二二所示。各滞后多项式的倒数根在单位圆内,过程平稳。模型的展展开形式式为:CoeffficcienntStd. Errrorrt-Stta
20、tiistiicProbb. AR(11)0.577772270.155103393.822501180.00004AR(22)-0.110633190.17778777-0.559777110.55533AR(33)0.055775580.177920.322231110.74489AR(44)0.300841140.155123322.033934460.04479SAR(12)-0.339322190.15545111-2.55449920.01148R-sqquarred0.50066995Meann deepenndennt vvar-0.00119929Adjuusteed RR-
21、sqquarred0.45585668S.D. deepenndennt vvar0.05559551S.E. off reegreessiion0.0441177Akaiike inffo ccritteriion-3.44398886Sum squuareed rresiid0.06694994Schwwarzz crriteerioon-3.22411121Log likkeliihoood84.1117338Hannnan-Quiinn criiterr.-3.33654427Durbbin-Wattsonn sttat1.99903116Inveerteed AAR RRootts
22、.92 .889-.24ii .89+.244i .655+.665i .655-.665i .224+.89ii .24-.899i .122-.774i .122+.774i -.224-.89ii -.24+.899i -.59-.655+.665i -.665+.65ii -.89+.244i-.899-.224i(表二)(二)模模型检验验与评价价对于模型型的检验验,首先先要检验验其基本本假定是是否满足足,这一一般通过过检验残残差来进进行。当当K取6时时,从图图十三看看出,检检验P值为00.3444,不不能拒绝绝残差序序列相互互独立的的原假设设。因此此,所建建模型满满足基本本假定。(图
23、十三三)对于模型型的评价价,我们们选择从从预测的的角度着着手。不不能预测测的模型型,一般般说来对对我们并并无大助助益。我我们利用用动态法法,将20003年年06月至至20008年112月的的飞行延延误率(以以下命名名为tddelaay)用用于建立立模型,并并利用这这个模型型预测220099年的飞行行延误率率。未进行行几阶差差分前,tdelay的自相关系数同样无衰减趋势,并展现出一定的季节波动性。如图十四所示:(图十四四)20003年年06月月至20008年年12月月飞行延延误率自自相关分分析图对tdeelayy进行周周期为112的季季节差分分后得到到新的除除季节飞飞行延误误率时间间序列(命命名
24、为sstdeelayy)。其其样本自自相关系系数有衰衰减趋势势。自相相关系数数在K1之后后都在置置信区间间内,偏偏相关系系数除了了K=122时数值值较大之之外,在在K1之后后都落入入置信区区间内,如如图十五所所示。(图十五五)20003年006月至至20008年112月除除季节飞飞行延误误率自相相关分析析图这时,我我们可考考虑和这两个个模型。CoeffficcienntStd. Errrorrt-SttatiistiicProbb.AR(11)0.655431180.200152273.244679960.00024SAR(12)-0.446855260.14429888-3.22766674
25、0.00022MA(11)-0.005555870.27753331-0.220188900.84411R-sqquarred0.40009660Meaan ddepeendeent varr0.00011778Adjuusteed RR-sqquarred0.37702440S.DD. ddepeendeent varr0.04497111S.E. off reegreessiion0.03394449Akaaikee innfo criiterrionn-3.55588864Sum squuareed rresiid0.06606993Schhwarrz ccritteriion-3.44
26、347744Log likkeliihoood77.7736114Hannnann-Quuinnn crriteer.-3.55133369Durbbin-Wattsonn sttat1.90039553Inveerteed AAR RRootts.911-.224i.991+.24ii.66+.666i.666-.666i.65.224-.91ii.24+.911i-.244-.991i-.244+.991i-.666-.66ii-.66-.666i-.911+.224i-.911-.224iInveerteed MMA RRootts.06(表三)结果CoeffficcienntStd.
27、Errrorrt-SttatiistiicProbb.AR(11)0.622105560.122452284.988729990.00000SAR(12)-0.446655410.14409445-3.331000920.00020R-sqquarred0.40004555Meaan ddepeendeent varr0.00011778Adjuusteed RR-sqquarred0.38854666S.DD. ddepeendeent varr0.04497111S.E. off reegreessiion0.03389669Akaaikee innfo criiterrionn-3.66
28、056639Sum squuareed rresiid0.06607444Schhwarrz ccritteriion-3.55228893Log likkeliihoood77.7718442Hannnann-Quuinnn crriteer.-3.55753309Durbbin-Wattsonn sttat1.94490116Inveerteed AAR RRootts.911+.224i.991-.24ii.66-.666i.666+.666i.62.224+.91ii.24-.911i-.244+.991i-.244-.991i-.666-.66ii-.66-.666i-.911-.2
29、24i-.911+.224i(表四)结果由于maa(1)系数不不显著,且且的AICC和SC值较较小,所所以最终终模型确定定为。模型展开开式:再次对模模型进行行检验,残差检验结果如下图所示。考虑到观测值数目为42,K取4,检验P值为0.657,不能拒绝残差序列相互独立的原假设。(图十六六)将这个模模型用于于20009年度度预测序序列的预预测,图图十六预预测值和和实际观观测值的的对比图图,表五五则为数数值列示示。可见见,预测测的效果果还是相相当好的的。(图十七七)预测测值和实实际观测测值的对对比图20099-01120099-02220099-03320099-04420099-05520099-
30、06620099-077实际值0.400529930.344657750.388982230.399190060.388556680.433319920.42217008预测值0.477813350.522008890.488425580.444518800.433329960.511513320.47702996(表五)预预测值和和实际观观测值对对比表五、总结结与启示示本文着重重于对航航空运输输延误问问题进行行建立模模型。从从相关背背景研究究、数据据收集、确定问题,我们初步确定了相关重要概念,如飞行架次、飞行延误时长、飞行延误率。这些概念的明确提出与定义给统计建模提供了测度。问题确立和概念定
31、义是建模的基础。随后,我我们开始始对所得得数据进进行初步步分析。这这些分析析基于SSAS、R等正版版软件平平台,由由各个统统计量以以及统计计图表,我我们对数数据集及及其中一一些重要要变量有有了全局局的了解解。这些些描述性性的统计计分析为为我们选选择建模模方法提提供最初初的灵感感。基于对数数据的充充分认识识,我们们决定以以飞行延延误率作作为对象象建立时时间序列列分析预预测模型型。具体体的分析析过程如如上所述述,这里里不再一一一赘述述。我们们对20003年年06年年至20009年年07月月的所有有月延误误率建立立了一个个时间序序列分析析模型,同同时也用用20003年006月至至20008年112月
32、的的数据建建立了一一个时间间序列分分析预测测模型,区区别在于于我们利利用了后后一个模模型对220099年的数数据进行行了预测测,并和和真值进进行了对对比,所所得效果果很好。这里给我我们最大大的启示示是,尽尽管我们们预测得得很准确确,但是是我们都都不希望望飞行延延误率有有0.440至00.600这么高高。这意意味着,在在美国,如如果有足足够多的的飞行架架次起降降的话,每每10架架次飞行行就会有有4到66架次的的延误,这这给经济济以及其其它方面面带来的的损失不不可估量量。我们们也期望望,可以以对中国国航空运运输业的的延误问问题进行行分析,这这样可以以为航空空业使用用者、营营运商及及监管者者提供更更多有利利于决策策的信息息。参考文献献1易易丹辉,数数据分析析与EVViewws应用用,中中国人民民大学出出版社,2200882董董大钧,SSAS统统计分析析应用,电电子工业业出版社社,200083张张军,现现代空中中交通管管理,北北京航空空航天大大学出版版社,2200554施施和平,空空中交通通管理新新论,厦厦门大学学出版社社,200015安安鸿志,时时间序列列分析,华华东师范范大学出出版社,119922