《数学建模大赛一等奖作品.pdf》由会员分享,可在线阅读,更多相关《数学建模大赛一等奖作品.pdf(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数学建模论文队伍名称队伍成员三人行院、系、专业交通与物流工程交通与物流工程交通与物流工程联系方式高速公路道路交通事故分析预测高速公路道路交通事故分析预测摘 要我国目前的道路交通安全状况相对于世界水平要差得多, 高速公路道路交通事故所造成的损失非常高。因此,改善交通安全状况、预防和减少高速公路交通事故具有重大的现实意义。针对这样的现状,我们必须进行高速公路交通事故的预测,从而及早采取措施进行预防工作,从而减少事故发生次数及损失程度。针对此次建模的要求,在对此问题的深入研究下,我们提出了合理的假设,将本问题归结为一个预测分析的问题,其基本思想是通过聚类分析、 SPSS 软件求解、GM(1,1)灰色
2、预测模型、多元线性回归分析,组合模型等方法的运用得到最优的预测结果。针对问题一, 我们首先运用了聚类分析的思想,建立了基于聚类分析的模型,通过聚类分析方法对给定的信息的筛选、加工、延伸和扩展,从而将评价对象确定在某一围,通过了该方法,最终得到了各类评价等级方法,为科学预测交通事故提供了依据。针对问题二, 本文选取受伤人数这一单项指标作为预测的对象,首先运用了GM(1,1)灰色预测模型,建立模型,通过对给定的事故原始数据,通过 MATLAB软件预测了五年的交通事故受伤人数;运用多元线性回归方法建立模型,在模型和模型的基础之上,通过基于组合模型思想的模型,求解得出了交通事故受伤人数在五年的预测。关
3、键词:SPSS 聚类分析GM(1,1)灰色预测模型组合预测模型MATLAB目录目录一问题重述.4二问题的分析.5三模型假设与符号系统.63.1 模型假设.63.2 符号系统.6四模型的建立及求解.74.1 问题一 .74.1.1 建立模型 .74.1.2 模型的求解及结果 .84.1.3 实验结果的分析说明 .94.2 问题二 .114.2.1 建立 GM(1,1)模型.114.2.2 用 MATLAB 求解模型.164.2.3 建立模型.194.2.4 建立优化模型.194.2.5 最优组合模型的求解 .20五模型的评价.21参考文献.22附录.23一问题重述一问题重述随着道路交通事业的发展
4、,高速公路交通事故也在不断增加,对人类的生命和财产安全构成了极大的威胁。 我国目前的道路交通安全状况相对于世界水平要差得多,高速公路道路交通事故所造成的损失非常高。因此,改善交通安全状况、预防和减少高速公路交通事故具有重大的现实意义。高速公路交通事故往往造成人员伤亡,车辆损毁、道路堵塞等严重后果,为探索高速公路道路交通事故发生的规律, 分析现有道路交通条件下未来高速公路交通事故的发展趋势,以便及早采取措施进行预防,减少事故发生次数及损失程度,必须进行高速公路交通事故预测。另外,高速公路道路交通事故分析预测是道路交通安全规划,决策及高速公路交通工程项目效益评价中的一个关键性问题, 分析预测正确与
5、否直接关系到高速公路交通设施的建设,高速公路交通管理政策的制定和高速公路交通建设资金的投资分配,具有重要的现实意义。为了解决此问题, 现利用已收集到的 A 省高速公路交通事故数据 (见附件) 、建立针对该省具体情况的数学模型,预测该省未来的交通事故情况,解决下面几个问题:1、目前国外用于统计道路交通事故状况的四项绝对指标为交通事故次数、死亡人数、 受伤人数以及直接经济损失,这四项统计指标既是认识交通事故的起点, 又是构造其它交通事故统计指标的基础,基本涵盖了道路交通事故所造成各种损害的主要方面,因此选用这四项指标, 试探讨以聚类分析作为理论基础的高速公路公路交通事故统计分析方法, 然后从附件中
6、所给 A 省高速公路交通事故四项指标的历史统计数据出发,对该省公路交通事故进行聚类分析研究,以期该省获得该省高速公路交通事故基于四项指标的时间、空间分布规律。 2、高速公路交通事故预测是高速公路安全评价、规划及决策的基础,国外关于道路交通事故的预测有多种方法,鉴于高速公路交通事故具有复杂性、随机性和灰色性的基本特征,对高速公路公路交通事故预测时选用时间序列分析,灰色分析、神经网络等分析方法。根据高速公路交通事故的分布规律,构建高速公路交通事故发生次数、死亡人数、受伤人数、直接经济损失的预测模型。以A 省公路交通事故的历史统计数据为基础, 就模型精度等级的划分和预测的准确性作进一步的分析,探讨建
7、立组合模型或提高预测准确性的其它解决方案,最后对A省公路交通事故未来五年的发展趋势做出科学预测, 为高速公路交通安全管理部门提前预防和控制交通事故提供决策依据。二问题的分析二问题的分析2.12.1(问题一)(问题一)本小问主要解决对该省公路交通事故四项指标进行的聚类分析。 此小问属于统计问题,因此由附件的相关数据信息,我们首先将附件中高速公路事故 24 时分布、月统计、辖区统计进行整理,得出四项指标在六年中小时段、月份、辖区分布总量。本问题主要解决该省高速公路交通事故基于四项指标的时间、空间分布规律。 本问题为聚类分析的思想,由题目可以知道对于 A 省高速公路交通事故分布规律需要分别对四项指标
8、进行聚类分析,找出各个指标的能够度量不同小时段、不同月份、不同辖区之间的相似度的统计量。并将其聚合到不同类中。因此, 用 SPSS 的 K-means Cluster 过程即逐步聚类法, 按照预定的分类数量,按照既定的原则选择凝聚点,得到一个初始分类方案,并计算出各个初始分类的中心位置(均值) ;最后,使用计算出的中心位置重新进行聚类,因此在该方法中, 各指标的分类情况会在运算中不断改变,分类完毕后再次计算各类的中心位置。如此反复循环,直到凝聚点位置改变很小为止。2.22.2 (问题二)(问题二)由对题目的第二问分析,可知第二问分为两小问。第一小问: 选用灰色分析、 多元线性回归分析等分析方法
9、构建高速公路交通事故受伤人数预测模型。交通事故作为一个随机事件,其本身具有相当大的偶然性和模糊性 ;具有明显的不确定性特征。因此可以认为一个地区的道路交通安全系统是一个灰色系统,可以应用灰色系统的理论进行研究。用 G(1,1)灰色建立受伤人数指标的预测模型,在 GM(1,1)模型及相关模型灰色预测过程中要大量进行数列和矩阵运算将 MATLAB 软件和 GM(1,1)结合,实现灰色预测算法;建立多元线性回归模型。第二小问:本小问为优化问题,就模型精度等级的划分和预测的准确性作进一步的分析,探讨建立组合模型或提高预测准确性的其它解决方案,最后对A省公路交通事故未来五年的发展趋势做出科学预测。对四项
10、指标分别用灰色分析和多元线性回归模型结果进行精确度比较, 并且构建最优组合预测模型。 利用以上两种不同的单项预测法对受伤人数指标进行预测, 然后对各个单独的预测结果做适当的加权平均,最后取其加权平均值作为最终的预测结果。本文采用简单实用的求方差极小值法,获得组合预测模型。三模型假设与符号系统三模型假设与符号系统3.13.1 模型假设模型假设(1)假设在受伤人数统计时,以伤残等级三级以上归为受伤。(2)假设在财产损失统计时,所损失的物资、费用等均按现社会流通价值或社会人力服务成本的平均值进行统计。(3)根据其同一指标中的个体有较大的相似性,不同类中的个体差异较大,用聚类方法聚合时,将其聚合在 3
11、 类中。(4)假设高速路上行驶的车辆状况、驾驶员心理状态良好。3.23.2 符号系统符号系统Xij表示第 i 个指标在第 j 年的给定值;x(0)(k)实际给定的第 k 年的死亡人数:其中 k=1,2,6;X(1)的一次累加生成序列;为X(1)的紧邻均值生成序列待定参数列;z(1)B 为数据矩阵,为待估参数;Y 为数据向量;a为待定参数列;qk为生成残差;q为残值均值;s12为原始数据的方差;2s2为残值的方差;C为后验差比值;P为小误差概率;f3为组合模型使用;f2为多元线性回归预测值;f1为灰色理论预测值;2为多元线性回归预测的预测误差;1为灰色理论预测的预测误差;2多元线性回归的相应权系
12、数;1灰色理论模型的相应权系数;MSPE 为均方百分比误差;四模型的建立及求解四模型的建立及求解4.14.1 问题一问题一4.1.14.1.1 建立模型建立模型聚类分析法是根据实物本身的特性来定量研究分析问题的一种统计分析方法。其基本思想是同一类中的个体有较大的相似性,不同类中的个体差异较大,于是更具一批样品的多个观测指标,找出能够度量样品(或变量)之间相似度的统计量,并以此为依据,采用聚类发将所有的样品(或变量)分别聚合到不同的类中。将分析评价中的 n 个待评样本作为聚类对象(Xi)(i=1,2,n);m 个;评价指标作为聚类指标( Uj)(j=1,2,m),s 个评价标准作为评价等级(Zk
13、)(k=1,2,s).则根据第 i 个聚类独享对于第 j 个聚类指标的样本值 Xij,确定聚类样本矩阵为 X :X11X21X31X41X51X12X22X32X42X52X13X23X33X43X53X14X24X34X44X54X15X25X35X45X55以一年十二个月的数据分析为例: 在对给定的原始收据通过 Excel 整理的基础上我们建立了针对交通事故每月的聚类分析模型。将分析评价中的 12 个待评样本作为聚类对象 (Xi)(i=1,2,12);4 个;评价指标作为聚类指标(Uj)(j=1,2,3,4),我们设定为三类分类标准,则聚类样本矩阵为:4541404546495553514
14、136414.1.24.1.2 模型的求解及结果模型的求解及结果2641 1012394275111301262243752580 35501263204305797787432601086974365812571013761946124405510527582643900581 27367382043146767496在建立了聚类分析的模型的基础上,我们采用了 SPSS 软件来对模型进行求解,SPSS 的优点是计算量较小,从而可以有效的处理多变量、大样本数据而不会占用过多的存空间和计算时间; 同时在分析时用户可以人为地制定初始中心位置, 或者将曾做过的聚类分析结果作为初始位置引入分析。通过计
15、算得得出下面的实验数据结果:表 4.1 初始聚类中心聚类123次数45.0045.0036.00死亡人数26.0035.0027.00受伤人数41.0050.0036.00经济损失 1012394.00 1263204.00 738204.00表 4.2 最终聚类结果案例号1234567月份一月二月三月四月五月六月七月聚类距离12867.6001 114864.4293180.06823051.507137387.572171712.42923051.50789101112八月九月十月十一月十二月1113369137.57237496.430114680.57214556.00114736.0
16、01表 4.4 每个聚类中的案例数聚类17.00023有效缺失2.0003.00012.000.0004.1.34.1.3 实验结果的分析说明实验结果的分析说明(1)表 2.2 显示的是将样品分为三类的聚类结果,这三类分别是:一月、四月、十一月。(2)表 2.3 表示的是最终的聚类分析结果。(3)表 2.4 反映了聚类分析中的有效样品数为 12 个,没有样品数的缺失。综上得出聚类分析的结论(三月、十一月、十二月)为交通事故最轻的,(一月、二月、五月、八月、九月、十月)为交通事故一般的, (四月、七月)为交通事故最为严重的。同理我们得出了一天中二十四小时以及每个辖区的数据分析结果如下表所示:表
17、4.5 以辖区为单位的数据结果分析案例号 辖区123456789辖区辖区辖区辖区辖区辖区辖区辖区辖区聚类323333323距离128890.469344284.50596888.462214476.54039959.539201362.539234361.540150913.502258343.466101112131415161718辖区辖区辖区辖区辖区辖区辖区辖区辖区332333321233859.540112157.462100373.508149838.462286803.46266440.462175342.54092997.504.000表 4.6 最终聚类中心次数聚类1137.0
18、0248.2527.2546.50316.3111.6218.38死亡人数 110.00受伤人数 176.00得出分析结果:经济损失 4721128.00 1015373.50 238676.54(1)表 2.6 显示将分类对象区域分为三个等级。(2)表 2.5(一区、三区、四区、五区、六区、七区、九区、十区、十一区、十三区、十四区、十五区、十六区)为所辖区围交通事故最轻的、 (二区、八区、十二区、十七去)为辖区围交通事故一般的区域、 (十八区)是辖区围交通事故最为严重的。(3)表 2.5 显示有效数据位十八个,没有数据缺失。表 4.7 以小时为单位的最终聚类结果案例号小时聚类距离0-1 时1
19、141531.1251-2 时2152677.1262-3 时3155879.8763-4 时4181456.1254-5 时5247286.0005-6 时6247286.0006-7 时7162299.8757-8 时8157623.1258-9 时9374947.0721011121314151617181920212223249-10 时10-11 时11-12 时12-13 时13-14 时14-15 时15-16 时16-17 时17-18 时18-19 时19-20 时20-21 时21-22 时22-23 时23-24 时1102944.8763101939.073322358
20、.92934205.074389233.929312656.073398614.072325122.929371976.929377094.9293103017.929354255.9293114598.072336102.072112162.875表 4.8 以小时为聚类对象的最终聚类中心聚类123事 故 次26.5033.0018.93数死 亡 人20.6323.5011.29数受 伤 人28.5031.0022.14数经 济 损 661234.88 892427.00 343619.93失分析可得,在对以小时为聚类对象的分析中:表2.8 显示以小时为分类对象划分为三个等级。表2.7 显示
21、在(08:00-09:00、10:00-23:00、 )为交通事故发生最轻的小时段(04:00-06:00)为交通事故发生程度最为严重的小时段;(00:00-04:00、06:00-08:00、09:00-10:00、23:00-24:00)为交通事故发生程度一般的小时段。4.24.2 问题二问题二4.2.14.2.1 建立建立 GM(1,1)GM(1,1)模型模型交通事故作为一个随机事件, 其本身具有相当大的偶然性和模糊性;如果把某地区的道路交通作为一个系统来看,则此系统中存在着一些确定因素(灰色系统称为白色信息),如道路状况、信号标志等;同时也存在一些不确定因素(灰色系统称为灰色信息),如
22、车辆状况、气候因素、驾驶员心理状态等等,具有明显的不确定性特征。因此可以认为一个地区的道路交通安全系统是一个灰色系统,可以应用灰色系统的理论进行研究。高速公路交通事故灰色预测的特点分析高速公路交通事故灰色预测的原理、方法及所具有的特点表现在:(1)灰色预测方法认为,某一地区在某一时间区间的交通事故指标值,是在一定围变化的且与时间坐标有关的灰色量。 该方法将原始数据整理成较有规律的生成数列后再进行研究、处理,避免了概率统计方法的大样本、大工作量而其结果不理想的状况。(2)数学模型 GM(1,1)是一阶单变量微分方程;这与以往的概率统计方法利用高散数据所建立的按时间作逐段分析、递推、高散的模型有本
23、质的区别。(3)GM(1,1)灰色预测模型不是交通事故原始数学模型, 而是生成数据序列模型;通过对生成数列的处理,使杂乱无章的原始数据呈现出一定的规律性。 MATLAB 的基本数据单位是矩阵,其核心也是矩阵,它可直接进行矩阵的乘积、矩阵的乘方、矩阵的除法、稀疏矩阵等运掣” 。在MATLAB 语言系统中,几乎所有的操作都是以矩阵操作为基础, 用户可以用类似于数学公式的方法编写程序实现算法,大大降低了编程所需的难度并节省了时间。而在 GM(1,1)模型及相关模型的灰色预测过程中,要大量进行数列和矩阵运算嘲,这晗好使 MATLAB 派上了用场。将 MATLAB 和 GM(1,1)模型结合,实现灰色预
24、测算法,恰到好处。灰色预测模型 GM(1,1)的建立过程 GM(1,1) 的一般形式设有变量 X(0)X(0)(i),i=1,2,.,n(1)为某一预测对象的非负单调原始数据列,为建立灰色预测模型: 首先对X(0)进行一次累加 (1AGO, Acumulated Generating Operator) 生成一次累加序列: X(1)X(1)(k),k1,2,n(2)其中 X(k)X(0)(i) (k=1,2,3 n)(1)ki1%作1AGO生成序列x For i=1:n X1(i)=sum(x0(1:i); End对X(1)可建立下述白化形式的微分方程:dX(1)十aX(1)u ,式中a,u是
25、待定系数。(3)dt1灰微分方程动态模型为:111 k 1zk 0.5xk 0.5x01 k u(4)xk az式中z1k为x1k的紧邻均生成,即z1k 0.5x1k0.5x1k 1%紧邻均生成 For k=2:n %紧邻均生成zz(k)=0.5*x1(k)+0.5*x1(k-1);end(2)构造矩阵 B和数据向量Ynx10和x满足关系Yn Ba,其中:1(X(1)(1)B=2(1) X(2)11 Y(0)(2), X(0)(3), X2(X(1)(2) X(1)(3)1n(X.12(X(1 )(n -1) X(1)(n)1a (BTB)1BTY (,)T(3)计算系数a和ux02 z121
26、x03 z131aux0n z1n1Yn Ba可用(5)式表示,由此计算出系数a和u for i=1:n-1 b(i,1)=-z(i+1); y(i)=x0(i+1);(0)()T(5)end b(:,2)=1; y=y ; % 转置为列向量 au=by; % 作矩阵除法,计算 a u(4) 累加模型预测结果X(1)(k)(X(0)(1)uu)ea(k1)(6)aa%计算GM(1,1)模型X(1)(k)值 Yc1(1)=x0(1); For k=1:n C=x0(1)-au(2)/au(1); Yc1(k+1)=c*exp(-au(1)*k)+au(2)/au(1);End(5)还原后的预测结
27、果(作 IAGO) (7)xk 1 xk 1 xk%计算x0011k 1值,显示预测结果 Yc0(1)=x0(1); For k=1:n Yc0(k+1)=yc1(k+1)-yc1(k);End Disp(uint16(yc0(2:1:n+1);2、检验和判断GM(1,1)模型的精度为确保所建灰色模型有较高的精度能应用于预测实际,按灰色理论一般采用三种方法检验判断 GM(1,1) 模型的精度 ,它们是 ,残差大小检验 ;关联度检验和后验差检验。通常关联度要大于0.6,残差Pk、方差c越小,模型精度P越好。(1)残差检验0残差检验: e(k)=xk xk0ek0相对误差:xk(2)关联度检验因分
28、辨系数毛是在 (0,1)中取定的实数,一般取=0.5。关联度是各关联系数(k)累加后在 n维空间的平均值。当分辨系数 =0.5,认为关联度大于0.6时可以接受,即通过关联度检验,否则关联程度差些。计算关联度Max1=max(abs(e0);r=1;for k=2:nr=r+0.5*max1/(abs(e0(k)+0.5*max1);endr=r/n; % r 表示关联度(2)方差比和小误差概率检验方差和小误差概率检验属后验差检验,计算公式分别如下:1n预测误差均值e eini1x原始数据均值01n0 xini1原始数据标准差:S110 xi xni1n021nS e i e预测数据标准差2ni
29、12S2C 方差比:S1 P p e k e 0.6745S小误差概率:1表 4.9 P、C 预测精度表精度等级精度等级一一二二三三四四P0.950.80.70.7C0.350.450.95&c0.8&0.7&0.65 Disp( 预测勉强合格 ); else Disp( 预测不合格 ); End EndEnd4.2.24.2.2 用用 MATLABMATLAB 求解模型求解模型根据题目给定四项指标要求, 我们选择采用灰色预测模型来预测交通事故受伤人数,其通事故死亡人数在 2006 年到 2011 年的数据如下表 2 所示:4.10 为 2006 年到 2011 年交事故受伤人数年份20062
30、0072008200920102011死亡人数7386956605635044312006-2011 年的 A 省高速道路事故受伤人数的原始序列为:X0738695660563504431由此可得生成数列为:X173814332093265631603591其数据矩阵 B 为:在 MATLAB 中计算可得:1085.51763B 2374.529083375.5数据向量为:Y 69511111563504431660可得待定参数列为:a B B1BY ,u0.12,844.42TT则预测模型为:10.12kXk 1 7036.837774.83最后需要进行还原处理,作“生成数列”的逆运算,即进
31、行还原处理得到交通事故受伤人数的预测模型。因为X1kxm1k0 x0mx0k X1k1 X0k,k 1,2,nm1k1011 k 1,k 1,2,nXk Xk X所以利用 MATLAB 软件得出X1(k)和X0(k)的取值:年份年份k kX1k20062006738表 4.11 GM(1,1)预测模型计算一览表2007200720082008200920092010201011450.722083.832642.643145.82011201153589.6X0k即即712.12633.11562.4499.58443.78预测序列预测序列原始值原始值738预测值预测值年份年份k kX1kX0
32、k即即 预预 测测6952012201263983.8394.216602013201374334350.185632014201484625311.075042015201594921.4276.3243120162016105166.8245.46序列序列原始值原始值预测值预测值436.701387.319433.523304.675270.244MATLAB 软件的出预测分析图,如下表所示:图 4.1 MATLAB 预测分析图残差检验和后验差检验,其结果为:方差比 C=0.4350.95好上述结果说明建立的灰色预测模型通过检验,且模型的精度为 I 级,精度好。 (参照表 1)4.2.34
33、.2.3 建立模型建立模型多元线性回归模型可以用于预测对象Y受多个因素X1, X2,X3,XP影响的情况。P 元线性回归模型:yi01xi1pxip,i 1,2,n2i N0,且相互独立,用最小二乘估计法求未知参数0,1,p的最小二乘估计。记Q Q0,1,Pyi01xi1pxip2 Q 2yi01xi1pxip 00j 1,2,3, p令Q 2yi01xi1pxip 0,j整理的正规方程组(3) :n0 xi11xippyi2xi10 xi11xi1xippxi1yi22xip0 xipxippxipyi1(3), ,p, ,p其解记为01,即为01的最小二乘估计。从而 P元线性回归方程(4)
34、 :y 01x1pxp4.2.44.2.4 建立优化模型建立优化模型基于以上两种预测模型建立优化组合模型组合预测就是利用以上两种不同的单项预测法对同一预测对象进行预测, 然后对各个单独的预测结果做适当的加权平均, 最后取其加权平均值作为最终的预测结果。目前关于权系数的计算方法很多,主要分为主观赋值法、客观赋值法、试算比较法, 客观赋值法就是根据一定的理论或标准通过代数计算等确定权值,例如误差绝对值之加权和最小法、误差平方和最小法、方差极小值法等,本文采用求方差极小值法,该方法简单实用,掌握起来也不难。设f1是灰色 GM(1,1)的预测值,f2是多元回归预测值,f3是最优组合预测值,预测误差分别
35、为1,2,3,取1和2是相应权系数,且121,有f31f12f2则误差及方差 D 分别为312122D(3) 1D(1)22D(2) 212cov(1,2)关于1对D(3)求极小值,可得1D(2)cov(1,2)D(1) D(2)2cov(1,2)显然可取,cov(1,2) 0,记D(1) 1,D(2) 2,则组合模型的权系数分别为:112,2,由此我们可得最优组合预测模型。12124.2.54.2.5 最优组合模型的求解最优组合模型的求解二元回归模型的自变量取x1,x2分别为序号和交通事故次数,通过计算,它的预测模型为y71.3623.75x11.53x2GM(1.1)模型中的辨识算式0.1
36、1844,843.16。预测结果如表 4.12表 4.12 两种预测模型的受伤人数预测结果两种预测模型的受伤人数预测结果单位:人年份200620072008200920102011实际受伤人数738695660563504431GM(1,1)灰色预测738712.72633.11562.40499.58443.78误差(%)02.463%-4.074%0.106%-0.877%2.965%二元回归模型预测729.28686.33673.25583.29511.42416.92误差(%)-1.220%-1.247%2.007%3.603%1.389%-3.267%根据最优组合方法计算:4584.
37、67 69.38%灰色模型的权重系数:14584.67 2023.392023.39 30.62%二元线性回归模型权重系数:24584.672023.39所以组合预测模型为式:f31f12f2 0.6938 f1 0.3062 f2得组合模型的预测结果,与其他两种预测模型结果做比较三种预测模型的预测结果单位:人年份实际受GM(1,1)误差二元回误差组合模伤人数灰色预(%)归模型(%)型预测测预测20067387380729.28-1.220%735.322007695712.722.463%686.33-1.247%704.642008660633.11-4.074%673.252.007%6
38、45.402009563562.400.106%583.293.603%568.802010504499.58-0.877%511.421.389%503.212011431443.782.965%416.92-3.267%435.56我们采用如下的均方百分比误差来检验组合模型:误差(%)-0.363%1.387%2.212%1.030%0.157%1.058%1MSPE nytyt2()yti1n其中:MSPE 是均方百分比误差,yt是实际值,yt是预测值。通过计算可得:二元回归模型预测的均方百分比误差为 1.14290%,GM(1,1)灰色模型的均方百分比误差为 1.13552%,组合预测
39、的均方百分比误差为 0. 60509%。根据组合模型可预测出2012-2016年某高速公路因交通事故的受伤人数。 如下表:2012-2016 年某高速公路因交通事故的受伤人数20122013201420152016年份351310276244组合预测值391五模型的评价五模型的评价优点:(1)聚类分析 K-means 模型对给定的信息的筛选、加工、延伸和扩展,从而将评价对象确定在某一围,通过了该方法,最终得到了各类评价等级方法,为科学预测交通事故提供了依据。(2)聚类分析 K-means 模型与 SPSS 统计软件结合简单方便且实用。(3)从前面对组合模型的百分比误差分析中可以看出:二元线性回
40、归模型预测的预测精度相对比较低,模型预测精度相对较好,组合预测模型的预测精度大于任一单项预测模型,它避免了单项预测模型的片面性,综合利用各种预测提供的信息,具有更好的预测效果。(4)建立了二元回归预测与灰色预测组合的预测模型,研究了其在交通事故四项指标中受伤人数预测的应用,并得出了好的结论,为交通事故四项指标的预测提供了一种新的,可靠的方法。(5)对于灰信息处理技术与多元线性回归模型融合得到有机组合体。实现功能互补,能够使预测数据精度大大提高。用灰色系统理论的思想、方法对原始数据进行处理,很大程度上改善了统计模型性能。与多元线性规划模型进行组合,深化对系统演化规律的认识。缺点:(1)聚类分析
41、K-means 模型的算法中 K 是事先给定的,这个 K 值的选定是非常难以估计的。(2)从 K-means 算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,需要与 SPSS 等统计软件作辅助工作。(3)组合模型计算量相对于单项预测模型较大。参考文献参考文献1邓聚龙.灰色系统基本方法M.:华中理工大学,19962云贵等.灰色GM(1,1)预测模型的改进J.系统工程,1992(6):42433何能,鲍一丹.灰色马尔可夫预测模型及其应用J系统工程理论及实践,1992(4):22244肖新平等灰色系统分析理论及其应用M:海事大学,19975吴
42、维扬.经济预测及案例分析M:中国经济,19956庄楚强,吴亚森.应用数理统计基础(第二版)M.: 华南理工大学, 2003, 12.7马骥, 卫峰.组合预测方法在磷肥需求预测中的应用J.统计与决策, 2005,(6):8 周爱民.基于偏最小二乘法的情报组合预测法J.统计与决策,2004,176(8):9 省统计局编.统计年鉴2005M.: 中国统计,2005.10 明媚,华林.主成分分析在证券组合投资中的应用J.统计与信息论坛,2004,11祖康.道路与交通工程系统分析.:人民交通,199612邓聚龙.灰色控制系统.:华中工学院,198513Bates,J.M.and Granger,C.W.
43、J.combination of Forecast, OperationsResearch Quarterly,20(4),1969,451-46814国家统计局编.中国统计年鉴.:中国统计,200415牛东晓,志业,宏.组合灰色神经网络模型及其季节性负荷预测.华北电力大学学报,2000,27(4):1-616王应明,傅国伟.基于不同误差准则和数的组合预测方法研究J.控制决策,1994附录附录附表一:原始数据的处理附表一:原始数据的处理月份的原始数据:月份次数一月二月三月四月五月六月七月八月九月十月十一月十二月年份的原始数据处理:辖区次数辖区一辖区二辖区三辖区四辖区五辖区六辖区七辖区八辖区九死
44、亡人数454140454649555351413641死亡人数受伤人数262722353032363740262731受伤人数415143505760586155433646经济损失101239411301267525801263204977874108697412571019461241052758900581738204767496经济损失3576171178027442155131810028305890211158039543675671359658335565242001987173731443158644604970202辖区十9辖区十一66辖区十二25辖区十三37辖区十四13辖区
45、十五4辖区十六24辖区十七137辖区十八小时的原始数据处理:小时次数0-1 时251-2 时 312-3 时243-4 时314-5 时345-6 时326-7 时267-8 时278-9 时239-10 时2110-11 时2611-12 时1712-13 时1713-14 时1414-15 时2115-16 时2416-17 时2217-18 时1918-19 时1619-20 时1620-21 时1521-22 时1622-23 时1923-24 时27每一年的数据处理:项目次数数量200680020076652008611200941720103822115231811321110死亡
46、人数11118272315539176受伤人数4817350834915000388515525480305117633349223764721128经济损失 22 30 27 3018212534263221301826203113261230183582492681612271330112411299161114916111215152326死亡人数数量389380415383333受伤人数数量738695660563504702766713912605355742691845141939713598935718858418567558290445559321261347825254386
47、356276442234318497271643266525240602289364458218379722649072财产损失数量1535933215005740130234488731845984236120113773074319349774附表二:利用附表二:利用 SPSSSPSS 进行数据的处理进行数据的处理:利用 SPSS 对月份的数据处理:月份处理数据导出:QUICK CLUSTER 次数 死亡人数 受伤人数 经济损失/MISSING=LISTWISE/CRITERIA=CLUSTER(3) MXITER(10) CONVERGE(0)/METHOD=KMEANS(NOUPDAT
48、E)/PRINT ID(月份) INITIAL ANOVA CLUSTER DISTAN.快速聚类快速聚类附注附注创建的输出注释输入活动的数据集过滤器权重拆分文件工作数据文件中的 N 行缺失值处理对缺失的定义使用的案例用户定义的缺失值将作为缺失处理。统计量将基于案例进行计算,在这些案例中,所有用到的聚类变量都没有缺失值。语法QUICK CLUSTER 次数 死亡人数 受伤人数 经济损失/MISSING=LISTWISE/CRITERIA=CLUSTER(3)CONVERGE(0)/METHOD=KMEANS(NOUPDATE)/PRINTID( 月 份 )INITIALANOVACLUSTER
49、 DISTAN.资源处理器时间已用时间所需的工作空间00 00:00:00.24900 00:00:00.858928 字节MXITER(10)数据集 01207-5 月-2012 10 时 03 分 18 秒数据集 0初始聚类中心初始聚类中心聚类145.0026.0041.001012394.00迭代历史记录迭代历史记录a a聚类中心的更改迭代1212867.600.00023051.507.000314556.001.000245.0035.0050.001263204.00336.0027.0036.00738204.00次数死亡人数受伤人数经济损失初始聚类中心初始聚类中心次数死亡人数受
50、伤人数聚类145.0026.0041.00245.0035.0050.00336.0027.0036.00a. 由于聚类中心没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为2。初始中心间的最小距离为 250810.000。聚类成员聚类成员案例号123456789101112月份一?二?三?四?五?六?七?八?九?十?十一十二聚类113211211133最终聚类中心最终聚类中心距离2867.600114864.429180.0683051.50737387.57271712.4293051.50769137.57237496.430114680.57214556.