《数学建模大赛一等奖作品之欧阳科创编.pdf》由会员分享,可在线阅读,更多相关《数学建模大赛一等奖作品之欧阳科创编.pdf(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数学建模论文时间:2(2(姓名院、系、专业联系方式交通与物流工程队伍成员交通与物流工程交通与物流工程高速公路道路交通事故分析预测高速公路道路交通事故分析预测摘要我国目前的道路交通安全状况相对于世界水平要差得 多,高速公路道路交通事故所造成的损失非常高。因此, 改善交通安全状况、预防和减少高速公路交通事故具有重 大的现实意义。针对这样的现状,我们必须进行高速公路 交通事故的预测,从而及早采取措施进行预防工作,从而 减少事故发生次数及损失程度。针对此次建模的要求,在对此问题的深入研究下,我 们提出了合理的假设,将本问题归结为一个预测分析的问 题,其基本思想是通过聚类分析、SPSS软件求解、GM(1
2、,1)灰色预测模型、多元线性回归分析,组合模型等方法的运 用得到最优的预测结果。针对问题一,我们首先运用了聚类分析的思想,建立 了基于聚类分析的模型丨,通过聚类分析方法对给定的信 息的筛选、加工、延伸和扩展,从而将评价对象确定在某 范围内,通过了该方法,最终得到了各类评价等级方 法,为科学预测交通事故提供了欧阳科创编2021.02.05依据。针对问题二,本文选取受伤人数这一单项指标作为预 测的对象,首先运用了GM(l.l)灰色预测模型,建立模型II ,通过对给定的事故原始数据,通过MATLAB软件预测 了五年内的交通事故受伤人数;运用多元线性回归方法建 立模型III,在模型II和模型III的基
3、础之上,通过基于组合 模型思想的模型IV,求解得出了交通事故受伤人数在五年 内的预测。关键词:SPSS聚类分析GM(1,1)灰色预测模型组合预测模 型MATLAB目录目录.问题重述错误!未定义书签。二问题的分析4三模型假设与符号系统53.1模型假设53.2符号系统6四模型的建立及求解74.1问题一74.1.1建立模型I 74.1.2模型丨的求解及结果84.1.3实验结果的分析说明94.2问题二124.2.1建立GM(l.l)模型II 124.2.2用MATLAB求解模型II 194.2.3建立模型III 204.2.4建立优化模型IV 214.2.5最优组合模型的求解22五模型的评价23参考支
4、献24欧阳科创编2021.02.05欧阳科创编2021.02.05附录25问题重述问题重述随着道路交通事业的发展,高速公路交通事故也在不 断增加,对人类的生命和财产安全构成了极大的威胁。我 国目前的道路交通安全状况相对于世界水平要差得多,高 速公路道路交通事故所造成的损失非常高。因此,改善交 通安全状况、预防和减少高速公路交通事故具有重大的现 实意义。高速公路交通事故往往造成人员伤亡,车辆损毁、道路堵塞等严重后果,为探索高速公路道路交通事故发生的 规律,分析现有道路交通条件下未来高速公路交通事故的 发展趋势,以便及早采取措施进行预防,减少事故发生次 数及损失程度,必须进行高速公路交通事故预测。
5、另外, 高速公路道路交通事故分析预测是道路交通安全规划,决 策及高速公路交通工程项目效益评价中的一个关键性问题,分析预测正确与否直接关系到高速公路交通设施的建 设,高速公路交通管理政策的制定和高速公路交通建设资 金的投资分配,具有重要的现实意义。为了解决此问题, 现利用已收集到的A省高速公路交 通事故数据(见附件)、建立针对该省具体情况的数学模 型,预测该省未来的交通事故情况,解决下面几个问题:Is目前国内外用于统计道路交通事故状况的四项绝对 指标为交通事故次数、死亡人数、受伤人数以及直接经济 损失,这四项统计指标既是认识交通事故的起点,又是构 造其它交通事故统计指标的欧阳科创编2021.02
6、.05欧阳科创编2021.02.05基础,基本涵盖了道路交通事 故所造成各种损害的主要方面,因此选用这四项指标,试 探讨以聚类分析作为理论基础的高速公路公路交通事故统 计分析方法,然后从附件中所给A省高速公路交通事故四 项指标的历史统计数据出发,对该省公路交通事故进行聚 类分析研究,以期该省获得该省高速公路交通事故基于四 项指标的时间、空间分布规律。2、 高速公路交通事故预测是高速公路安全评价、 规划及 决策的基础,国内外关于道路交通事故的预测有多种方 法,鉴于高速公路交通事故具有复杂性、随机性和灰色性 的基本特征,对高速公路公路交通事故预测时选用时间序 列分析,灰色分析、神经网络等分析方法。
7、根据高速公路 交通事故的分布规律,构建高速公路交通事故发生次数、 死亡人数、受伤人数、直接经济损失的预测模型。以A省公路交通事故的历史统计数据为基础,就模型精度等级的 划分和预测的准确性作进一步的分析,探讨建立组合模型 或提高预测准确性的其它解决方案,最后对A省公路交通 事故未来五年的发展趋势做出科学预测,为高速公路交通 安全管理部门提前预防和控制交通事故提供决策依据。二问题的分析二问题的分析2.1(问题一(问题一)本小问主要解决对该省公路交通事故四项指标进行的聚 类分析。此小问属于统计问题,因此由附件的相关数据信 息,我们首先将附件中高速公路事故24时分布、月统计、 辖区统计进行整理,得出四
8、项指标在六年中小时段、月 份、辖区分布总量。欧阳科创编2021.02.05欧阳科创编2021.02.05本问题主要解决该省高速公路交通事故基于四项指标的 时间、空间分布规律。本问题为聚类分析的思想,由题目 可以知道对于A省高速公路交通事故分布规律需要分别对 四项指标进行聚类分析,找出各个指标内的能够度量不同 小时段、不同月份、不同辖区之间的相似度的统计量。并 将其聚合到不同类中。因此,用SPSS的K-means Cluster过程即逐步聚类法, 按照预定的分类数量,按照既定的原则选择凝聚点,得到 个初始分类方案,并计算出各个初始分类的中心位置 (均值);最后,使用计算出的中心位置重新进行聚类,
9、 因此在该方法中,各指标的分类情况会在运算中不断改 变,分类完毕后再次计算各类的中心位置。如此反复循 环,直到凝聚点位置改变很小为止。2.2(问题二)由对题目的第二问分析,可知第二问分为两小问。第一小问:选用灰色分析、多元线性回归分析等分析方法构建高速公路交通事故受伤人数预测模型。交通事故作 为一个随机事件,其本身具有相当大的偶然性和模糊性; 具有明显的不确定性特征。因此可以认为一个地区的道路 交通安全系统是一个灰色系统,可以应用灰色系统的理论 进行研究。 用G(l,l)灰色建立受伤人数指标的预测模型,在GM(1, 1)模型及相关模型灰色预测过程中要大量进行数列 和矩阵运算将MATLAB软件和
10、GM(1,1)结合,实现灰色预测 算法;建立多元线性回归模型。第二小问:本小问为优化问题,就模型精度等级的划分和 预测的欧阳科创编2021.02.05欧阳科创编2021.02.05准确性作进一步的分析,探讨建立组合模型或提高 预测准确性的其它解决方案,最后对A省公路交通事故未 来五年的发展趋势做出科学预测。对四项指标分别用灰色分析和多元线性回归模型结果进 行精确度比较,并且构建最优组合预测模型。利用以上两 种不同的单项预测法对受伤人数指标进行预测,然后对各 个单独的预测结果做适当的加权平均,最后取其加权平均 值作为最终的预测结果。本文采用简单实用的求方差极小 值法,获得组合预测模型。三模型假设
11、与符号系统三模型假设与符号系统3.1模型假设模型假设(1)假设在受伤人数统计时,以伤残等级三级以上归为受 伤。(2)假设在财产损失统计时,所损失的物资、费用等均按 现社会流通价值或社会人力服务成本的平均值进行统计。(3)根据其同一指标中的个体有较大的相似性,不同类中 的个体差异较大,用聚类方法聚合时,将其聚合在3类 中。(4)假设高速路上行驶的车辆状况、驾驶员心理状态良 好。3.2符号系统符号系统Xq表示第i个指标在第j年的给定值;理伙)实际给定的第k年的死亡人数:其中k二1,2,6;x的一次累加生成序列;八为汕的紧邻均值生成序列待定参数列;B为数据矩阵s 为待估参数;欧阳科创编2021.02
12、.05欧阳科创编2021.02.05Y为数据向量;J为待定参数列;冰)为生成残差;。为残值均值;瘁为原始数据的方差;为残值的方差;C为后验差比值;P为小误差概率;人为组合模型使用;兀为多元线性回归预测值;为灰色理论预测值;6 为多元线性回归预测的预测误差;为灰色理论预测的预测误差;5 多元线性回归的相应权系数;灰色理论模型的相应权系数;MSPE为均方百分比误差;四模型的建立及求解四模型的建立及求解4.1问题一问题一4.1.1建立模型建立模型I聚类分析法是根据实物本身的特性来定量研究分析问 题的一种统计分析方法。其基本思想是同一类中的个体有 较大的相似性,不同类中的个体差异较大,于是更具一批 样
13、品的多个观测指标,找出能够度量样品(或变量)之间 相似度的统计量,并以此欧阳科创编2021.02.05欧阳科创编2021.02.05为依据,采用聚类发将所有的样 品(或变量)分别聚合到不同的类中。将分析评价中的n个待评样本作为聚类对象 (刈(i二个;评价指标作为聚类指标(Uj) (j二1,2,m),s个评价标准作为评价等级(Zk) (k二1,2,s).则 根据第i个聚类独享对于第j个聚类指标的样本值X”,确定 聚类样本矩阵为X:以一年十二个月的数据分析为例:在对给定的原始收 据通过Excel整理的基础上我们建立了针对交通事故每月的 聚类分析模型。将分析评价中的12个待评样本作为聚类对 象(Xi
14、)(i二1,2,:12);4个;评价指标作为聚类指标(Uj) (j二1,2, 3,4),我们设定为三类分类标准,则聚类样本矩阵为:4.1.2模型模型I的求解及结果的求解及结果在建立了聚类分析的模型的基础上,我们采用了SPSS软件来对模型进行求解,SPSS的优点是计算量较小,从而 可以有效的处理多变量、大样本数据而不会占用过多的内 存空间和计算时间;同时在分析时用户可以人为地制定初 始中心位置,或者将曾做过的聚类分析结果作为初始位置 引入分析。通过计算得得出下面的实验数据结果:表4.1初始聚类中心聚类12次数45.0045.00死门人数26.0035.00爱伤人数41.0050.00经济损失10
15、12394.001263204.00表4.2最终聚类结果欧阳科创编336.0027.0036.00738204.002021.02.05欧阳科创编案例号月份聚类距离2021.02.052867.600114864.429180.0683051.50737387.57271712.4293051.50769137.57237496.430114680.57214556.001表4.4每个聚类中的案 例数123456789101112聚类_月二月三月四月五月六月七月八月九月十月十一月十二月12311321121113314736.0017.0002.0003.00012.000.000有效缺失4.
16、1.3实验结果的分析说明实验结果的分析说明(1)表2.2显示的是将样品分为三类的聚类结果,这三类 分别是:一月、四月、十一月。(2)表2.3表示的是最终的聚类分析结果。(3)表2.4反映了聚类分析中的有效样品数为12个,没有 样品数的缺失。综上得出聚类分析的结论(三月、十一月、十二月)为交 通事故最轻的,(一月、二月、五月、八月、九月、十 月)为交通事故一般的,(四月、七月)为交通事故最为 严重的。同理我们得出了一天中二十四小时以及每个辖区的数据 分析结果如下表所示:表4.5以辖区为单位的数据结果分析欧阳科创编2021.02.05欧阳科创编案例号辖区聚类距离2021.02.051234567辖
17、区辖区辖区辖区辖区辖区辖区3233333128890.469344284.50596888.462214476.54039959.539201362.539234361.540欧阳科创编2021.02.05欧阳科创编2021.02.05150913.502258343.466233859.540112157.462100373.508149838.462286803.46266440.462175342.54092997.504.00089101112131415161718辖区辖区辖区辖区辖区辖区辖区辖区辖区辖区辖区23332333321表4.6最终聚类中心聚类1次数248.2527.254
18、6.50316.3111.6218.38137.00死1:人数110.00爻伤人数 176.00经济损失4721128.001015373.50238676.54得出分析结果:(1)表2.6显示将分类对象区域分为三个等级。(2)表2.5(区、三区、四区、五区、六区、七区、九 区、十区、区、十三区、十四区、十五区、十六区) 为所辖区范围内交通事故最轻的、(二区、八区、十二 区、十七去)为辖区范围内交通事故一般的区域、(十八 区)是辖区范围内交通事故最为严重的。(3)表2.5显示有效数据位十八个,没有数据缺失。表4.7以小时为单位的最终聚类结果|案例号|小时|聚类|距离 |欧阳科创编2021.02
19、.05欧阳科创编2021.02.0510-1时141531.12521-2时1 52677.12632-3时1 55879.87643-4时1 81456.12554-5时2 47286.00065-6时2 47286.00076-7时1 62299.87587-8时1 57623.12598-9时3 74947.072109-10时1102944.8761110-11时3 101939.0731211-12时3 22358.9291312-13时34205.0741413-14时3 89233.9291514-15时3 12656.0731615-16时3 98614.0721716-17时
20、3 25122.9291817-18时3 71976.9291918-19时3 77094.9292019-20时3 103017.9292120-21时3 54255.9292221-22时3114598.0722322-23时3 36102.0722423-24时112162.875表4.8以小时为聚类对象的最终聚类中心聚类123事故次26.5033.0018.93数死亡人20.6323.5011.29数受 人数28.5031.0022.14伤经济损661234.88 892427.00343619.93失分析可得,在对以小时为聚类对象的分析中:示以小时为分类对象划分为三个等级。表欧阳科创
21、编2021.02.05表2.8显显示在欧阳科创编2021.02.05(08:00-09:00、10:00-23:00.)为交通事故发生最轻的小时段(04:00-06:00)为交通事故发生程度最为严重的小时段;(00:0004:00、06:00-08:00. 09:00-10:00. 23:00- 24:00)为交通事故发生程度一般的小时段。4.2问题二问题二4.2.1建立建立GMg)模型模型II交通事故作为一个随机事件, 其本身具有相当大的偶然 性和模糊性;如果把某地区的道路交通作为一个系统来 看,则此系统中存在着一些确定因素(灰色系统称为白色信 息),如道路状况、信号标志等;同时也存在一些不
22、确定因 素(灰色系统称为灰色信息),如车辆状况、 气候因素、 驾驶 员心理状态等等, 具有明显的不确定性特征。因此可以认 为一个地区的道路交通安全系统是一个灰色系统,可以应 用灰色系统的理论进行研究。高速公路交通事故灰色预测的特点分析高速公路交通事故灰色预测的原理、方法及所具有的 特点表现在:(1)灰色预测方法认为,某一地区在某一时间区间内的 交通事故指标值,是在一定范围内变化的且与时间坐标有 关的灰色量。该方法将原始数据整理成较有规律的生成数 列后再进行研究、处理,避免了概率统计方法的大样本、 大工作量而其结果不理想的状况。(2)数学模型GM(1, 1)是一阶单变量微分方程;这与以 往的概率
23、统计方法利用高散数据所建立的按时间作逐段分 析、递推、高散欧阳科创编2021.02.05欧阳科创编2021.02.05的模型有本质的区别。(3)GM(1,1)灰色预测模型不是交通事故原始数学模型, 而是生成数据序列模型;通过对生成数列的处理,使杂乱 无章的原始数据呈现出一定的规律性。MATLAB的基本数据单位是矩阵,其核心也是矩阵,它 可直接进行矩阵的乘积、矩阵的乘方、矩阵的除法、稀疏 矩阵等运掣”。在MATLAB语言系统中,几乎所有的操作都 是以矩阵操作为基础,用户可以用类似于数学公式的方法 编写程序实现算法,大大降低了编程所需的难度并节省了 时间。而在GM(1, 1)模型及相关模型的灰色预
24、测过程中, 要大量进行数列和矩阵运算嘲,这睹好使MATLAB派上了 用场。将MATLAB和GM(1, 1)模型结合,实现灰色预测算 法,恰到好处。灰色预测模型GM(1, 1)的建立过程GM(1,1)的一般形式设有变量X0) = X(0)(i), i=l,2, n(1)为某一预测对象的非负单调原始数据列, 为建立灰色 预测模型:首先对X进行一次累加(1AGO, Acumulated Generating Operator)生成一次累加序列:X二X伙),1, 2, n欧阳科创编2021.02.05欧阳科创编2021.02.05其中X伙)二X(i)J-1J-1(k=l,2,3-n)%作1AGO生成序
25、列)For i=l:nXl(i)=sum(xO(l:i);End对X可建立下述白化形式的微分方程: 气一十“X)二u,式中a,u是待定系数。atat灰微分方程动态模型为:*()+az (R)= %(4)式中刃为X的紧邻均生成,即 %紧邻均生成For k二2:n册紧邻均生成zz(k)=0.5*xl(k)+0.5*xl(k-l);end(2)构造矩阵B和数据向量h%和兀满足关系y.=Bci,y.=Bci,其中:欧阳科创编2021.02.05欧阳科创编2021.02.05-(Xm(l)+X(2)B=-l(X-(2)+ X-(3)-lX-(n-l)-l0. 950.80.70.7p0. 350. 45
26、0. 65c由P和C的值检验GM (1,1)模型的预测精度,以提供决策依据。精度等级越小越好,精度一致,表示预测具有精度,四级为不通过。模型精度等级由表1所示。%方差和小误差概率检验If p0.95&cv0.35DispC预测精度好);Else if p0.8&0.7&v0.65Disp(l预测勉强合格J;elseDispC预测不合格);EndEndEnd4.2.2用用MATLAB求解模型求解模型II欧阳科创编2021.02.05较高的欧阳科创编2021.02.05根据题目给定四项指标要求,我们选择采用灰色预测模型来预测交通事故受伤人数,其中交通事故死亡人数在2006年到2011年的数据如下表
27、2所示:4.10为2006年到2011年交事故受伤人数年份死亡人数2006738200769520086602009563201050420114312006-2011年的A省高速道路事故受伤人数的原始序列为:由此可得生成数列为:其数据矩阵B为:在MATLAB中计算可得:数据向量为:可得待定参数列为:则预测模型为:最后需要进行还原处理,作“生成数列”的逆运算,即进 行还原处理得到交通事故受伤人数的预测模型。因为所以所以X(。)依。)依)=X(呛)呛)-X仗仗-=-=利用MATLAB软件得出皿)和皿)的取值:表4.11 GM (1,1)预测模型计算一览表年份年份,”,”2006200673820
28、07200711450. 7712. 122008200822083. 8633. 112009200932642.6562.42010201043145.8499. 582011201153589. 6443. 78k kX%)X(o)(R)即预测序列预测序列欧阳科创编2021.02.05欧阳科创编原始值原始值预测值预测值年份年份2021.02.056602013201374334350. 187386955632014201484625311.075042015201594921. 4276. 324312012201263983. 820162016105166. 8245. 46k k
29、X些)测测序列序列原始值原始值预测值预测值X(o)(R)即预即预394.21436. 701387. 319433. 523304. 675270. 244MATLAB软件的出预测分析图,如下表所示:图4.1 MATLAB预测分析图残差检验和后验差检验,其结果为:方差比C二0.435V0.45合格小误差概率P=l0.95好上述结果说明建立的灰色预测模型通过检验,且模型的精度为I级,精度好。(参照表1)4.2.3建立模型建立模型III多元线性回归模型可以用于预测对象Y受多个因素x庄兀,X,影响的情况。P元线性回归模型:用最小二乘估计法求未知参数炕,环0卩的最小二乘估计。记Q Q Q(0O 01,
30、0P )=工();00 +PPi + Ppi + Ppiiii) = =X XX X= -2(X - 0o + 01兀| +卩pxpx) = 0v - = -2S(y,-A+Mi+ -)=c c pjpj整理的正规方程组(3):7卩欧阳科创编2021.02.05欧阳科创编2021.02.05叭+2也+2X0p=Z %2L 兀 io + 为xf3xf3+ + 丫兀5 5 久=Y力兀 p0o +兀;0A AA A. (3)为xp(3pxp(3p = 丫x xipip y yf fA A其解记为久,久,Q“,即为QM,4的最小二乘估计。从而P元线性回归方程(4):4.2.4建立优化模型建立优化模型I
31、V基于以上两种预测模型建立优化组合模型组合预测就是利用以上两种不同的单项预测法对同一 预测对象进行预测,然后对各个单独的预测结果做适当的 加权平均,最后取其加权平均值作为最终的预测结果。 目前关于权系数的计算方法很多,主要分为主观赋值法、 客观赋值法、试算比较法,客观赋值法就是根据一定的理 论或标准通过代数计算等确定权值,例如误差绝对值之加 权和最小法、误差平方和最小法、方差极小值法等,本文 采用求方差极小值法,该方法简单实用,掌握起来也不 难。设齐是灰色GM(l.l)的预测值,厶是多元回归预测值,厶是 最优组合预测值,预测误差分别为,匂, 6,取和。是相应权系数,且血+d =1,有厶 =血+
32、 Ghfi+ Ghfi则误差及方差D分别为关于劭对D)求极小值,可得0 =)(斫 )+ )(6) + 2 cov(斫,D(02)-COVG,6)勺)欧阳科创编2021.02.05欧阳科创编2021.02.05显然可取,cov(2) = 0,记Da =Da = 、D3VD3V则组合模型的权系数分别为:叭=、/岛,由此我们可得最优组合预测模型。425最优组合模型的求解最优组合模型的求解二元回归模型的自变量取,七分别为序号和交通事故次 数 通过计算,它的预测模型为y=-71.36-23.75叫+1.53占GM (1.1)模型中的辨识算式“0.11844, “=843.16。预测 结果如表4.12表4
33、.12两种预测模型的受伤人数预测结果年份两种预测模型的受伤人数预测结果单位:人实际受伤人 数GM(1,1)灰色误差()二元回归模 型预测预测误差(%)200620072008200920102011738695660563504431738712.72633.11562.40499.58443.7802.463%-4.074%0.106%-0.877%2.965%729.28686.33673.25583.29511.42416.92-1.220%-1.247%2.007%3.603%1.389%-3.267%根据最优组合方法计算: 灰 色 模 型 的 权 重 系 数4584.674584.6
34、7 + 2023.39= 69.38%二元线性回归模型权2023.394584.67+ 2023.39=30.62%所以组合预测模型为式: 得组合模型的预测结果,与其他两种预测模型结果做比较年份三种预测模型的预测结果单位:人误差实际受GM(1,1)误差二元回伤人数灰色预测组合模型预测误差(%)归模型预测(%)(%)-0.363%1.387%2.212%1.030%2006200720082009738695660563738712.72633.11562.4002.463%-4.074%0.106%729.28686.33673.25583.29-1.220%-1.247%2.007%3.60
35、3%735.32704.64645.40568.80欧阳科创编2021.02.05欧阳科创编2021.02.050.877%2.965%511.42416.921389%503.213.267%435.560.157%1.058%20102011504431499.58443.78我们采用如下的均方百分比误差来检验组合模型:其中:MSPE是均方百分比误差,儿是实际值,片是预测 值。通过计算可得:二元回归模型预测的均方百分比误差为1.14290% , GM(1,1)灰色模型的均方百分比误差为1.13552%,组合预测的均方百分比误差为0. 60509%o根据组合模型可预测出2012-2016年某
36、高速公路因交通事 故的受伤人数。如下表:年份组合预测值20122016年某高速公路因交通事故的受伤人数20132014201520123913513102762016244五模型的评价优点:聚类分析K-means模型对给定的信息的筛选、加工、 延伸和扩展,从而将评价对象确定在某一范围内,通 过了该方法,最终得到了各类评价等级方法,为科学 预测交通事故提供了依据。(4)聚类分析K-means模型与SPSS统计软件结合简单方 便且实用。(3)从前高好组合模型的百分比误差分析中可以看出:二 元线性回归模型预测的预测精度相对比较低,模型预测精 度相对较好,组合预测模型的预测精度大于任一单项预测 模型,
37、它避免了单项预测模型的片面性,综合利用各种预 测提供的信息,具有更好的预测效果。(4)建立了二元回归预测与灰色预测组合的预测模型,研(3)欧阳科创编2021.02.05欧阳科创编2021.02.05究了其在交通事故四项指标中受伤人数预测的应用,并得 出了好的结论,为交通事故四项指标的预测提供了一种新 的,可靠的方法。(5)对于灰信息处理技术与多元线性回归模型融合得到有炎组合体。实现功能互补,能够使预测数据精度大大提 咼。用灰色系统理论的思想、方法对原始数据进行处理,很大 程度上改善了统计模型性能。与多元线性规划模型进行组 合,深化对系统演化规律的认识。缺点(1)聚类分析K-means模型的算法
38、中K是事先给定的, 这个K值的选定是非常难以估计的。(2)从K-means算法框架可以看出,该算法需要不断地进 行样本分类调整,不断地计算调整后的新的聚类中心,因 此当数据量非常大时,需要与SPSS等统计软件作辅助工 佐。(3)组合模型计算量相对于单项预测模型较大。参考文献1邓聚龙灰色系统基本方法M.武汉:华中理工大学出版社,1996 .2李云贵等.灰色GM(1,1)预测模型的改进卩.系统工程,1992(6) : 4243 .何能,鲍一丹灰色马尔可夫预测模型及其应用卩.系统工程理论及实践,1992(4) : 22 24 .4肖新平等灰色系统分析理论及其应用M.大连:大连海事大学出版社,1997
39、.5吴维扬.经济预测及案例分析M.北京:中国经济出版社,19956庄楚强,吴亚森.应用数理统计基础(第二版)M.广州:华南理工大学出版社,2003, 12.欧阳科创编2021.02.05欧阳科创编2021.02.057马骥,张卫峰.组合预测方法在磷肥需求预测中的应用. 统计与决策,2005, (6):8周爱民.基于偏最小二乘法的情报组合预测法卩.统计与决 策,2004,176(8):9江西省统计局编.江西统计年鉴2005M,北京:中国统计出 版社,2005.10杨明媚,李华林.主成分分析在证券组合投资中的应用卩. 统计与信息论坛,2004,11姚祖康.道路与交通工程系统分析北京:人民交通出版社
40、,199612邓聚龙.灰色控制系统.武汉:华中工学院出版社,198513 Bates,J.M.and Granger.C.WJ.combination of Forecast,Operations Research Quarterly,20(4),1969,451 -46814国家统计局编.中国统计年鉴.北京:中国统计出版社,200415牛东晓,陈志业,谢宏.组合灰色神经网络模型及其季节 性负荷预测华北电力大学学报,2000,27:1616王应明,傅国伟.基于不同误差准则和范数的组合预测方 法研究卩控制决策,1994附录欧阳科创编2021.02.05欧阳科创编附表一附表一: :原始数据的处理原
41、始数据的处理月份的原始数据:1月份次数死亡人数欧阳科创编2021.02.05受伤人数经济损失2021.02.05欧阳科创编2021.02.05454140454649555351413641262722353032363740262731415143505760586155433646101239411301267525801263204977874108697412571019461241052758900581738204767496IJ二月三月四月五月六月七月八月九月十月十一月十二月年份的原始数据处理:辖区辖区一辖区二辖区三辖区四辖区五辖区六辖区七辖区八辖区九辖区十辖区十一辖区十二辖区十
42、三辖区十四辖区十五辖区十六辖区十七辖区十八次数死亡人数受伤人数经济损失35761711780274429662537134241372155131810028302115231811321110589021115803954111182723155391763675671359658335565242001987173731443158644604970204817350834915000388515525480305117633349223764721128小时的原始数据处理:小时0-1时次数死亡人数受伤人数经济损失1-2时2-3时3-4时4-5时5-6时6-7时7-8时8-9时9-10时2
43、531243131322627232122271825262118201312303021343230263126302021.02.05702766713912605355742691845141939713598935718858418567558290欧阳科创编欧阳科创编2021.02.052617171421242219161615161927188981213111191191115233524261627302410-11时11-12时12-13时13-14时14-15时15-16时16-17时17-18时18-19时19-20时20-21时21-22时22-23时23-24时29
44、161416121526445559321261347825254386356276442234318497271643266525240602289364458218379722649072每一年的数据处理:项目次数数量死亡人数数量受伤人数数量财产损失数量200620072008200920102011800665611417382377389380415383333307738695660563504431153593321500574013023448873184598423619349774附表二附表二: :利用利用SPSS进行数据的处理进行数据的处理: :利用SPSS对月份的数据处理
45、:月份处理数据导出:QUICK CLUSTER次数死亡人数受伤人数经济损失/MISSING二LISTWISE/CRITERIA=CLUSTER MXITER(IO) CONVERGE(O)/METHOD=KMEANS(NOUPDATE)/PRINT ID(月份)INITIAL AN OVA CLUSTER DISTAN.快速聚类快速聚类附注创建的输岀07-5 JJ-2012 10 时 03 分 18 秒注释欧阳科创编2021.02.05欧阳科创编输入2021.02.05数据集 012用户定义的缺失值将作为缺失处理。统 il址将基干案例进行计算,在这些案例中,所有用到的聚类变量都没有缺失 值。活
46、动的数据集过濾器权重拆分文件工作数据文件中的 N 行对缺失的定义使用的案例缺失值处理语法QUICK CLUSTER 次数死亡人数受伤人数 经济损失/MISSING 二 LISTWISE/CRITERIA=CLUSTER(3)CONVERGE(O)/METHOD 二 KMEANS(NOUPDATE)/PRINT ID(丿 J 份)INITIAL ANOVA CLUSTERDISTAN.MXITER(IO)资源处理器时间已用时间00 00:00:00.24900 00:00:00.858928 字节所需的工作空间数据集0初始聚类中心聚类1次数死亡人数受伤人数245.0026.0041.0045.0
47、035.0050.001263204.00336.0027.0036.00738204.00经济损失1012394.00迭代历史记录。聚类中心内的更改迭代1212867.600.00023051.507.000314556.001.000a.由于聚类中心内没有改动或改动较小而达到收 敛。任何中心的最大绝对坐标更改为000。、勺前迭 代为 2-初始中心间的最小距离为 250810.000a聚类成员案例号1月份聚类1距离2867.600欧阳科创编2021.02.05欧阳科创编2345678910112021.02.0513211211133114864.429180.0683051.5073738
48、7.57271712.4293051.50769137.57237496.430114680.57214556.00114736.001一7 二2 四?五?A?七?八?九?十?十一十二12最终聚类中心聚类1次数死亡人数受伤人数246.5731.1452.5750.0035.5054.001260152.50339.0026.6741.67752760.00经济损失1015261.57最终聚类中心间的距离聚类12244890.9293262501.572507392.50012244890.929262501.5723507392.500ANOVA聚类均方次数死亡人数受伤人数经济损失87.268
49、48.113143.2681.596E11df2222均方21.74625.11451.5984.392E9误差df9999F4.0131.9162.77736.348Sig.057.203.115.000F 检验应仅用于描述性目的因为选中的聚类将被用來最大化不同聚类中的案例间的差别观测到的显著性水平并未据此进行更正因此无法将其解释为是对聚类均值相等这一假设的检验。每个聚类中的案例数聚类127.0002.0003.00012.0003有效缺失.000利用SPAA对辖区进行数据处理:辖区分析数据导出:欧阳科创编2021.02.05欧阳科创编2021.02.05QUICK CLUSTER次数死亡人
50、数受伤人数经济损失/MISSING=LISTWISE/CRITERIA=CLUSTER MXITER(IO) CONVERGE(O)/METHOD=KMEANS(NOUPDATE)/PRINT ID(辖区)INITIAL AN OVA CLUSTER DISTAN.快速聚类快速聚类附庄创建的输岀注释输入07-5 JJ-2012 10 时 17 分 58 秒活动的数据集过濾湍权重数据集 018用户定义的缺失值将作为缺失处理。统计量将基于案例进行计算 .在这些案例中.所有用到的聚类变址都没有缺失 值。拆分文件丄作数据文件中的 N 行对缺失的定义使用的案例缺失值处理语法QUICK CLUSTER 次