《智能交通数据预处理算法研究及应用(25页).doc》由会员分享,可在线阅读,更多相关《智能交通数据预处理算法研究及应用(25页).doc(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-智能交通数据预处理算法研究及应用-第 23 页1 绪论1.1智能交通研究背景交通可以将人和物之间互相联系起来,在城市的建设、发展和日常运行中起到了重要的作用,我们出行使用的交通工具无不处于复杂的交通线路中,通过这些线路,我们可以到达我们想要前往的地点。在技术的不断发展和进步中,交通也变得越来越安全、便利、不再昂贵的运输成本,每次交通方面的进步都会影响到很多行业的发展,带来新的就业机会,为城市的发展带来利好。公路是城市的血管,公路上的车辆便是城市的血液,城市的日常运作和社会的发展离不开公路,得益于我国“入世”以后国民经济的腾飞和技术的进步,汽车业的发展也伴随着人民生活水平的提高迎来了自己的春天
2、,便利的交通对经济进一步发展和人民生活的便易又提供了新的生机,但事物具有两面性,现有道路已经不足以消化日益增长的交通工具,问题正逐渐进入人们的视线,拥堵问题、秩序杂乱无章、交通事故频发、尾气排放等是其主要表现形式1。在过去的几十年中,很多城市的交通问题已经随着城市的发展变得越来越严重,现有基础设施已然不足以消化过多的车辆,而糟糕的交通又限制了社会经济的发展,同时耗费了多余化石燃料,破坏环境。随着人口的不断膨胀,车辆保有率的不断增加,现有交通的状况将变得更加糟糕。深处世界洪流中的我国也不例外,自上个世纪末起,我国的道路拥挤问题已初现端倪,近年来我国国力迅速增强,交通问题更加限制了经济的持续发展和
3、人民生活水平的进一步提高,公安部官方数据给出,截至2015年年底,全国机动车保有量达2.79亿辆,2015全年新注册登记的汽车2385万辆,保有量净增1781万辆,全部达到历史最高水平。如此天量的汽车行驶在全国的公路上,势必会造成拥堵,造成经济损失,更为严重者已经严重威胁了人们的生命,全球每年超百万人死于交通事故。所以,我们必须重视交通问题并寻求解决方案。为此,世界各国采取了各自的对策,但收效甚微。通过长期的探索与经验的积累,人们发现,诸多造成交通拥挤的因素中,最为根本的原因就是供求两者间的不平衡关系,首先可以新建道路,提高总体容量,但经过调查发现,我国的一些大城市在上下班等高峰期,大多数公路
4、都处于拥堵状态,但一些道路的使用率仍然不高,所以仅仅采用简单的新建道路、扩建道路是不能从根本上解决问题的,尤其对于发展得比较成熟的城市而言,城市早已形成规模,交通系统繁杂,格局不宜改变,可分配用于道路建设的土地越来越少,因此不能仅从某一方面(例如道路方面或车辆方面)来解决相关问题,成本过高、污染环境,并且此法对于纾缓交通、提高运输效率的作用并不十分明显2。由此看来,综合考虑各种因素,要想有效地解决道路问题,就要充分利用现有道路资源、合理分配车流量,就成了现在工作的重点,具体就是采用各种高科技手段相配合改造传统运输体系的方法便成了最优解,即综合考虑司机、交通工具、环境的智能交通系统(ITS)。1
5、.2智能交通和数据预处理的相关介绍1.2.1智能交通相关介绍及国内外发展概述智能交通系统(Intelligent Transportation System,即ITS),是未来交通系统的发展方向,它是将先进的信息技术、数据通讯传输技术、电子传感技术、控制技术及计算机技术等有效地集成运用于整个地面交通管理系统而建立的一种在大范围内、全方位发挥作用的,实时、准确、高效的综合交通运输管理系统3。智能交通的目标就是,对交通状况和交通数据的感知采集,将各感知终端的信息进行整合、转换处理,以支撑分析预警与优化管理的应用系统建设,分析预测及优化管理应用主要包括交通规划、交通监控、智能诱导、智能停车等应用系统
6、。在没有新建道路的情况下,充分利用现有资源,减轻道路负担和环境污染,使道路在安全的前提下被更充分地利用,由此,各国越来越重视智能交通的建设。智能交通分为四个子系统,分别为:车辆控制系统、交通监控系统、车辆管理系统、旅行信息系统。车辆控制系统,指辅助驾驶员驾驶汽车或替代驾驶员自动驾驶汽车的系统,可以准确地判断车与障碍物之间的距离。交通监控系统类似于机场的航空控制器,它将在道路、车辆和驾驶员之间建立快速通讯联系。车辆管理系统可以实现驾驶员与调度管理中心之间的双向通讯,来提供商业车辆、公共汽车和出租汽车的运营效率。旅行信息系统专为外出旅行人员及时提供各种交通信息的系统。四个子系统如下图。图1-1智能
7、交通的子系统4Figure 1-1 Intelligent transportation subsystems智能交通系统(ITS)是一个繁杂系统的总称,以管理和控制为基础,依靠交通信息提供服务,同时着重提高道路使用效率,由此可以缓解道路拥挤,有利于出行,目前此方法受到各国重视和大力推广。它集各种高新科技之大成,需要极强的综合性,然而现行的一些智能交通系统并没有综合利用各种资源,而是各自为政、自扫门前雪,没有形成信息的实时共享,如此这般,信息溃散、高能低效,并没有达到“智能交通”本来的目的。所以对于智能交通来说,其很重要的一方面就是资源、数据的共享,在保证尽可能全面、实时地收集大量静态和动态数
8、据信息的同时还要兼顾各交通资源之间的数据整合、输送、融合、分析和利用。这就需要各部门相互协调、分配工作,综合考虑时间、地点、环境,将采集到的天量数据进行实时共享,这是非常重要的。而实时共享,就需要依靠信息技术在各单位之间建立一个统一且规范的组织平台,以供信息共享与交流,各部门可充分利用平台中的所有数据,综合分析,给出最合理最有效的解决方案,此举大大提高智能交通系统的综合性能,同时提高出行效率,增加效益,保护环境5。智能交通是一个包含了多方面高新技术的复杂系统的总称,它的出现解决了很多道路交通问题,目前国际上将ITS项目分为七大类。图1-2智能交通的项目分类Figure 1-2 Intellig
9、ent Transportation Project Classification在智能交通方面走在世界前列的是美国、欧洲、日本。他们的社会发展相对成熟,更超前,所以较早涉足智能交通领域,且相关研究由国家带头,联合社会各界,各取所长,共同实现了智能交通的研发、改进与应用。美国于上世纪六十年代着手开发电子导航系统,并于80年代末期提出了相关战略计划,投入巨资联合各单位共同参与项目,在智能交通的各系统领域取得了长足的进展。进入新世纪后,已经建立了智能交通的四个系统及众多下属系统的行业标准,信息平台的建设也越来越完善。早在三十年前,欧洲便开始了对智能交通的研究和其信息共享平台的建设,两年后,欧洲十国
10、又将研究领域延伸到道路本身和车辆的设备,经过不懈努力,到现在,已经有很大一部分的理论研究被应用到实际当中,并为国家的带来了显著的经济利益。日本对于智能交通的研究稍晚欧美几年,但这并不妨碍日本在相关领域的领跑地位,日本连续几年内完成了系统的开发与标准的制定,并应用于国家的主要公路。日本的高效源于政府从始至终的参与,使各处力量集中在一起攻坚克难,这样就使日本取得了不俗的成绩。我国最初涉足智能交通领驭的时间可以上溯到上世纪八十年代,当时,交通部提出分批次对五个交通领域进行研究,并系统地应用于实际。进入新世纪后,我国于2001年根据我国国情构建了智能交通的规则系统,后又成立了十个试点城市,并在试点城市
11、中开始了相关工程项目的建设,我国智能交通的重点之处是信息交流平台的建设,随着科技的不断进步,各种通信手段的日渐成熟,信息采集系统功能的不断完善,为我国智能交通的进一步建设奠定了夯实的基础,但即便如此,当时我国在信息平台的建设上还处于初级阶段,多数城市仍然依托原始的信息系统,或直接进口国外先进软硬件。2008年北京奥运会的成功举办也加速了我国智能交通的发展,同时借鉴国外的成功或失败经验,我们很有可能“后发制人”6。时至今日,我国大城市普遍成立了各种独立的交通道路指挥中心,一些中小城市也在积极推动相关项目,由此可知,智能交通在我国的发展是历史发展的必然选择和趋势。1.2.2数据预处理的相关介绍数据
12、预处理是指在主要的处理以前对数据进行的一些处理。众所周知,只有依靠精准的数据才能做出准确的决策,由于电压突变、外界震动、电磁干扰、仪器故障、环境条件等引起了测试仪器的测量值异常或被测物品的位置相对移动,就会产生异常数据。发现异常数据并剔除或做出适当修改会对未来的正确的决策起到关键作用。然而对于一切系统,都没有足够的把握让数据完全洁净,这将导致数据挖掘的自身质量不高。在数据挖掘的过程中会由于噪声和冗余造成混乱,造成不准确的输出。过多的冗余就会在探索知识的途中造成性能降低并造成混乱,此时我们就通过数据预处理技术提高数据准确性,进而提高后期数据挖掘的性能7。数据预处理模块是数据挖掘系统完整的必要保证
13、,它的目的是发现任务,用新型模型整理数据,排除无关的属性,使数据更加精准、洁净、有更强的针对性,通过数据预处理可以提高工作效率。实际应用到的数据大部分是不完整的,由于脏数据的存在,数据挖掘不能直接进行,或得出的结果并不令人满意,为了应对这种情况,数据预处理技术就此产生,数据预处理的意义就是:为了得到更高质量的数据结果,在数据挖掘前要进行数据预处理,由此可以对数据做出调整,使数据更符合需求,更有效并更准确,同时去除无关项,使数据质量更高。通过大量的数据处理可以抹去噪音。同时存储已被整合的数据,数据变换同理。举个例子,规范化有助于提高一些用于测距的挖掘算法的有效性和准确性6。数据预处理有很多方式:
14、数据清理、数据集成、数据变换、数据归约等。要在数据挖掘前应用这些技术,由此提高挖掘质量,减少数据挖掘的时间。数据清理的主要任务是使格式标准,剔除异常数据,改正错误,剔除反复数据,即补充缺失数据、平滑噪声、找出并剔除一些点来解决不一致性。数据集成就是建立数据库,将数据合并在一起。由于一般情况下数据挖掘的工作量很大,在一些数据的挖掘上耗费较长时间,通过数据归约可以极大地简化工作,同时保证原始数据的无损,并可以得到与未归约近乎相同的结果8。对于一些工程企业(例如汽轮机厂等),客观存在着某些现象,比如,反复设计后的零件进入生产,这就导致了零件和文件的数量过于庞大,生产过程杂乱无章,抬升了成本,不能按时
15、完成任务。可以分析该企业产品的过往数据并制定特定算法,有助于工作人员了解本企业的历史产品、相关零部件和其过去的利用情况。在汽车领域,数据预处理同样发挥着其重要的作用,企业为用户提供更细致、更标准的服务,就要采集海量数据,车企人员已经开始重视数据的采集、分析,但在使用方面仍然不能做到完美。国内的汽车企业基础较国外较差,有很大的改善潜力,在这样的大环境下,数据挖掘就会对企业本身的发展有很大的促进作用,可以在已采集到的数据中抽出修理与养护的数据,进行数据清理、抽取、转换、加载,并为汽车售后单独建立一个数据库,利用相关规则分析数据,对数据进行处理9。1.3本文主要研究内容交通系统的重要特征之一就是其变
16、化性,因为它是一个由人类干预、随时变化且繁复的系统,数据会随时间地点的变化而变化,交通的占有率、速度、流量等数据也会随之变化,由此造成相应误差。在发送过程中设备故障、线路故障、交通事故或其他因素的干扰下,自然会出现数据缺失与数据异常,若不经处理,将这些数据直接反馈给交通,就会带来安全隐患。所以,要尽可能地保证数据的准确、有效。本文的主要目的就是解决以上问题,本文简单介绍了智能交通的研究背景,世界各国的发展历程,数据预处理的相关方法,主要研究了面对智能交通系统的数据预处理方法,包括缺失数据的补偿、异常数据的剔除等,利用Matlab编写相关程序,得出仿真,对结果进行分析,针对不同的剔除和补偿方法做
17、出对比,并对未来智能交通的发展前景做出预测与猜想。2 面向智能交通系统的数据预处理技术随着传感器技术的日益进步,我们能轻松地在特定环境下采集一些数据,但其自身并不完美,加上外界环境的干扰,通过仪器收集到的数据不能保证准确,而这些不准确的数据势必会影响到接下来对于数据的处理,因此在应用前,我们要对数据进行预处理,主要分为两大部分,对于异常数据就要将不合乎常理的数据进行剔除,对于缺失数据就要依靠手段来进行补偿。以下简要介绍了现阶段比较流行的几种数据预处理算法。2.1智能交通数据预处理综合介绍信息是智能交通系统的核心,系统的各项功能都紧紧围绕信息技术,交通信息的获取与传输则为实现子系统的独立功能和子
18、系统之间的联系提供了充分保障。动态交通信息系统的出现更好地解决了这些问题,系统收集占有率、速度、流量等信息经过处理再呈现给驾驶员,其具有实时性,可以快速采集并发布信息,使交管人员和驾驶员等即时知晓交通现状10。而动态指系统可以将不断变化的信息之间做出对比、分析,通过结果交管人员和驾驶员就可以知道道路状态的异常11。若按照功能分,动态交通信息系统分为三种数据流,要求数据的准确、完整、时效。图2-1动态交通信息系统的数据流Figure 2-1 Dynamic Traffic Information System data flow随着各类因素(例如时间、道路)的变化,智能交通系统采集到的数据也随之
19、变化,其具有高度不确定性和随机性,由此引发大量噪声与误差,提高数据质量的关键之一就是智能交通系统数据预处理,包括缺失数据的补偿、异常数据的剔除。由此可见,为从在种种不利情况下收集到的智能交通数据中找到其自身法则,便于数据的管理与应用,应寻找合适的智能交通系统数据预处理方法12。总的来讲,城市中智能交通要实现的四个目标如下图:图2-2城市交通的四个目标Figure 2-2 Four goals of urban transport2.2进行数据预处理的原因、目的及意义数据预处理的原因是:在现实世界中存在着大量的缺失的不洁净的数据,其中一些属性不总是可应用,一些数据由于录入时被认为无关紧要而没有包
20、含在其中。没有记录一些数据也可能是由于理解上的偏差或设备出现故障。除此以外,历史记载或修改数据也许会忽略,也可以提出一些一致性不好的数据,而且要推断出缺失的数据来13。为了使数据质量更高,更加有效、容易地进行数据挖掘从而提高挖掘质量是数据预处理的目的。数据预处理的主要目的是清除掉数据中的噪声、空缺值、不一致数据等。对于空缺值的处理,通常有忽略元组、人工填写空缺值、使用全局常量填充、使用属性平均值填充、使用与给定元组同一类的样本平均值填充、使用最可能的值填充等方法。需要注意的是,在进行数据挖掘之前,需要对前期的数据做出整理14。由此可见,数据质量的提高和数据预处理是分不开的,数据预处理有很多重要
21、意义15:(1)智能交通系统会采集到很多的实时数据,用过去的人力来识别异常数据和缺失数据并作出剔除和补偿不能很好地解决问题;(2)连续不断地工作和错综复杂的环境大大提高了各种设备出现不灵敏、故障、损坏的可能性。(3)因为对于数据精度和质量的规定标准不同,就需要系统有针对性地给出不同的解决方案。由以上可见,对数据进行预处理可以在一定程度上是数据质量更高,提高数据挖掘的精度,性能更好。总的来说,就是通过数据预处理可以提高数据的质量和可用性,进而提高数据融合的质量,依靠准确的信息才能做出正确的判断,并有针对性地采取有效措施。2.3智能交通数据预处理的常用方法随着科技的发展,传感器也日臻成熟,但其自身
22、不可能是完美的,由于本身的短处活着所处外在环境的影响,经由传感器采集到的数据不可能是百分之百准确的,而不准确的数据会直接影响将来的数据分析与处理,而且影响会很大。所以,在应用之前,我们要对采集到的数据进行整理,对数据进行整理的阶段就叫数据预处理,智能交通数据预处理主要包括两个部分:异常数据的剔除和缺失数据的补偿。2.3.1异常数据的剔除对于异常数据,是指我们实际测得不符合常理的数据或与合理范围偏差较大的少部分测量值。异常数据是不真实的,不总出现的,并且带有随机特性,这会影像数据质量,依靠传感器采集数据时,也会产生异常数据,引发异常的主要原因就是传感器本身的故障,偶然也会出现一些不经常发生但影响
23、较强的干扰。在智能交通领域,对于异常数据的剔除有以下几种方法1:阈值法:即根据常理及相关规定给出一些交通参数的上下限,超出此范围的数据则被认定为异常值。交通流机理法:根据交通流机理的一些规则,比如流量和占有率的关系,流量和速度的关系,行程时间和拥挤长度的关系等等,如果采集到的数据不符合这些规则,则某些数据就是异常的。置信距离检验法:或者“决策距离”比较。这个方法检测来自某一断面的各个传感器的相同参数,根据一致性融合,融合互相支持的数据,剔除不支持的数据,得出最终结果。格拉布斯统计法:如果某一组数据服从高斯分布,根据概率论知道,大部分数据都分布在合理区间内,只有少部分异常值在区间以外,通过这种思
24、想,我就可以将异常值剔除。需要注意的是,这种方法最好应用在传感器较多时,若较少则误差较大。有序样本聚类:这种方法是将相似的数据组成群组,在这一类群组之外的数据则为孤立的。采用此法把某一时段的交通参数分成很多特性相似的时间段,然后根据某些特性在多个时间段里找出异常数据。2.3.2缺失数据的补偿在智能交通领域,对于缺失数据的补偿有以下几种方法:历史均值法:根据历史记录的数据直接应用或按一定比例更改数据来代替缺失数据,这种方法操作简单,但由于其本身特性的限制,这种方法适用于交通状况比较稳定的时候。车道比值法:这种方法的原理是依据已记录的不同车道流量之比,对缺失车道的数据进行预估补偿,这种方法综合考虑
25、了过去和现在的各个参数,准确度较高,适用于车流比较大,车道状况稳定的情况。时间序列法:把各个交通参数当作时间序列,应用不同的时间预测方法,例如加权平均、指数平滑、简单平均等等,以历史数据为依据对缺失数据进行估计补偿,此法操作简单,容易执行,且具有普适性,是一种普遍应用的补偿方法16。相关分析法:这个方法是在时间序列中测量各个元素之间的关系,需要丢失数据时刻前后各一段时间的数据为基础来进行预估,在正常情况下此法的精度是很高的,但交通事故会影响交通的正常运行,对结果产生影响,应该在应用前进行交通事故的判断,如有交通事故,则换用他法。基于遗传算法的组合模型:这种方法的基本思想是综合应用多种方法对采集
26、到的数据进行补偿,通过对不同补偿方法得到的结果进行加权平均,历史经验表明,这种方法的准确度更高,但其代价就是需要计算多种算法,比较复杂,在一般情况下不建议采用此方法17。3 本文算法基本理论对于数据预处理中的异常数据的剔除和缺失数据的补偿,本文各介绍了三种方法,异常数据的剔除,本文主要介绍了3𝜎准则法、阈值法、t分布法;缺失数据的补偿,本文介绍了历史均值法、时间序列法和一种数据补偿新方法-多种补偿方法的权重计算下面给出了本文算法的理论基础和相关介绍。3.1异常数据的剔除3.1.1 3𝜎准则法3𝜎准则又称为拉依达准则,它是先假设一组检测数据只含有随
27、机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。3𝜎准则在科研、工程等领域常用于剔除异常数据,但需要注意的是,只有数据总量较大时才可使用此方法,至少也要10个数据以上,若数据总量过小,测量结果即使含有异常值也很难剔除,数据总量小于10时视为无效。同样,对于智能交通来说,3𝜎原则作为一种数据预处理的重要方式可以用于剔除系统采集到异常数据,从而提高整体系统精确度。给出正态分布或者近似正态分布,如果平均值和标准差已知,就可大致估计出它的频数分布。正态分布的主要特征如下图。
28、图3-1正态分布的主要特征Figure 3-1 The main characteristics of the normal distribution下式为位置参数是𝜇、尺度参数是𝜎的随机变量X的概率分布,我们把它记为: (3-1)它的概率密度函数为: (3-2)在正态分布中,我们认为位置参数是它的数学期望或期望,可以决定分布的位置;尺度参数𝜎为它的标准差,即将它的方差开平方,可以决定分布的幅度。因为它的形状呈钟形,所以人们又经常把正态分布概率曲线称为钟形曲线。图3-2钟形曲线Figure 3-2 Bell curve我们知道一些标准正态分布的特
29、性:其本质仍然是正态分布,只是它的位置参数的值为0,尺度参数的值为1。可以这样理解,在这样的一个正态分布中,它的概率密度函数均值是𝜇,方差是,即标准差是𝜎,这个正态分布是高斯函数的一个实例,可以将之简化为: (3-3)可由下图看出,红色区域的数值距平均值小于一个标准差,黄色区域的数值距平均值小于两个标准差,蓝色区域的数值距平均值小于三个标准差,在正态分布中,在一个标准差之间的数值占全部数值比率的68.2%,两个标准差之间数值占所有数值的比率为95.4%,三个标准差之间数值占所有数值的比率为99.7%。图3-3标准正态分布曲线Figure 3-3 Standard
30、 normal distribution curve在实际应用中,常常考虑具有或近似于正态分布特性的数据,如果这种假设准确无误,那么就可以应用以上规则,就是我们常说的“68-95-99.7法则”或“经验法则”。总的来说,在以为均值,以为标准差的正态分布中,图像的对称轴为,3𝜎准则即为:数值分布在区间的概率为0.6826,数值分布在区间的概率为0.9544,数值分布在区间的概率为0.9974。我们近似认为,几乎所有Y的取值都在区间内,超出这个范围的可能性仅占不到0.3%,即以三倍测量列的标准偏差限为依据,如果误差超过了界限,就认定此误差为非随机误差,认为是粗大误差,即为异常数据,
31、既然数据异常,就不能作为实际应用,应予剔除。3𝜎原则是一种检查异常数据的准则,假若事先已经修正系统误差,使其在标准范围内,在处理数据的时候主要考虑的是偶然误差,如果某一测量的偶然误差服从正态分布,根据正态分布公式可以求出标准偏差𝜎,3𝜎为极限误差,在数据服从正态分布的情况下,偶然误差不在3𝜎区间的概率只有0.27%,若用平均值取代真值,可以判定99.73%的数据都会在3𝜎的区域中,不在此区间的数据,就被认定为异常数据,予以剔除。正如以上以三倍标准差为界限的判别标准,就是3𝜎原则。3.1.2 阈值法“
32、阈”就是某个领域或系统的界限或极限的数值,是指一个效应能够产生的最低值或最高值。简单地说,在一些不重要的场合或对精度要求不高的时候,只要将控制对象的一些参数限定在某个区间之内,不做精确的处理和控制,即便略有溢出规定区间的数值也不会对整体造成严重后果。在阈值控制的系统中,由于多种因素的影响会使被控对象的状态发生变化,它的某些值常常会超出所规定的阈值区间,此时系统就会利用传感器进行检测,在某些值超出规定阈值区间时就会发出信号,再经由执行机构将数据控制在预定区间,在数值刚刚超过上限时,执行机构便启动,但若在数据刚恢复正常范围时就关闭执行机构,数据又会再次超出范围,造成执行机构频繁地启动,这样会增加系
33、统能耗、降低系统效率、缩短设备使用寿命。因此我们要解决这个问题,即使执行机构持续工作,保证被控对象的数值在接近下限的时候再关闭执行机构。智能交通中一些参数不可以超过规定界限,仅可以在其规定范围内上下浮动。例如:占有率,其范围区间为,如果采集到的数据不在这个范围内,则被视为异常数据,应予剔除;速度,理论上应该大于0,小于道路规定最大速度;流量应该大于0,小于道路的极限通行能力。这里所说的阈值法就是限定了数据的极限值,包括最大值与最小值,如果数据不在此范围内,就被认定是异常数据,应剔除之。阈值法有其自身的优点,容易计算,适用于在线计算,但另一方面,阈值法也只能作为一种基础的剔除方法,它对于异常数据
34、的处理能力相当有限,即使某些数据并不在阈值区间之外,但这些数据也不一定是正确的,只能剔除掉错误得很离谱的数据,我们可以先利用阈值法,再应用其他更精确的算法,这样可以减少工作量。所以我们建议做精确处理时不单独使用阈值法,而是结合其他方法,先粗略筛选再作精确处理。3.1.3 t分布法对同一信号进行反复测量,多数情况下测量数据符合正态分布18。如n个采样值为,并且它们独立分布,即。则样本的平均值为: (3-4)样本方差为: (3-5)根据期望与方差的点估计理论,是的无偏估计值;是的无偏估计值,构造统计量: (3-6)对于给定的,又因为 (3-7)通过查t分布表,得的值,可得的置信度是的置信区间,即:
35、 (3-8)对于给定置信度,有: (3-9) 上式中,是分布上的分位点,可查表得出,可得: (3-10)而落在该区间之外的概率很小,属于小概率事件,在正常的测量过程中不会发生。因此取为临界值,若满足:,则可判为含有粗大误差的数据,应予以剔除,所以,把作为新的判别异常数据的判据。基于该方法的剔除步骤如下:(1)将n个测量数据按从小到大的顺序排列,最小值为,最大值;(2)计算出所有测量数据的算术平均值 (3-11)和测量数据的方差 (3-12)则 (3-13)(3)查t分布表得到。(4)计算,若,则可判定为异常数据,应予以剔除,若,则此就不是异常数据,应予以保留。3.2缺失数据的补偿数据缺失时常发
36、生,其引发原因也有很多,可能是由于检测设备的故障等等。而数据的缺失会使最终结果造成偏差,因此对于道路交通的数据预处理来说,应该及时对缺失的数据进行补偿,一下介绍几种简单可行的方法。3.2.1历史均值法 依据历史上相应时刻的数据按比例采用或直接采用历史数据来代替缺失的数据。这种方法比较简单、方便,而且易于实现。但对于多变的交通状况来说,这种方法的精度就会大打折扣。由此可见,历史均值法适用于交通状态稳定的情况19。3.2.2时间序列法 这种方法的主要思想就是将收集到的交通数据作为时间序列,再利用不同的时间序列预测法,例如,简单平均、加权平均、指数平滑等,由过去到现在的波动趋势来作为预测的依据,但它
37、有一个要求,就是在未来预测目标的发展规律不会发生太大的变化。数据的变化有着规律性,也有其不规律性。每个时期的数据,都是由很多不同因素同时发生作用的综合结果。时间序列法简化了预测对象和各种因素之间的复杂联系,这种方法在分析现在、过去、未来的联系,和将来结果与过去多种因素之间的关系时,效果显著。用这种方法进行数据处理时简单易行,适应性比较强,是一种常用的缺失数据补充算法。但也有其自身的局限性,这种方法反映了对象单向和线性的联系,适用于预测稳定且需要在时间方面能够稳定持续的阶段,若进行长期预测,准确性便会降低20。算术平均数法:在被测对象的历史数据增长情况稳定的短期预测。移动平均预测与算术平均法类似
38、,综合了多个历史实际数据,求得平均值来预测未来的值,它有一个前提,就是假设平均值中的所有观察值对将来的影响是相同的,但在实际应用中,观察值对将来数值的影响是随着观察值与预测期之间距离减小而增大的,这也是这种方法的不足之处,还需要一些方法来修正。加权移动平均预测的历史数据是按照时间顺序排列的,不同的数据对预测未来的重要程度不同,所有的数据都会被赋予各自的权重,可以做到精准预测,可知这种方法的思想是认为接近预测时间点的变动对未来预测的影响较大,可见更为合理,但偶尔会在权重的选择上受到影响。加权移动平均预测是要将采集到的历史数据按照时间排列,对预测值来说不同的数据会有不同的重要性,把不同的权重分配给
39、所有数据,可以使预测结果更准确,由此可知,这种方法认为越近期的数据对未来的影响越大,也更为合理,但在权重的选择上需要斟酌21。指数平滑是加权平均的一种特殊形式,其给予待预测数据近期的数据更大的权值,权重由远到近是指数增加的趋势,指数平滑的名字也正是由此得来。时间序列法比较适用于缺失交通数据的在线补偿,只要有足够的历史数据,就可以推测出未来数据,这种算法操作简单、比较可靠,而且运行速度较快,符合交通数据预处理的各方面要求。3.2.3数据补偿新方法-多种补偿方法的权重计算前面几种方法都是利用一种算法进行数据补充,而本算法的基本思想是:对于同一组数据进行预处理,可以用多种方法,不同的方法有其各自的优
40、势与劣势,这种方法的思想就是将多种方法组合在一起并选择不同的权值,可以有效改善不同方法的缺点。大量实践表明,即使在效果一般的模型中,只要将它的独立信息和一种合适的方法结合在一起,就可以提高结果精度和可靠性。对于多种算法的处理,其中一种方法就是将不同方法的结果进行加权平均,大量实验表明,通过组合可以提高准确性22。由于这种方法需要分别计算不同的算法,计算繁琐且使用不方便,因此在要求不高的情况下,不建议使用这种方法。本文采用1:1权重计算。3.3补偿效果优劣的判别判定补偿效果优劣的方法为:先删除错误数据,进行补偿,运行程序后将所得结果与原数据相比较,通过计算所有数据与原数据的均方差,均方差较小的比
41、较稳定,补偿效果好。均方差,即为标准差,标准差是离均差平方和平均后的方根,用表示。标准差在概率统计中最常使用作为统计分布程度上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。标准差可以反映数据集的离散程度,标准差越小,说明数据越稳定;反之标准差越大,数据波动越大23。假设有一组数值X,X,XXn(皆为实数),其平均值(算术平均值)为,均方差公式如下: (3-14)4 智能交通系统数据预处理相关算法设计接下来是本文的重点部分,详细介绍了所选方法的程序、数据结果和方法对比。4.1异常数据的剔除数据来自交通道路的真实数据,并选取其中五分钟的交通数据,如下表:表4-1 原始
42、数据Table 4-1 Raw data 序号序号12345678135536034635834034634532223333282923892254382783142628432772712832792812792814494204603981147255444433271277014365381378384383370382371185316374362271135834924323324326775331491920467354923924311298485308304309312312309307310308937245337474.1.1 3𝜎准则法用Matlab编程
43、,相关程序如下。X=xlsread(C:Users孙显治Desktop江西路匹配过车.xlsx,F632:F697);Y=X;disp(Y);outliers=X=10000;X(outliers)=NaN;ave=mean(X); %计算平均值theta=std(X); %计算标准差outliers=abs(X-ave)(3*theta); %求出离群值的位置X(outliers)=NaN; %去除离群值 disp(X); %显示处理后数据xlswrite(C:Users孙显治Desktop江西路剔除3theta法.xlsx,X);用3𝜎法剔除后的数据见下表:表4-2 3
44、120590;法剔除后数据Table 4-2 3 method processed data 序号序号12345678135536034635834034634532223333282923892剔除278剔除28432772712832792812792814494剔除剔除剔除444433271剔除4365381378384383370382371剔除63743622711358剔除32332432677533剔除剔除剔除3924311298剔除83043093123123093073103089剔除剔除4.1.2阈值法由以上可知阈值法算法流程图。图4-1算法流程图Figure 4-1 Al
45、gorithm flowchart用Matlab编程,相关程序如下。X=xlsread(C:Users孙显治Desktop江西路匹配过车.xlsx,F632:F697);Y=X;disp(Y);ave=mean(X); %计算平均值a=10000; %输入阈值;outliers=abs(X-ave)a; %求出离群值的位置nout=sum(outliers); %计算离群值的个数并显示X(outliers)=NaN; %去除离群值 disp(X); %显示处理后数据xlswrite(C:Users孙显治Desktop江西路剔除阈值法.xlsx,X);用阈值法剔除后的数据见下表:表4-3 阈值法剔除后数据Table 4-3 Data after excluding the threshold method 序号序号12345678135536034635834034634532223333282923892剔除278剔除2843277271283279281279