《智能交通中的数据挖掘技术.doc》由会员分享,可在线阅读,更多相关《智能交通中的数据挖掘技术.doc(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、智能交通中的数据挖掘技术本文得到电子信息产业部发展基金的资助基金编号:信部运2003446号王亚琴,覃明贵,朱建秋,朱扬勇复旦大学计算机信息与技术系, 上海, 200433摘要:数据挖掘技术提供了对海量交通数据的强大分析处理功能。本文分析了智能交通系统中交通数据的特点,提出了交通数据挖掘系统的系统模型和分层体系结构;并介绍了智能交通数据挖掘的主要模型及方法,包括交通预测模型、分类模型和关联模型。关键字:ITS、数据挖掘、模型、体系结构Data Mining Techniques in Intelligent Transportation System Wang yaqin, Qin mingg
2、ui, Zhu jianqiu, Zhu yanyongDepartment of Computer Information and Technology, Fudan University, Shanghai 200433Abstract: Data mining techniques are applied to analysis the large amount of ITS data to acquire useful traffic pattern.This paper summarizes the characteristic of the traffic data, and pr
3、oposes the system model and the scalable architecture of traffic data mining system (TDMS). We also presents the main traffic pattern of TDMS, including traffic forecast model, classification model and association model.Keywords: ITS, data mining, pattern, system architecture1 引言数据挖掘技术1是近年来发展起来的一种数据
4、处理技术,在大规模数据中挖掘隐含的模式,提供了对大规模数据强大、灵活的数据分析处理功能,在决策支持系统(DSS)中得到了很好的应用。安全、便捷、舒适和信息化的交通需求,使智能交通系统2的研究和应用取得了快速发展。各种先进的信息技术在智能交通系统中得到广泛应用,智能交通系统积累了巨大而复杂的交通数据,复杂的交通数据对信息的管理和处理都提出了新的要求,文献3,4,5提出了利用数据仓库、数据一体化平台等对复杂智能交通信息进行组织与管理,并对智能交通信息进行数据融合、数据压缩、数据标准化、数据挖掘、数据联机分析处理等。数据挖掘技术作为一种产生于应用且面向应用的数据分析处理技术,可以快速、有效、深入的分
5、析海量交通信息,挖掘大量交通数据中隐含的交通模式。文献6,7研究了利用神经网络进行短时交通流量预测,以及道路交通状态的分类;文献8研究了基于模糊逻辑的道路拥堵评价;文献9,10,11研究了基于ARIMA、神经网络、非参数回归等模型的交通流量预测方法;文献12提出了利用数据挖掘技术进行交通事件分析。数据挖掘技术挖掘交通系统的各种实时交通模型和综合交通模型,可以用于交通的管理和控制,改善智能交通系统的服务水平。本文分析了智能交通系统中交通数据的特点,提出了对智能交通进行数据挖掘的主要模型及方法,并设计了在智能交通交通系统中实现交通数据挖掘功能的系统模型及体系结构。文章结构如下:第二部分分析了ITS
6、中的交通数据;第三部分提出了交通数据挖掘系统的系统模型和分层体系结构;第四部分介绍了对交通数据进行挖掘的主要模型及方法,包括交通预测模型、分类模型和关联模型;最后是总结。2 ITS的交通数据分析2.1 交通数据的特点智能交通系统的交通数据来源广泛、形式多样,包括动态的交通流数据和智能交通子系统的管理控制数据,以及静态的道路环境数据等。智能交通系统管理和控制的对象是交通流,交通流数据是按时间顺序采样得到的一系列数值型数据序列,是交通系统中最重要的数据。智能交通系统记录了大量交通信息,如电子警察系统将交通违法车辆的违法行为过程用图像和数据记录下来,提供交通违法信息,包括车辆违法地点、违法日期、违法
7、时间、违法类型、违法参数、违法车辆全景图像序列、违法车辆牌照图像;交通事故接处警系统提供报警时间、报警地点、报警电话号码以及相关的交通事故信息;交通信号控制系统提供与路口有关的运行状态、色步递进信息等。道路环境信息有路网拓扑、道路路面信息、通行能力、主线限速标志,异常事件(如施工等)、天气环境、公交信息、车辆信息、驾驶员信息等,某些道路环境信息无法从现有系统中得到,需通过人工方式收集或从其他系统中集成。智能交通系统的交通数据分布于不同的交通信息系统,完成不同的交通管理和控制功能,具有异构、层次性的特点。图1显示了交通信息的层次结构,交通信息由低级到高级可划分为四个层次,包括现场级信息、区域级信
8、息、功能管理系统信息和综合指挥信息。2.2 交通流根据不同的信息采集技术,ITS中交通流数据分为地点交通流数据和路段交通流数据。地点交通流是用安装在固定地点的交通检测器设备监视移动的车辆,获得的是检测器设备设置点的交通信息,一般得到交通流量、速度及占有率等交通数据。基于磁频技术的感应线圈检测器具有测量精度高、适应性较强、故障率低及较低的价格的优点,是当前主流的固定型交通流采集技术。路段交通流是运用安装有特定设备的移动车辆的移动定位获取交通信息,移动检测设备记录车辆的移动信息,通过车辆的移动信息可计算路段内的交通信息。如基于GPS的移动定位技术可获得车辆的经纬度坐标和速度方向,通过计算可提供车辆
9、的瞬时速度、行程时间、行程速度等交通信息。交通流是一类时间序列数据,时间序列数据的挖掘,通常关注时间序列的演变模式,即在时间序列数据中寻找数据随时间变化的规律或趋势并对其建模,包括时间序列趋势分析、周期模式匹配等。演变模式用于时间序列中的数值型数据的预测。交通流数据还具有时空相关性,交通流量等数据只有与一定的时刻及道路相联系时才有意义,智能交通信息时空规则的挖掘对智能交通系统的预测具有重要的应用价值。3 交通数据挖掘系统结构3.1 系统模型数据挖掘过程分为数据准备、模式发现、结果表达和解释三个主要阶段,图2给出了交通数据挖掘的系统模型。ETL及数据预处理为交通信息的模式发现提供一个干净、一致、
10、集成、归约(reduction)的数据集交通信息数据仓库。数据挖掘任务管理在数据挖掘算法集中选择完成挖掘任务的算法,在交通数据仓库中选择挖掘算法应用的数据,执行相应的挖掘操作,将挖掘得到的模式保存到交通信息模式库。模型分析管理是交通数据挖掘系统与其他智能交通系统的应用接口,并接收应用系统的反馈信息对交通信息模型库的模式进行解释与评价。3.2 交通数据集成交通数据种类繁多,分布在各种智能交通应用系统中,具有异构、层次的特点,交通数据挖掘需要将各种交通数据从操作数据库中抽取出来,经过清洗、转换、装载等一系列处理,集成到一个统一的本地交通信息数据仓库。数据仓库为数据挖掘提供有效的数据处理平台,许多数
11、据挖掘功能,如分类、关联、聚类等,都可以与各种粒度的多维数据分析OLAP操作集成,在多个抽象层上交互数据挖掘。3.3 多层体系结构交通数据挖掘系统的系统模型提供了一个多层的应用体系结构,将数据挖掘功能的实现分为应用层、分析逻辑层、算法工具层和数据层。应用层是用户调用分析逻辑所设立的分析功能的入口,分析逻辑则表现了应用系统的分析能力。多层体系结构能够在跨平台、网络环境下应用,应用系统可以根据需要采用灵活的方式,如B/S、C/S等。 在交通数据挖掘中,分析功能的抽取及响应、数据挖掘算法的选取、设计是一个难题,需要交通系统的利用知识和数据挖掘技术的紧密结合。分析逻辑层将分析模型从实际分析需求中提取出
12、来,完成一定的独立分析功能,由一个或多个数据挖掘算法具体实现,每个分析模型都是独立的功能单位。算法工具层集中了交通流分析需要的算法及相关计算工具,如挖掘各种模型的数据挖掘算法、统计方法、相似性度量方法等,是各个独立的算法工具的集合。在算法工具层,除了数据挖掘算法外,还应当由数据挖掘算法所需要的辅助工具,如对于聚类算法,相似性度量或距离函数是关系到聚类质量的核心问题,不同的相似性独立或距离函数针对不同的数据或分析目标,在算法中可以根据需要来选择配置。4 挖掘模型4.1 预测模型交通预测包含多个层次:基础数据层的交通流数据的预测;基于特征属性层的交通流性质预测、交通事件及事件类型预测、道路拥堵情况
13、预测;基于状态描述层的路网服务水平、事态发展预测和事件影响评估等。在智能交通系统中,识别和预测交通流的状态可以对交通流进行有效的监控和管理,对于智能交通系统的实时交通信号控制,交通分配、路径诱导、自动导航,事故检测等具有非常重要的意义。目前,基础数据层的交通流量预测已取得了很多研究成果,如ARIMA、神经网络、非参数回归模型9,10,11。在特征属性层和状态描述层反映交通系统发展变化的阶段、层次、水平或趋势等的预测模型还需要更进一步的研究。4.2 分类模型分类模型是数据挖掘中应用领域非常广泛的数据模型。分类是根据数据集的特点构造一个分类器,利用分类器对未知类别的对象赋予类别的一种技术。假设交通
14、流数据集R,交通流分类特征集P=p1, p2, pk,,建立R到P的映射f: RP使R中的每一个交通流对象与P中唯一一个pi对应,则f称为交通流数据的分类模型,或简称分类器。分类模型的建立一般有训练(或学习)和测试两个步骤。在训练阶段,通过分析或学习训练数据集的特点创建一个分类模型;在测试阶段,利用测试数据集对创建的分类模型进行测试,判断模型的分类准确度。若准确度达到要求,则模型建立成功,分类模型用来对类标号未知的数据元组或对象进行分类。分类是一种重要的数据挖掘技术,分类算法的研究也取得了很多成果。如决策树分类算法ID3、C4.5,基于概率统计的Bayes分类方法NB、TAN,BP神经网络方法
15、、基于关联规则的分类方法CBA,基于模糊逻辑的分类方法等。分类模型通常用规则、判定树或数学公式的形式表示。决策树分类模型是一个类似于流程图的树结构,是分类分析中最受欢迎的模型,可以方便地用图形化的方式表现挖掘的结果。决策树的每个分枝都对应一个分类规则,因此决策树分类算法最终可以输出一个容易理解的规则集。利用决策树对未知的数据对象分类,将数据对象的属性值在决策树上从根部开始测试,每个分枝代表一个测试输出,每个内部节点表示在一个属性上的测试,根据各个分枝逐级下降,直到叶节点,决策树的叶节点代表类标号。交通流可以有不同的分类特征P,因此交通流分类模型的建立也需选择不同的相关属性,删除训练过程中与分类
16、任务不相关的属性。不同的分类算法也会建立不同的交通流数据分类模型,已有研究利用神经网络的方法和模糊逻辑的方法建立了数据流数据的分类模型。模糊逻辑的方法可以得到一组容易理解的如ifthen的分类规则;而采用神经网络方法进行训练,得到的是一个优化的神经网络模型,这个优化的神经网络模型可以对新的数据进行分类,但其分类规则是不可理解的。4.3 关联模型关联规则是形如的模式,一般用支持度和置信度两个指标来描述一个关联规则。关联规则可以发现数据项之间的相关联系。交通流信息是时间相关和空间相关的,具有时空特性,例如,流量数据只有在与一定的时刻及路口相联系时才有意义。空间数据是主要指数字地图、遥感数据、医学图
17、象、交通控制、环境等领域大量出现的与空间有关的数据,包含的空间信息有距离、拓扑结构等。对空间数据的关联分析可能会得到“88%的医院门口30米范围内有一家鲜花店”的规律。时空数据的数据挖掘模型包括时空元规则、时空范化、时空聚类和关联、演化规则等,空间关联规则是根据空间谓词而不是根据项来定义的。智能交通信息时空规则的挖掘对智能交通系统的预测具有重要的应用价值,例如,时空关联规则:“在T1到T2时间段内高速路X的A站点的交通事故在T2+2到T2+3时间段内高速路Y的B站点有不寻常的高交通流量。”5 总结智能交通的数据挖掘在大量交通信息中发现有价值的模式,以数据驱动的方式分析交通系统的交通状况,建立智
18、能交通系统的分析、评价及预测模型,用于智能交通系统的实时交通控制,提供交通管理决策支持信息,可以改善智能交通系统的管理和控制水平。参考文献:1. DaimlerChrysler Corporation.Cross Industry Standard Process for Data MiningEB/OL. http:/www.crisp-dm.org, 19992. Ichiro Masaki. A brief History of ITSR. USA: Massachusetts Institute of Technology, 1999. 3. Qin Xiao-hu,Liao Chua
19、n-jin,Huang Xi-Yue,Qin Guo-qiang. ITS Information Architecture,Management And Processing. IEEE,20034. Ruimin Li,Qixin Shi,Wei Shen. Development of Integrated Information Platform for Intelligent Transportation Systems. IEEE,20035. National proseminar of ITS Shared Information Platform Technique, Cho
20、ngqing, 20026. Dougherty,M.,Cobbett,M. Short-term inter-urban traffic forecasts using neural networks. International Journal of Forecasting,13,21-31.1997.7. Hai Yang, Fengxiang Qiao. Neural network approach to classification of traffic flow states. Jorunal of Transportation Engineering, 19988. Jia L
21、u, Li Cao. Congestion evaluation from traffic flow information based on fuzzy logic. IEEE, 20039. Voort,M.,Dougtherty,M.,Watson,S. Combining Kohonen maps with ARIMA time series models to forcast traffic flow. Transpotation Research C. 1996, 4(5), 307-318.10. Chao Han, Su Song. A review of some main
22、models for traffic flow forecasting. IEEE, 200311. Brian L. Smith, Michael J. Demetsky. Traffic Flow Forecasting: Comparition Of Modeling Approachies. Journal Of Transportation Engineering. July/August, 1997, 261-266.12. Der-Horng Lee, Shin-Ting Jeng. Applying data mining techniques for traffic incident analysis. Journal of The Institution of Engineers, 2004作者简介:姓名单位职务学历研究方向王亚琴复旦大学计算机与信息技术系学生博士生数据挖掘理论及应用覃明贵上海宝信软件工程师博士生数据挖掘理论及应用朱建秋上海复旦德门软件公司工程师博士数据挖掘理论及应用朱扬勇复旦大学计算机与信息技术系教授博士数据挖掘理论及应用9