《safql算法在区域交通控制中的应用研究.pdf》由会员分享,可在线阅读,更多相关《safql算法在区域交通控制中的应用研究.pdf(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、五邑大学硕士学位论文SA-FQL算法在区域交通控制中的应用研究姓名:邓军申请学位级别:硕士专业:交通信息工程及控制指导教师:刘智勇20090415摘要相对于单路口控制,区域交通控制能够获得整体最优的效果。传统的区域交通控制方法需要建立整个区域交通系统的模型,但由于城市交通系统是一个典型的非线性、动态时变的、不确定性的复杂大系统,因此建立其精确的数学模型非常困难。Q 学习算法无需模型且能实现在环境中学习控制策略,适合战略控制,为区域交通控制提供了新思路。然而,Q 学习算法自身还存在一些问题,如学习速度慢,动作选取中的扩张与探索之间的平衡问题等。为使Q 学习算法更好地应用于区域交通控制,论文主要在
2、以下方面进行了研究:1 研究了目前几种常见的Q 学习改进算法,分析了它们在解决上述Q 学习算法问题上的不足之处,并针对这些不足,提出了一种新的Q 学习改进算法S A F Q L 算法。S A F Q L 算法首先将模糊推理系统引入Q 学习,利用模糊推理系统能够将先验知识嵌入到模糊规则的优点,提高学习速度。然后,再引入模拟退火算法的M e t r o p o l i s 准则,通过算法进行过程中温度等参数的变化来自动调节探索与扩张的比例,从而实现探索和扩张之间的平衡。2 研究S A F Q L 算法在区域交通控制中的应用,提出一种基于S A F Q L 算法的区域交通控制方法。首先利用S A F
3、 Q L 算法优化区域的公共周期,然后在给定周期的基础上再用S A F Q L 算法优化区域中各干线相邻两路口的相位差,最后根据交通流量确定各路口的绿信比。3 介绍了交通仿真软件T S I S,用V C+6 0 编写R T E 接口程序并利用T S I S 对本文控制方法、基于Q 学习算法的控制方法和基于模糊Q 学习算法的控制方法进行了仿真。仿真结果表明,相比后两种方法,本文方法在提高学习速度和交通效率上都更具优越性。关键词:区域交通控制;S A F Q L 算法;Q 学习算法;T S I S五邑人学硕上学位论文A b s t r a c tA so p p o s e dt os i n g
4、 l ei n t e r s e c t i o nt r a f f i cc o n t r o l,a r e at r a f f i cc o n t r o lc a r lo b t a i ng l o b a lo p t i m i z a t i o n I nt r a d i t i o n a lm e t h o d so fa r e at r a f f i cc o n t r o l,i tn e e d st Oe s t a b l i s hm a t h e m a t i c a lm o d e l sf o rt r a f f i cs
5、y s t e m s B u tt r a f f i cs y s t e m sa r et y p i c a ln o n l i n e a r,t i m e-v a r y i n g,s t o c h a s t i c,c o m p li c a t e da n dl a r g es c a l es y s t e m s,S Oi f sh a r dt oe s t a b li s hp r e c i s em a t h e m a t i c a lm o d e l sf o rt h e m Q L e a m i n ga l g o r i t
6、 h mi sn o tn e c e s s a r yt oe s t a b l i s ht h em a t h e m a t i c a lm o d e l sa n dC a nl e a r nt h ep o l i c yi nt h er e a le n v i r o n m e n t,S Oi t sf i tt Ob ea p p l i e di na r e at r a f f i cc o n t r o lH o w e v e r,t h e r ea r es o m es h o r t c o m i n g si nQ l e a r n
7、 i n ga l g o r i t h m,g e n e r a l l y,i t sl e a r n i n gs p e e di sq u i t es l o w,a n di t sd i f f i c u l tt ob a l a n c eb e t w e e ne x p l o r a t i o na n de x p l o i t a t i o no fa c t i o ns e l e c t i o na n dS Oo n I no r d e rt or e s o l v et h e s ei s s u e s,Q-l e a r n
8、i n ga l g o r i t h mi sm o d i f i e di nt h i st h e s i s T h em a i nc o n t e n t so ft h et h e s i sa r et h ef o l l o w i n gf o u ra s p e c t:1 S o m ec l a s s i c a lm o d i f i e dQ-l e a r n i n ga l g o r i t h m sa r es u m m a r i z e da n dt h e i rs h o r t c o m i n g sa r ed i
9、 s c u s s e d,t h e nS A-F Q La l g o r i t h m,an e wm o d i f i e dQ-l e a r n i n ga l g o r i t h mi sp r e s e n t e db a s e dt h e m F o ra c c e l e r a t i n gt h el e a r n i n gp r o c e s s,t h ep r i o rk n o w l e d g ei se m b e d d e di n t ot h ef u z z yr u l e si nt h ep r o p o
10、s e da l g o r i t h m T h e v a l u eo ft h ee-g r e e d yp o l i c yi sa 由u s t e db yc h a n g i n gt h et e m p e r a t u r ei nt h ea l g o r i t h m,a n dt h e nt h eb a l a n c eb e t w e e ne x p l o r a t i o na n de x p l o i t a t i o ni sa c h i e v e d2 An e wo p t i m i z i n gm e t h
11、o df o ra r e at r a f f i cc o n t r o lw h i c hb a s e do nS A-F Q La l g o r i t h mi sp r o p o s e d T h ec o m m o nc y c l eo ft h et r a f f i cn e t w o r ki so p t i m i z e db yu s i n gS A F Q La l g o r i t h m,a n db a s e do nt h ec o m m o nc y c l et h eo f f s e to fe a c ha r t e
12、 r i a li nt h en e t w o r ki so p t i m i z e db yu s i n gt h es a m ea l g o r i t h m F i n a l l y,t h es p l i to fe a c hi n t e r s e c t i o ni sa d j u s t e da c c o r d i n gt oi t st r a f f i cv o l u m e 3 T h en e wm e t h o di ss i m u l a t e db yT S I Ss i m u l a t i o ns o f t
13、w a r e R e s u l t ss h o wt h a Lc o m p a r e dw i t ht h em e t h o db a s e do nF u z z yQ L e a r n i n ga l g o r i t h ma n dt h em e t h o db a s e do nQ L e a r n i n ga l g o r i t h m,t h ep r o p o s e dm e t h o dc a r ls i g n i f i c a n t l ya c c e l e r a t el e a r n i n ga n di
14、m p r o v et r a f f i ce f f i c i e n c y K e yW o r d s:a r e at r a f f i cc o n t r o l;S A-F Q La l g o r i t h m;Q-L e a r n i n ga l g o r i t h m;T S I S本人声明我声明,本论文是自己在导师的指导下独立完成的,论文中用到的一切资料均在参考文献中列出。作者:邓军签名:睁0 2 0 0 9 年6 月3 n五邑大学硕士学位论文1 1 课题来源和研究背景第一章绪论本课题来源于广东省高等学校自然科学重点研究项目城市区域交通控制信号智能体优
15、化配时技术研究及实现(0 5 2 0 2 5)、广东省自然科学基金项目结合流形学习和智能体强化学习的城市交通控制理论研究(8 1 5 2 9 0 2 0 0 1 0 0 0 0 1 4)和广东省自然科学基金项目城市交通流混沌模式的发现和预测(0 6 0 2 9 813)。近几十年来,交通需求的迅速发展与交通建设的相对滞后,已在世界范围内构成非常突出的矛盾,随之而来的交通问题日益引起各国的重视。不论是发达国家还是发展中国家,都存在交通拥堵、环境污染、交通事故等一系列问题。在英国一个大约具有1 0 0 个平面交叉口的城市内,每年由于车辆延误所造成的经济损失达到4 0 0 万英镑:而在东京的2 6
16、8 个主要平面交叉口中,由于低效率交通流所引起的经济损失约为2 亿美元每年:在巴黎,每天由于交通拥挤引起的损失时间相当于一个拥有1 0 万人口的城市的一天工作的时间。根据测算:如果一辆小汽车在7 k m h 和8 8k m h的速度之间加减速1 0 0 0 次,则比匀速行驶时多消耗燃油6 0 L,如果是卡车则多消耗燃油1 4 4 L t l l。在发展中国家,如泰国、印度尼西亚、印度、巴基斯坦、中国等,特别是中国和泰国,由于经济持续高速增长,交通拥堵问题更是突出。调查显示,我国多数城市中行车速度只能维持在1 0 k m h 至2 0 k m h 左右,有的甚至更低。我国一年因交通拥堵造成的经济
17、损失约1 7 0 0 亿元人民币。在中国,由交通产生的污染占总的噪声污染的9 0,占总的一氧化碳排放量的6 0,占总的氮氧化物排放量的5 0 和占总的碳氢化合物的排放量的3 0。在泰国,由于机动车和私人小汽车拥有量迅速增加,市中心的车速急剧下降,平均只有3 k m h,有的甚至只有1 2 k m h。而因交通堵塞,泰国每年的经济损失高达4 0亿美元【2,3 1。解决交通供需矛盾,最直接的办法就是加大交通设施建设,增加交通设施的容量。然而,交通设施建设需要耗费大量的时间、人力和物力,再加上现代城市的土地日益珍贵,使得这一方法的有效性大打折扣,另外交通设施建设的增长速度也远不及交通需求的增长速度。
18、以北京市为例,近1 5 年来,北京的汽车保有量每年平均递增率超过1 5,五邑大学硕士学位论文个别年份甚至接近2 0,而道路长度和道路面积的年平均增加率仅为1 2 和3 7 1 4 J。显然,单纯依靠增加交通设施建设是无法从根本上解决问题。因此,在解决交通问题中,除了加大交通设施建设外,提高交通控制和管理水平,合理高效地使用现有交通设施,尽可能充分地发挥其能力,是行之有效的方法。区域交通控制从整个系统的战略目标出发,根据交通量检测数据,协调区域内各路口的交通信号配时,能够从整体上调整交通需求,提高通行能力,改善道路交通管理与服务水平,很有必要对其进行深入地探索研究。1 2 国内外研究现状1 理论
19、研究文献【5,6】将大系统理论引入区域交通控制领域,其思想是将交叉口车辆排队长度取为状态变量,绿信比为控制变量,把各交叉口间的道路处理为纯延时环节,建立整个交通网络模型,从而在模型的基础上求得最优控制方案。然而,交通系统复杂多变,难以建立其准确的数学模型。而且,基于模型的控制算法计算量巨大,不适合在线控制。智能控制的方法因其具有较强的非线性逼近能力,且不依赖精确的数学模型,为区域交通控制提供了许多有益的新思想和新方法。文献【7 提出一种基于人工神经网络的区域交通自适应控N(s-T R A C)方法。该方法对纽约市曼哈顿中心商业区的9 个路口进行实际仿真,表明算法是有效的。文献【8 在城市交通干
20、线的协调控制中采用神经网络映射模糊关系,提高了模糊控制器的控制精度。文献【9 提出了一种基于遗传算法的交通信号配时优化方法,它综合了基于延误模型和基于带宽模型方法的优点,能够同时对周其长度、绿信比、相位差和相序进行优化。文献【1O】充分发挥混沌理论和遗传算法各自的优势,开发了混沌遗传算法,并将其成功地应用于区域交通计算机控制配时优化。文献【1 1 提出了一种基于改进免疫遗传算法的城市区域交通自适应协调控制方法。文献【1 2 1 5】将强化学-j 引入交通信号控制,取得不错的效果。文献1 1 6 提出了基于D y n a Q 学习算法的区域交通信号控制方法。文献【l7 将分布式Q 学-3 算法应
21、用到区域交通协调控制中,提出了一种适合于区域交通协调控制的奖惩函数和权值函数。文献1 1 8】用B P 神经网络实现Q 学习算法,利用Q 学习算法在线调整周期和相位差。人工智能理论在不断发展,智能控制方法在交通控制中的应用也在不断探索之中。2五邑人学硕上学位论文特别是在交通控制领域,对强化学习方法的研究才刚刚开始。2 实际系统1 9 6 3 年,加拿大多伦多市建立了一套由I B M 6 5 0 型计算机控制的交通信号协调控制系统。在此之后,美国、英国、澳大利亚、意大利、法国、德国、希腊等国家相继建成以计算机为核心的区域交通控制系统。区域交通控制系统的发展过程可用表1 1 表示。表1 1区域交通
22、控制系统的发展过程应用系统路口年份国别系统名称周期检测器城市特征数模拟计算1 9 5 2美国丹佛市机动态控多变气压式制数字计算】9 6 3加拿大多伦多机动态控多变电磁式制哥拉斯1 9 6 8英国T R A N S Y T静态控制多变环形线圈哥1 9 7 5美国华盛顿C Y R A N O动态控制多变环形线圈哥拉斯1 9 8 0英国S C O O T动态控制多变环形线圈哥1 9 8 2澳大利亚悉尼S C A T S动态控制多变环形线圈S P O T U T O P J1 9 8 5意大利都灵动态控制多变环形线圈A1 9 8 9法国图卢兹P R O D Y N动态控制多变环形线圈1 9 9 5德国
23、科隆M 0 1 1 0 N动态控制多变环形线圈1 9 9 6美国新泽西o P A C动态控制多变环形线圈1 9 9 6美国凤凰城R H O D E S动态控制多变环形线嘲19 9 7希腊C h a n i aT U C动态控制多变环形线陶五邑大学硕士学位论文我国对城市交通信号控制系统的研究起步较晚,到7 0 年代才开始。1 9 7 3 年,在北京应用T R A N S Y T 方法进行了线控实验。l9 8 6 年,我国将交通信号控制系统的研发列入了国家“七五”重点科技攻关项目。1 9 9 0 年以后国内先后有很多企业介入了交通信号控制系统的研发。但是,国内交通控制公司大多集中在开发交通信号控制
24、器上,比较典型的有上海交大的M I C T C 型路口信号控制器、南京多伦科技有限公司的D P S 1 6 型交通信号控制器,青岛海信的S C l 0 0、S C 2 0 0 系列交通信号控制器,北京亿阳的E H L S T C】6 2 0 交通信号控制器,哈尔滨新中新的2 0 0 0 I 交通信号控制器,西北工大的X A T M V 型智能交通信号控制器等。在实际应用中,上述公司以交通信号控制器为主来构造交通信号控制系统,大多采用单点定时控制,基本没有干线协调功能,未实现区域控制功能,局部应用于中小城市;同时我国自主研发的交通信号控制器在可靠性、兼容性、扩展性、灵活性等方面还有待进一步改进完
25、善。目前,国内还是以引进和消化国外交通信号控制系统为主。国内3 0 余个大城市全部是引进国外的交通控制系统,应用情况如下:其中S C O O T 系统在北京、大连、成都、青岛投入使用,S C A T S 系统在上海、广州、沈阳、宁波、杭州投入使用,长春和郑州引进的是西班牙的S a n c o 交通控制系统,深圳则使用的是日本的京三系统。但是这些系统在国内使用存在着不适合我国混合交通流特点、核心技术不公开、不0 6-次开发等缺点。1 3 课题研究的意义在一个区域或整个城市范围内,一个路口交通信号的调整将会影响相邻路口的交通流;而相邻路口交通信号的改变也会影响本路口交通状况。因此,从整个系统的战略
26、目标出发,根据交通量检测数据,在宏观的角度对区域内各路口的交通信号进行协调,能够取得整体最优的效果。而这种效果是交通信号单点控制所不能获得的。具体来说,研究有效的区域交通控制方法的意义表现在以下几个方面。(1)减少交通事故,增加交通安全对交通实施控制可以把发生冲突的车流和行人从时间和空间上分离,从而减少交通事故的发生。(2)缓和交通拥挤,提高交通效益合理进行交通控制可以对交通流进行有效的引导和调度,使交通流保持在一种平稳的运行状态,从而避免或缓和交通拥挤状况,大大提高交通运输的运行效益。4五邑大学硕士学位论文(3)降低污染程度,节省能源消耗实施交通控制可以减少汽车的停车次数,并使车辆在较佳的状
27、态下运行,从而可以减少尾气污染和能源消耗。1 4 论文内容及组织本文内容及组织如下:第一章介绍本课题的研究背景、研究意义和国内外的研究现状。第二章概述了区域交通控制理论,阐述了区域交通控制的基本方法和几种经典的智能控制算法,着重介绍了Q 学习算法,并分析了其存在的问题。第三章研究了目前几种常见的Q 学习改进算法。最后,在这些算法的基础上提出了一种新的Q 学习改进算法一S A F Q L 算法。第四章研究S A F Q L 算法在区域交通控制中的应用,提出一种基于S A F Q L 算法的区域交通控制方法。第五章介绍了交通仿真技术的发展、应用和分类,特别介绍了著名的交通仿真软件T S I S 及
28、其R T E 接口程序的架构,最后对第四章所述的方法进行了仿真实验。第六章对本文的主要研究工作进行总结,并展望下一步的研究工作。5五邑大学硕士学位论文第二章区域交通控制理论与方法2 1 区域交通控制概述区域交通控制系统是将城市或城市的某个区域中的所有交叉口的交通信号作为控制对象,对整个区域各个交叉口的交通流进行统一的协调控制。区域交通控制系统是随着交通控制理论的不断发展,通讯、检测、计算机技术在交通控制领域的广泛使用而发展起来的。早期的区域控制系统着重于对周期、绿信比和相位差等交通信号参数进行最优控制。现代的交通控制系统则是多种技术的综合体。它包括车辆检测、数据采集与传输、信息处理与显示、信号
29、控制与优化、电视监视、交通管理与决策等多个组成部分。区域控制系统可实施城市交通运输的策略、提高现有道路的交通效率、改善道路交通安全、节省能源消耗、减少环境污染、收集交通数据、提供交通情报、为整个社会提供综合的经济效益。实践证明,区域交通控制系统是解决城市交通问题的重要措施,它具有投资少、效率高、见效快且有效面广的优点。可以从不同角度对现有的区域交通控制系统进行分类。1 按控制策略分类,区域交通控制系统可以分为定时式脱机操作控制系统和感应式联机操作控制系统两大类。(1)定时式脱机操作控制系统这种系统是利用交通流历史及现状统计数据进行脱机优化处理,得出多时段的最优信号配时方案,存入控制器或控制计算
30、机内,对整个区域交通实施多时段定时控制。定时控制简单、可靠且效益投资比高,但不能适应交通流的随机变化,特别是当交通流量发生变化,并与优化计算当时的交通流量差别较大时,控制效果将明显下降。重新制定优化方案时,做交通调查及进行优化计算将消耗大量的人力。(2)感应式联机操作控制系统这种系统是一种能够适应交通量变化的自适应控制系统,此系统在控制区域交通网中设置检测器,实时采集交通数据并实施联机最优控制。自适应控制系统结构复杂、投资高、对设备可靠性要求高,但能较好地适应交通流的随机变化,对交通流特性变化较大的城市,将提高控制效益。6五邑大学硕士学位论文2 按控制方式不同,区域控制系统可分为方案选择与方案
31、形成两类。(1)方案选择方式对应于不同的交通状况,事先做好各类交通控制方案和相应的控制参数并存储在计算机内,按实时采集的交通流数据,选取最合适的交通控制方案与控制参数,实时动态交通控制。(2)方案形成方式根据实时采集的交通流数据,实时计算最佳交通控制参数形成控制方案,实施动态交通控制。3 按控制结构不同,区域控制系统可分为集中式与分布式控制结构两类。(1)集中式控制结构将网络所有信号连接起来,用一台小型计算机对整个系统进行集中控制。其原理、结构均较简单。其优点是:a 全部控制设备只位于一个中心;b 系统的研制和维护不太复杂;C 所需设备较少,维护容易。其缺点是,大量数据的集中处理及整个系统的集
32、中控制,需要庞大的通信传输系统和巨大的存储容量,极大地影响了控制的实时性,并限制了集中控制的区域范围。(2)分层式控制结构把整个控制系统分成上层控制与下层控制,上层控制主要接受来自下层可知的决策信息,并对这些决策信息进行整体协调分析,从全系统战略目标考虑修改下层可知的决策;下层控S U 贝,U 根据修改后的决策方案,再作必要的调整。上层控制主要执行全系统协调优化的战略任务,下层控制则主要执行个别交叉口合理配时的战术控制任务。这种结构可以避免集中结构的缺点,且可有降级控制的功能,提高了系统的系统可靠性,但需增加设备,投资较高。分层多级控制一般分为三级。第一级位于交叉口,有信号控制机控制,包括以下
33、功能:a 监视检测器;b 监视设备故障;c 汇总检测器数据:d 把有关交通流和设备性能的数据传送到第二级控制:7五邑大学硕上学位论文e 接受上级下达的指令操作。第二级位于所控制区域内的一个比较中心的地点,功能包括ta 监视从第一级控制传输来的交通流和设备性能的数据,并将其传输至第二级控制中心;b 操纵第一级控制,决定要执行的控制类型,选择控制方法并协调第一级控制。第三级位于城市内的一个合适的中心位置起一种指挥控制中心的作用。此中心可监视城市内任一信号交叉口的交通,接收、处理有关实时交通流数据,并提供监视、显示和控制设备。此外,控制中心能接收有关设备故障的情报,以便采取相应的措施。多级控制的优点
34、是:a 通过数据的预处理和集中传输,能减少传输费用;b 由于系统不依赖于一个中心控制或集中的传输机构,系统具有较高的故障保护能力,提高了系统的可靠性;c 能实时处理单元的容量较大;d 控制方法和执行能力比较灵活。多级控制的缺点是:a 需要的设备多,投资高;b 现场设备的维护比较复杂;c 控制程序较复杂;d 需提供更多的控制地点。在控制模型及算法上,当前的控制系统大部分是在正常交通条件即未饱和的交通条件下设计的。有的方案以降低延误、行程时间为目标;有的方案以减少停车次数为目标;有的则以提高路网通行能力为目标等。超饱和交通条件下的控制方案,近年来一直是国际上的重要研究课题,虽已出现了一些控制模型,
35、但均未付诸实用。2 2 基本控制方法2 2 1 定时控制定时控制是实际交通中可以实现的最基本的控制方式,也是使用最广泛的一种控制方式,它可以根据不同的日期类型以及一天中不同时间段内交通流的不同特点,制定一五邑大学硕士学位论文种或几种信号控制方案,预先安装在信号控制机内,由系统时钟按设定的时间表进行控制。在定时控制中,所有控制参数均是根据交叉路口一定时问的交通流量数据预先确定。信号控制中,一天只能执行一种配时方案的称为单时段定时控制:一天按不同时段的交通流执行不同配时方案的称为多时段定时控制。这种控制方式比较适合于交通流比较稳定的交通路段,具有造价低、易于实现等优点,其主要缺点是它不能适应交通流
36、的随机变化,只要信号参数一旦确定,就不会随着交通流的变化而调整,因此它不能满足实际交通需求。2 2 2 感应控制感应控制的基本原理是首先检测某车道是否有车辆到达,然后再决定是否给该车道开绿灯。感应控制从实施方式来看可以分为两种,一种是半感应控制,即在交叉口处将检测器安装在次干道上,根据次干道的交通需求进行信号控制;另一种是全感应控制,即在交叉口的所有入口道上均安装检测器,根据所有入口道的交通需求进行信号控制。1 半感应控制半感应控制是在交叉口的次干道的两个入口道上安装车辆检测器,并使用两相位信号进行控制。主干道上没有安装车辆检测器,因此,主干道通行的信号相称为非感应相,而次干道通行的信号相称为
37、感应相。半感应控制在工作时,主干道信号灯总维持绿灯信号,次干道总是红灯,只有次干道能检测到车辆到来时,其灯色才可能转换为绿色。非感应信号相通常要设置最小绿时,以免绿时太短发生交通事故。当次干道检测到有车辆到达时,必须等到主干道的最小绿时结束,才能把绿灯信号转移到次干道。因此,次干道要获得绿灯信号必须具备两个条件:检测器检测到车辆达到:主干道最小绿时已经结束。感应信号相要设置初始绿时、单位绿延时和最大绿时。当次干道获得通行权时,信号机首先给该信号相一个初始绿时,使已经到达的车辆通过交叉口。如果此后再无车辆到达,初始绿时一结束,通行权又转移到主干道;如果在初始绿时内检测到车辆到达,则次干道绿灯将延
38、长一个单位绿时;如果在此时间内又有车辆到达,就再延长一个单位绿时,直到累计时间达到最大绿时。此后,即使次干道检测到车辆到达,其绿时也必须结束,通行权转移给主干道。9五邑大学硕士学位论文半感应控制的信号配时比较简单,不需要进行复杂的计算,只要恰当地确定主干道最小绿时、次干道的初始绿时、单位绿延时和最大绿时即可。半感应控制的信号周期不再是固定不变的,它是随感应相次干道车辆的到达情况而变化的。2 全感应控制全感应控制在交叉口各入口道上均安装了车辆检测器,各信号相的绿灯时间由车辆检测器实时测得的各入口道上的交通需求来确定。因此全感应控制没有非感应相,这是与半感应控制的主要区别。与半感应控制的感应相类似
39、,全感应控制的每一信号相位均要设置初始绿时、单位绿延时和最大绿时等参数。2 3 智能控制方法由于交通控制系统的非线性、模糊性和不确定性使得传统的建模和控制方法难以奏效。近年来,随着计算机的广泛应用人工智能研究取得了极大的进展,为交通控制提供了新的思路。针对传统交通控制系统的固有缺陷和局限性,许多学者把人工智能中的模糊控制、人工神经网络、进化算法和Q 学习算法等实用技术应用到交通领域。2 3 1 模糊控制1 9 6 5 年,美国加州大学伯克莱分校的L A Z a d e h 教授发表了关于模糊集的开创性论文【】9】,从而奠定了模糊数学的基础。近4 0 年来,模糊理论及其应用的发展非常迅速。目前,
40、模糊理论已在自动控制、人工智能、图像识别、管理科学、气象预报等领域得到了广泛应用。模糊控制是模糊理论在控制领域中的应用,其核心是用语言描述的控制规则。人的手动控制策略是通过操作者的学习、试验以及长期经验积累而形成的,它可通过人的自然语言加以描述,如:若炉温偏高,则减少燃料;若水槽液位偏低,则加大进水流量;若路口某方向车辆排队较长,则加长绿时等等。显然,它属于一种语言控制。由于自然语言具有模糊性,故这种语言控制就称为模糊控制。为了实现模糊控制,需要将操作者或专家的控制经验和知识表示成语言变量描述的控制规则,然后用这些规则去控制系统,这就是模糊控制器。模糊控制器的工作过程如下:根据由精确量转化来的
41、模糊输入信息,按照手动控制策略获得的语言控制规则进行模糊推理,给出模糊输出判决,并再将其转化为精确量,馈送到被控对象。设计一个模1 0五邑大学硕士学位论文糊控制器必须解决以下三个问题:1 输入量、输出量的模糊化;2 建立模糊控制规则或模糊控制表;3 输出信息的模糊判决。模糊控制应用于交通控制,其一般结构如图2 1 所示。设图2 1模糊控制方框图量模糊控制需要将经验知识描述出来,构成知识库以便进行推理,然而区域交通控制是一个复杂的大系统,相互影响的因素很多,很难用一些定性的知识对此进行描述。因此,将模糊控制技术比较适合于单路口信号控制,而用于线控或面控比较困难。2 3 2 人工神经网络人工神经网
42、络是通过对人脑的基本单元神经元的建模和联结,来探索模拟人脑神经系统功能的类似生物脑或世界系统的网络模型,并研制一种具有学习、联想、记忆和模式识别等智能信息功能的人工系统。在人工智能技术中,人工神经网络技术试图以一定的程度和方式模拟人脑的细胞结构、神经结构和思维特征来获得近似于人类的思维能力,从而便于从海量的数据中提取有用的知识和处理很难用常规数学方法表达的信息处理过程。人工神经网络解决问题的方式与传统的统计方法完全不同,它是模拟人脑的思维,把大量的神经元连成一个复杂的网络,利用已知样本对网络进行训练,即类似于人脑的学习;让网络存储变量间的非线性关系,即类似于人脑的记忆功能:然后利用存储的网络信
43、息对未知样本进行分类或预测,即类似于人脑的联想功能。人工神经网络是一种智能化的数据处理方法,其优越性主要表现在以下几个方面:1 人工神经网络具有大规模的并行处理和分布式的信息存储能力,这特别适于实时五邑大学硕士学位论文控制和动态控制;2 人工神经网络具有固有的近似任意非线性映射能力,适于解决非线性问题;3 人工神经网络具有比较强的自学习能力,能够解决那些由数学模型或描述规则难以处理的控制过程问题;4 人工神经网络具有良好的容错性与联想记忆功能;5 人工神经网络具有高速寻找优化解的能力。在交通控制领域中,可单纯使用人工神经网络进行建模、学习和控制,也可以将其与其他方法结合。应用神经网络的效果完全
44、取决于其泛化能力,这就要求训练神经网络的学习样本具有遍历性且学习过程能够收敛到全局极值点,这在实际中往往是比较困难的。因此神经网络在交通信号控制中能够真正实用化还需要神经网络理论的进一步发展。2 3 3 遗传算法遗传算法是一类自组织、自适应、全局搜索和群体型的人工智能技术。它来源于自然界的生物遗传,优胜劣汰和适者生存的物种进化过程,其基本原理是由J H H o l l a n d于1 9 6 2 年首先提,m,f 2 0 j,其主要特点是群体搜索策略和群体中的个体之间的信息交换,搜索不依赖于梯度信息,模拟自然界生物群体进化过程来进行基于群体搜索的随机优化方法。遗传算法以一种群体中的所有个体为对
45、象,并利用随机技术指导对一个被编码的参数空间进行高效搜索。其中,选择、交叉和变异构成了遗传算法的遗传操作;参数编码、初始群体的设定、适应度函数的设计、遗传操作设计和控制参数设定等5 个要素组成了遗传算法的核心内容。遗传算法将问题的求解表示成“染色体”,一般用二进制码串表示,解的特定集合称为“种群”,解中的变量称为“基因”。将种群置于问题的“环境”中,根据适者生存的原则,从中选择出适应环境的“染色体”进行复制,通过交叉和变异两种基因操作产生出新一代更适应环境的“染色体”群,这样一代代不断地进化,最后收敛到一个最适应环境的个体上,从而求得问题的最优解。遗传算法具有以下优点:1 遗传算法以决策变量的
46、编码作为运算对象,对解决一些只有代码概念的优化问题具有独特的优越性:2 遗传算法直接以目标函数值确定搜索方向,可有效缩小搜索范围,从而提高搜索1 2五邑大学硕士学位论文效率;3 遗传算法从由很多个体所组成的一个初始群体开始最优解的搜索过程,同时使用多个搜索点的搜索信息进行搜索,减少了陷入局部最优解的风险,同时算法易于实现并行化;4 遗传算法使用概率搜索技术,能更有力地保证算法收敛于问题的最优解。当问题规模较大时,遗传算法收敛到极值点所耗费的时间较长,不利于区域交通控制的在线优化:另外,收敛速度对算法中参数的选择比较敏感,而参数的选择又与所解决的问题有关。上述问题限制了遗传算法在区域交通控制中的
47、应用。2 3 4Q 学习算法Q 学习算法是由W a t k i n s 2 1J 在1 9 8 9 年提出的一种基于无模型的强化学习算法,它也可以被看作为一种异步动态规划方法。Q 学习算法不用建立环境模型,它通过遍历所有可执行动作赋予智能体在马尔可夫环境中学习最优策略的能力。Q 学习算法的学习过程如下:智能体在某一确定状态下执行某一动作,评估执行这一动作后获得的立即奖赏或惩罚以及后续状态的估计值,即Q 值;重复执行所有状态下的所有可执行动作,得到每一种策略的长期折扣回报,比较各策略的回报就可以评判出最优策略。Q 值具体定义如下:Q(s,口)=E ,-+r m a x Q(s ,口)(2-1)口
48、E 月其中,E 为求期望,为状态J 下执行动作口后的立即回报,为折扣系数,工。为执行动作a 后的状态,a。为后续动作,A 为动作集。在Q 学习算法中,智能体对所有动作的遍历是由一个称作为幕(e p i s o d e)的序列组成。在第胛幕,智能体重复执行以下步骤:S t e p l:观测当前状态J。;S t e p 2:选择并执行一个动作a。;S t e p 3:观测下一状态Y。:S t e p 4:获得立即回报0;S t e p S:按照式2-2 更新9 值:1 3晰)=眷o 卜k 帆-l J 1 甜屯肌叫(2-2)其中,匕一。(y)量m 邳 Q 川(y,6)(2-3)在文献 2 2 1 q
49、 b,W a t k i n s 和P e t e rD a y a n 证明了Q 学习的收敛性,并指出Q 学习在下列条件下收敛:1 环境是M a r k o v 过程;2 用L o o k u p 表来表示Q 函数;3 对所有状态下的所有动作可多次重复实验;4 学习速率的正确选择。学习速率口应满足如下条件:0 口1口。(s,a)=o o(2-4),=l【(印)】2 -j 算法用L o o k u p 表存储Q 值,当状态动作空间非常大时,存储Q 值所花费的空间和遍历所有状态动作对所花费的时间都将变得难以接受,既维数灾难问题。B P 神经网络能够实现一个任意复杂非线性的输入到输出的映射功能且具
50、有较强的泛化能力,因此如果采用B P 神经网络来实现Q 学习算法则能很好地解决这个问题。用B P 神经网络实现Q 学习算法,其原理是利用B P 神经网络来逼近状态-动作对到Q 值的映射函数。具体做法为Q 学习算法的每个动作对应一个B P 神经网络,每个网络的输入为经过量化的环境状态矢量,输出为对应动作的Q 值,误差信号定义为式:A Q(s,a)=a r+y m a x Q(s ,a。)一Q(s,口)(3-1)口E 月通过调整网络的权值使误差尽可能小,从而得到最优策略的Q 值。算法结构如图3 2 所示。图3-2 基于B P 神经网络的Q 学习算法结构具体算法步骤如下:S t e p l:初始化B