[发明专利]一种优化信号交叉口排队长度的在线学习方法无效
申请号: | 201210554601.8 | 申请日: | 2012-12-20 |
公开(公告)号: | CN103077615A | 公开(公告)日: | 2013-05-01 |
发明(设计)人: | 卢守峰;刘喜敏 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G08G1/07 | 分类号: | G08G1/07 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410076 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 优化 信号 交叉口 排队 长度 在线 学习方法 | ||
技术领域
本发明属于交通技术领域,涉及一种优化信号交叉口排队长度的在线学习方法。
背景技术
人工智能是现代科学技术领域的一个重要方向,是实现系统智能化、提高系统性能的重要手段。人工智能方法是一个横断技术,可以应用于各个学科领域。在道路交通信号控制领域,现有技术采用的是20世纪60年代至80年代的科学技术,这些技术在处理庞大的状态空间和解空间问题上具有很大的局限性。城市道路交叉口信号配时涉及庞大的状态空间和解空间,现有技术对交叉口信号配时问题作了诸多简化。城市路网交通拥堵是近些年国内外大中城市面临的一个难题,经常出现车辆排队至上游路口造成路网死锁的严重拥堵情况。以排队长度为优化目标应对我国机动车保有量井喷式增长具有重要的理论价值和现实意义。目前城市交叉口信号配时技术的智能化程度较低,不能够从经验中改善系统性能,对系统经历过的状态无记忆性。风险敏感的强化学习技术为交通信号控制的智能化提供了一个途径,适合交通信号控制的无导师学习、动态学习、在线学习的特点。
交通信号控制的现有技术主要有三种:Transyt系统采用历史数据优化配时方案,SCOOT系统采用检测器数据优化配时方案,优化方法均为爬山法,SCOOT系统可称为Transyt系统的实时在线版本。SCATS系统采用“投票”法优化配时方案。其中Transyt系统和SCOOT系统以延误、排队长度、油耗的综合指标为优化目标,SCATS系统以绿灯时间等饱和度为优化目标。Transyt系统和SCOOT系统的技术方案是建立一个交通流运动的仿真模型,通过计算各比选配时方案的指标值,确定新的配时方案。采用小步距调整的方法寻求局部最优解,解空间很小,如当前方案、当前方案加4秒、当前方案减4秒。
SCATS系统没有使用仿真交通的数学模型,采用以实时交通数据为基础的算法,用于实时方案选择。根据车辆检测装置所提供的实时交通量数据和停车线断面在绿灯期间的实际通过量,算法选择子系统内各交叉口共用的信号周期长度、各交叉口的绿信比及绿灯起步时距。SCATS系统要求事先利用脱机计算的方式为每个交叉口拟定四个可供选用的绿信比方案、五个内部绿灯起步时距方案、五个外部绿灯起步时距方案。绿信比方案的选择与信号周期的调整交错进行,两者结合起来,对各相位的绿灯时间不断调整的结果,使各相位饱和度维持大致相等的水平,即“绿灯时间等饱和度”原则。
近几年来,国内外学者对采用强化学习方法建立信号配时优化技术进行了一定的尝试。采用基于环境检测的强化学习方法对噪音环境下的配时优化进行了研究,噪音环境主要指驾驶员行为和流量需求波动,该文通过检测环境的改变来学习动态的流量模式,自动对流量模式进行识别,执行对应的策略,跟踪环境转换的预估误差和奖励。研究了一种基于近似动态规划的自适应交通信号实时控制算法,具体地利用线性近似函数代替动态规划中的值函数,其中线性近似函数的参数由时间差分强化学习和扰动强化学习两种方法在线学习,结果表明极大地提高了模型的计算效率,而且模型优化的时间步长越小性能越优。研究了基于“车辆投票”的强化学习优化模型,通过估计每个车辆的等待时间决定配时方案,结果表明优于固定信号配时模型。建立了基于Q学习模型的配时优化模型,需要对状态集中所有连续状态进行描述,计算时间随着车道数量和交叉口数量指数增加,限制了该模型只能用于小型路网。随后,基于函数近似的强化学习算法对信号配时优化进行了研究,提出了基于特征的状态描述方法,将状态离散为低、中、高三个区间,解决了状态一行为对的维数灾难问题。使用神经网络调整模糊交通信号控制器的成员函数,使用强化学习评估神经网络采用的行为的效用,改进了模糊控制的效果。将Agent与经验知识和Q学习算法相结合,研究单个路口的动态配时问题。采用Q学习方法以减少延误为目标对单路口进行信号配时的优化,并应用模糊控制规则改善信号控制,研究结果表明该方法优于定时控制、感应式控制。将Q学习及BP神经元网络应用于切换式的信号控制优化,结果表明该模型能够感知交通流变化,并能够自适应控制,比定时控制相比具有明显的优势。
总体上说,现有技术中建立基于强化学习的交通控制模型的做法是不考虑周期的概念,在每个时间步判断各相位的放行权是否切换;没有和传统的交通控制优化目标进行结合,建立的优化目标的可行性没有被验证;而且这些方法都是基于风险中立的强化学习方法,优化的过程中没有考虑车辆到达的随机波动,只能先离线学习获得初始强化学习矩阵,然后再在线应用,在优化的实时性和动态性方面具有一定的局限。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210554601.8/2.html,转载请声明来源钻瓜专利网。