[发明专利]一种基于深度循环Q学习的单点交叉口信号控制方法在审

申请号：	202010034436.8	申请日：	2020-01-11
公开（公告）号：	CN111243271A	公开（公告）日：	2020-06-05
发明（设计）人：	张伟斌;方亮亮;郑培余;陶刚;陈波;杨光;陈冰	申请（专利权）人：	多伦科技股份有限公司;南京理工大学
主分类号：	G08G1/01	分类号：	G08G1/01;G08G1/085;G08G1/056;G08G1/065;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	211112 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度循环学习单点交叉口信号控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度循环Q学习的单点交叉口信号控制方法，该方法在单个路口使用深度循环Q学习（DRQN）算法学习最优信号控制策略，其中DRQN算法在DQN的基础上引入LSTM神经网络，利用LSTM能够记忆时间轴信息的特性，通过结合交叉口前几个时刻的状态而非仅仅通过当前时刻的状态来全面地表示当前交叉口输入状态，从而减小交叉口POMDP特性对深度Q学习性能的影响，本发明改进后的DRQN算法性能优于DQN算法，也优于传统的交叉口定时控制方法；当交通流接近饱和和过饱和时，DRQN算法可以观察交叉口在各个时刻的状态，做出最佳的时机选择，从而提高交叉口通行效率。

技术领域

本发明涉及深度强化学习和交通信号控制技术领域，具体涉及一种基于深度循环Q学习的单点交叉口信号控制方法。

背景技术

随着经济的快速发展，城市交通拥堵问题变得非常严重，造成了巨大的经济损失，尤其是在中国。道路交叉口的短时交通需求具有时变性、非线性、复杂性等特征，很难建立起精确的数学模型，简单的定时控制、感应控制方法难以适应交通流量的动态、复杂、快速变化，控制效果不好。智能交通的发展，利用人工智能知识，加强对城市交通信号的有效控制，可以有效缓解城市拥堵。

近年来，随着深度学习的快速发展，深度强化学习作为一种新兴的技术应用于交通控制中，可以对简单的交通信号配时进行控制优化，但是对于传统的深度Q学习算法来说，虽然它可以利用神经网络去感知和学习其中有用特征，不需要人工提取特征，提升了状态表示的准确度，也解决了传统强化学习算法输入维度爆炸的问题，但是由于现实情况中传感器不准确，或者数据传输过程中丢失，都会导致实时状态值和真实值不一样，从而导致深度Q学习感知到的状态输入精度降低，从而影响算法性能。

发明内容

为了克服上述背景技术介绍中存在的不足，本发明的目的在于提供一种基于深度循环Q学习的交叉口信号控制方法，其能够结合交叉口前几个时刻状态，解决因时间轴导致的部分可观测，并且可以减少数据缺失带来的影响，本发明能够降低交叉口部分可观测马尔可夫性对深度Q学习算法性能的影响，很好适用于实际交叉口的信号控制。

本发明公开了一种基于深度循环Q学习的单点交叉口信号控制方法，包括步骤如下：

步骤一：确定需要优化控制的交叉口，并获取交叉口一段时间内的真实交通流数据；

步骤二：根据实际交叉口道路信息，利用sumo仿真软件建立微观交通仿真环境，输入实际道路中采集的流量数据并生成交通需求文件用于智能体(agent)训练；

步骤三：定义深度强化学习agent的状态集、动作集和奖励函数，同时设定神经网络框架结构和定义神经网络参数，其中，状态集包括车辆位置和车速等信息，动作集四种信号灯相位和持续时间的选择；

步骤四：初始化神经网络参数和交叉口状态，通过深度强化学习agent的不断训练，得到最优信号配时策略。

进一步地，所述步骤一中的交通流数据为某特定时间段每隔2分钟的车流量数据，数据格式为视频数据。

进一步地，所述步骤二中的交叉口微观交通仿真环境包括：交叉口车道数、进口道长度、渠化、相位组成、交叉口车流量、车流组成、车流转向。

进一步地，所述步骤三中状态集包含车辆位置和车速信息，动作集包含四种信号灯相位和持续时间的选择。

进一步地，所述步骤三具体包括：将仿真时的车辆位置、速度和加速度的信息转换为矩阵图，在已知车道长度为d的情况下，从停车线起划分单元网格；此时若有车占据某一网格，在平面矩阵中将此位置标为1，若某网格中没有车，则标为0，即可得到位置矩阵，从而得到速度矩阵和加速度矩阵：

A＝{NSA，NSLA，EWA，EWLA}