[发明专利]一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法有效
申请号: | 201910011893.2 | 申请日: | 2019-01-07 |
公开(公告)号: | CN109559530B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 葛宏伟;宋玉美 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G08G1/081 | 分类号: | G08G1/081;G06N3/04 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 刘秋彤;温福雪 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 深度 强化 学习 交叉口 信号灯 协同 控制 方法 | ||
本发明提供一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,属于机器学习与智能交通的交叉领域。本方法首先将一个区域的多交叉口交通网络建模为多Agent系统,各个Agent在学习策略过程中同时考虑最近时刻的相邻Agent动作的影响,使得多个Agent能协同地进行多交叉口的信号灯控制。每个Agent通过一个深度Q网络自适应控制一个交叉口,网络输入为各自对应路口的原始状态信息的离散交通状态编码。在其学习过程中将最近时刻相邻Agent的最优动作Q值迁移到网络的损失函数中。本方法能够提升区域路网的交通流量,提高道路的利用率,减少车辆的排队长度,缓解交通拥堵。该方法对各交叉口结构无限制。
技术领域
本发明属于机器学习与智能交通的交叉领域,涉及一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法。
背景技术
交通拥堵问题已成为城市交通面临的迫切挑战,然而现存的基础道路设施由于空间、环境和经济方面的限制难以扩张。因此,交通信号灯的优化控制是解决这一问题的有效途径之一。通过信号灯的自适应控制,能够优化区域道路网络的交通,减少拥堵及二氧化碳的排放。
目前,不同的机器学习方法已被用于城市交通信号灯控制的研究,主要包括模糊逻辑、进化算法和动态规划。基于模糊逻辑的控制通常依据专家知识建立一组规则,再根据交通状态选择近似的信号灯相位。然而,由于规则的制定过分依赖于专家知识,对于拥有大量相位的多交叉口,获得一套有效的规则更为困难。遗传算法和蚁群算法等进化算法,由于其较低的搜索效率,在应用于大规模的交通协同优化控制时,难以满足交通信号灯决策的实时性要求。动态规划难以建立有效的交通环境模型,难以解决计算成本和计算环境转移概率的问题。
交通信号灯控制实际上是一个序列决策问题,很多研究利用强化学习的框架来寻求最优控制策略。强化学习通过感知环境状态并从中获得不确定奖赏来学习由Agent组成的动态系统的最优行为策略。该方法将学习视为一个试错的过程,如果Agent的某个行为策略导致环境正的奖赏(强化信号),那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的累积奖赏最大。
强化学习方法在单路口和区域多路口信号灯控制方面已有大量应用。对于多路口的信号灯控制,主要有集中式控制和分布式控制两种方式。集中控制利用强化学习训练一个单独的Agent控制整个道路网络,在每个时间步Agent对道路网络的各交叉口信号灯相位进行决策。然而,集中控制由于状态空间和动作空间会随着交叉口的线性增加而指数增长,导致状态空间和动作空间的维度灾难;分布式控制将多路口信号灯控制问题建模为多Agent系统,其中每个Agent负责控制一个单路口的信号灯。Agent通过单个路口的局部环境进行决策的方式易于扩展到多交叉口。
传统的强化学习通过人工提取的路口特征来表示状态空间。为避免状态空间过大,通常都简化状态表示,往往忽略了一些重要信息。基于强化学习的Agent通过对周围环境的状态观察进行决策,如果丢失重要的信息,Agent难以做出对真实环境最优的决策。例如,仅利用道路上车辆排队长度表示状态空间忽略了正在移动的车辆以及车辆的位置、速度等信息;而仅利用平均车辆延迟只反映了历史交通数据,忽略了实时交通需求。这些解决状态空间过大的方法没有充分利用交叉口的有效状态信息,导致Agent所做的决策是基于部分信息的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910011893.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人行横道的车辆指挥系统
- 下一篇:物联网交通管理控制系统