[发明专利]一种基于强化学习的交通信号灯控制方法及系统在审
申请号: | 202110644486.2 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113380054A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 罗娟;郑燕柳 | 申请(专利权)人: | 湖南大学 |
主分类号: | G08G1/07 | 分类号: | G08G1/07;G08G1/01;G06N20/00 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 交通 信号灯 控制 方法 系统 | ||
1.一种基于强化学习的交通信号灯控制方法,其特征在于,包括以下几个步骤:
步骤1:建立信号灯控制Agent模型;
步骤2:建立包含道路交叉口、道路、信号灯的路网模型;
步骤3:构建基于强化学习的交通信号灯控制三要素状态空间State,动作空间Action以及奖励函数Reward;
所述状态空间State包含车辆位置、速度和当前信号灯相位;所述动作空间Action表示信号灯控制Agent模型执行的信号控制动作集合;所述奖励函数Reward表示信号灯控制Agent执行信号控制动作,按照设置的信号灯切换策略进行信号灯相位切换后得到的奖励函数值R;
步骤4:构建基于DQN的信号灯控制网络模型;
输入信息为路网当前状态,输出信息为两种动作的Q值;所述Q值是指基于Q-Learning算法对所述Agent执行动作得到的奖励值的评估值;
步骤5:基于DQN的信号灯控制网络模型;
所述基于DQN的信号灯控制模型利用Q值的计算值与Q值的预估值之间的均方差作为损失函数,利用回放Replay机制和目标网络对所述卷积神经网络中的参数进行训练与更新;
步骤6:信号灯控制Agent选择Q值较大的动作,决策信号灯相位,输出交通信号灯的信号控制策略。
2.根据权利要求1所述的方法,其特征在于,基于当前时刻所述Agent的状态空间st和执行动作at,以及Agent执行完动作at得到的Q值,按照以下公式获得下一个时刻的Q值的计算值Q(st+1,a')和预估值TargetQ;
Q(st+1,a')=Q(st,at)+α[rt+γ×maxa'{Q(st+1,a';θ')}-Q(st,at)]
TargetQ=rt+γ×maxa'{Q(st+1,a';θ')}
其中,rt是t时刻的真实奖励,γ是折扣因子,表示未来动作对当前的状态的影响程度;a'是Agent学习中下个时刻执行的某个动作;st+1是Agent执行动作a'之后环境进入的新状态;Q值的初始值为0,θ'是Agent基于当前时刻所述Agent的状态st和执行动作at进行自我学习后,基于DQN的信号灯控制网络模型的参数向量。
3.权利要求1所述的基于强化学习的交通信号灯控制方法,其特征在于:所述交通信号灯相位设有8个,分别为:p1仅南北通行,南北向的左转与直行信号灯均为绿灯;p2仅南北通行,南北向的左转信号灯为绿灯,直行信号灯为黄灯;p3仅南北通行,南北向的左转信号灯为绿灯,直行信号灯为红灯;p4仅南北通行,南北向的左转信号灯为黄灯,直行信号灯为绿灯;p5仅东西通行,东西向的左转与直行信号灯均为绿灯;p6仅东西通行,东西向的左转信号灯为绿灯,直行信号灯为黄灯,p7仅东西通行,左转绿灯直行红灯;p8仅东西通行,东西向的左转信号灯为黄灯,直行信号灯为绿灯。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110644486.2/1.html,转载请声明来源钻瓜专利网。