[发明专利]一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法有效

专利信息
申请号: 201910011893.2 申请日: 2019-01-07
公开(公告)号: CN109559530B 公开(公告)日: 2020-07-14
发明(设计)人: 葛宏伟;宋玉美 申请(专利权)人: 大连理工大学
主分类号: G08G1/081 分类号: G08G1/081;G06N3/04
代理公司: 大连理工大学专利中心 21200 代理人: 刘秋彤;温福雪
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 迁移 深度 强化 学习 交叉口 信号灯 协同 控制 方法
【权利要求书】:

1.一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,其特征在于,包括如下步骤:

步骤1:将一个区域的交通网络建模为多Agent系统,每个交叉口由一个Agent控制,每个Agent包括一个经验池M、一个估计网络和一个目标网络组成,分别初始化估计网络和目标网络的参数θi和θi′,初始化每个经验池;

步骤2:对进入交叉口的所有道路上的车辆进行离散状态编码,对于某个交叉口i,将从停车线开始长度为l的道路k划分为长度c的离散单元,将交叉口i的道路k的车辆位置和速度记录为车辆位置矩阵和车辆速度矩阵当车辆头部在某个离散单元上时,则车辆位置矩阵对应的位置值为1,否则值为0;将车辆速度与道路限制的最大速度归一化后的值作为速度矩阵对应单元格的值;对于每条进入交叉口i的车道,相应的都有一个位置矩阵和一个速度矩阵对于第i个交叉口,所有车道的和组成交叉口i的位置矩阵Pi和速度矩阵Vi;在t时刻,Agent观察到第i个交叉口的状态为其中Si表示第i个路口的状态空间;

定义第i个交叉口的动作空间Ai,即第i个交叉口的所有可切换信号灯相位;

定义奖赏函数r为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度的变化;计算公式为:

其中,和分别为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度;

步骤3:在每个时间步t,将第i个交叉口当前状态输入第i个Agent的估计网络,估计网络自动提取交叉口的特征并估计各个动作对应的Q值,Agent根据估计网络输出的各个动作对应的的Q值,依据ε-贪心策略,以概率1-ε选择最大的Q值对应的动作,即否则在动作空间中随机选择一个动作然后Agent执行选择的动作动作停留时间为τg,交叉口进入下一个状态Agent根据公式(1)计算奖赏其中,ε的初始值为1,呈线性递减;

步骤4:将各Agent的经验存入Agent对应的经验池M中;其中,表示t时刻第i个Agent的估计网络输出的所有动作的Q值;

步骤5:从经验池M中随机采样m条经验,采用RMSProp梯度下降算法更新估计网络参数θi,损失函数为

其中,γ为学习率;a′为动作空间中可选的某个动作;N是第i个Agent的邻居集合,j为其中的某个邻居Agent,Aj为第j个Agent的动作空间,为第j个Agent在t-1时刻的状态,为邻居j最近时刻的最优Q值;

步骤6:令

步骤7:重复T次步骤3至步骤6;

步骤8:更新目标网络的参数θi′=θi,ε值递减直至值为0.1;

步骤9:重复步骤3至步骤8,定时计算一次车辆平均排队长度L,当L连续3次非递减且相邻的L差值小于0.02时,则多交叉口协同网络训练完成;

步骤10:多交叉口协同网络训练完成后,在每个时间步t,将第i个交叉口的当前状态输入第i个Agent的估计网络,各Agent的估计网络输出各个动作对应的Q值,Agent以概率1-ε选择最大的Q值对应的动作,即否则在动作空间中随机选择一个动作Agent执行动作

2.根据权利要求1所述的一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,其特征在于,所述估计网络和目标网络均为卷积神经网络,均包含4个隐层,第一个卷积层由16个4×4的滤波器组成,步长为2;第二个卷积层由32个2×2的滤波器组成,步长为1;第三层和第四层是两个全连接层,分别由128和64个神经元组成;四个隐层都采用Relu非线性激活函数,然后将网络的输出值再作为最后的输出层的输入,输出层采用softmax激活函数,其中输出层的神经元个数与对应交叉口的动作空间大小相等。

3.根据权利要求1或2所述的一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,其特征在于,所述步骤九中的定时计算一次车辆平均排队长度L,设置为50小时计算一次车辆平均排队长度L。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910011893.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top