[发明专利]基于启发式深度Q网络的交通灯控制方法有效

专利信息
申请号: 202010546010.0 申请日: 2020-06-16
公开(公告)号: CN111696370B 公开(公告)日: 2021-09-03
发明(设计)人: 方敏;徐维;刘超;葛领驰;陈博 申请(专利权)人: 西安电子科技大学
主分类号: G08G1/07 分类号: G08G1/07;G06K9/62;G06N3/04;G06N3/08
代理公司: 陕西电子工业专利中心 61205 代理人: 王品华;黎汉华
地址: 710071*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 启发式 深度 网络 交通灯 控制 方法
【权利要求书】:

1.一种基于启发式深度Q网络的交通灯控制方法,其特征在于,包括如下:

步骤1:读取城市交通路网信息,建立各个路口的车辆交通状态集合Ti,并将读取的城市交通路网信息转换为邻接矩阵进行存储;其中,建立各个路口的车辆交通状态集合Ti,实现如下:

1a)根据交通路网信息构建路口交通信号控制器的集合I:

I={agent0,…agenti,…agentn},

其中agenti表示第i个路口的交通信号控制器,i∈[0,n],n为路网中的路口数;

1b)根据中国的道路交通规则建立路口信号控制器agenti的动作集Ai

Ai={a1,a2,a3,a4},

其中a1表示南北方向的直行或右拐,a2表示东西方向的直行或右拐,a3表示南北方向的左拐,a4表示东西方向的左拐,路口信号控制器agenti在同一时刻只能选择一组信号灯相位方向;

1c)根据城市交通路网信息构建第i个路口的驶入车道集合Li,驶入车道集合Li中的一条驶入车道为li,li∈Li

1d)根据中国的道路交通规则构建第i个路口的信号灯集合TLi,驶入车道li上的信号灯为tli,tli∈TLi,该信号灯仅考虑红灯和绿灯;

1e)根据路网中车辆信息构建第i个路口的车辆状态集其包含车辆所处车道的信号灯tli、所处位置p以及目的地d信息,并用三元组[tli,p,d]表示;

1f)根据交通信号控制器的集合I、路口信号控制器agenti的动作集Ai、驶入车道集合Li、信号灯集合TLi和车辆状态集建立第i个路口的车辆交通状态集合Ti

同理,可以建立路网中所有路口的车辆交通状态集合;

步骤2:从步骤1建立的各个路口车辆交通状态集合中,获取各个路口不同时刻的信息,该信息为状态集、动作集和动作奖励值;

步骤3:根据步骤2获取的信息和步骤1中的邻接矩阵,利用启发式深度Q网络方法实现对城市路网交通灯进行控制:

3a)初始化第i个路口的评估网络参数θi=1和目标网络参数θi-=1,初始化学习率α=0.05,折扣因子γ=0.99,ε贪心策略中的ε初始为1迭代递减至0.01,采样间隔batch=32,目标网络更新步长C=50,仿真时间t的初始值为0,初始化第i个路口的奖励rti=0,迭代次数上限T=50000;

3b)设置启发函数

其中:

式中,表示在t时刻第i个路口的状态,c为比例系数,c∈[0,1],l为第i个路口的任意一个车道,为在状态下采取动作a之后第l个车道的车流量,Ai为第i个路口的动作集,a'为Ai中的任意一个动作,θi为第i个路口的评估网络参数,为将输入到第i个路口的评估网络的输出值,η为一个较小的正值,启发函数的值越大,表明状态下动作a越好,表明交通路网中车辆的通行量越多;

3c)在时刻t,将第i个路口的状态输入到评估网络中,对任意一个动作a,计算评估网络的输出值和启发函数的函数值;其中,评估网络的输出值按照如下公式计算:

其中MLP函数为评估网络函数,它由评估网络的结构决定,MLP函数先将通过两个卷积层卷积来提取特征,再将提取到的特征通过两个全连接层得到输出

3d)选择并执行信号灯动作

其中,rand(0,1)表示[0,1]之间的一个随机数,ε初始值为1迭代递减至0.01,为评估网络的输出,为启发函数的值;

获得奖励rti,再进入下一状态令t=t+1;其中的奖励rti,按如下公式计算:

其中w1、w2、w3为三个不同的比例系数,ni为在动作执行期间通过路口i的车辆数,n0为单位时间内经过的车辆数的平均值,为在t时刻第i个路口的四个不同方向车辆的队列长度,为在t-1时刻第i个路口的四个不同方向车辆的队列长度,N为路口车道数量,pj表示在第j个车道所有车辆的等待时间,r0表示系统定义的额外奖励;

3e)用状态动作评估网络的输出值奖励rti和下一状态组成一个参考向量并将其存储在第i个路口的参考向量集Mi中,当该参考向量个数大于2000时,开始训练评估网络,执行3f),否则,执行3c);当该参考向量个数大于5000,则移除最早生成的参考向量;

3f)从参考向量集Mi中采样得到参考向量的样本集,输入到评估网络中得到评估网络的输出值根据评估网络的输出值和第j个邻接路口t-1时刻的评估网络的输出值更新第i个路口的评估网络的输出值按照如下公式进行更新:

其中,α(t)为学习率,γ为折扣因子,Ai为第i个路口的动作集,a'为Ai中的任意一个动作,θi和分别是第i个路口的评估网络和目标网络参数,N'为第i个路口的邻接路口集,ωi,j表示第j个邻接路口t-1时刻的评估网络的输出值的权重,计算公式如下:

式中,c1、c2为两个数值不同的比例系数,di,j表示第i个路口到第j个路口的距离,Ti,j表示第i个路口到第j个路口之间的车辆数;

3g)计算评估网络的损失函数,根据梯度下降方法更新评估网络参数θi,每隔50步,目标网络参数

3h)将当前迭代次数t与迭代次数上限T进行比较,判断迭代是否停止:

若tT,完成对城市路网交通灯的控制;否则,返回3c)。

2.根据权利要求1所述的方法,其特征在于:3a)中第i个路口的评估网络和目标网络,实现如下:

3a1)由两个卷积层和两个全连接层组成评估网络,评估网络参数用θi表示;

3a2)设置结构与评估网络相同、参数不同的目标网络,目标网络参数用表示;

3a3)定义评估网络的损失函数MSE如下:

其中,m为批次大小,θi为评估网络参数,表示目标网络参数,为状态下所有动作的评估网络最大输出值,为评估网络的输出值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010546010.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top