[发明专利]一种同时考虑行程时间和公平性的交通灯控制方法及系统有效
申请号: | 202111641916.1 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114299732B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 余超;梁泽年 | 申请(专利权)人: | 中山大学 |
主分类号: | G08G1/07 | 分类号: | G08G1/07;G08G1/01;G06F30/27 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 陈旭红;钟文瀚 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同时 考虑 行程 时间 公平性 交通灯 控制 方法 系统 | ||
1.一种同时考虑行程时间和公平性的交通灯控制方法,其特征在于,包括:
建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境、行程时间策略Q网络的元组型数据缓存器及公平性策略Q网络的元组型数据缓存器;
通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理,分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值;
将所述行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境,将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境,得到每个路口的奖励以及下一步的状态;
通过DQN算法,根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新,根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新;
建立中心Q网络,并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络;
所述行程时间策略Q网络的交通仿真环境中的每个路口的奖励是该路口所有进口道的排队长度之和的相反数;所述公平性策略Q网络的交通仿真环境中每个路口的奖励通过以下公式计算:
其中,RFairness为公平性策略Q网络的交通仿真环境中每个路口的奖励,i表示车辆,n为车辆总数,ttii为第i辆车的实际行程时间/已通行路程的理想行程时间,ttimean为当前时刻所有车辆ttii的均值;
所述将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络,包括:
分别从行程时间策略Q网络的元组型数据缓存器中和公平性策略Q网络的元组型数据缓存器中随机抽样128个样本分别输入至所述中心Q网络和所述行程时间策略Q网络中,分别得到述中心Q网络的Q值和行程时间策略Q网络的Q值;
对所述中心Q网络的Q值和行程时间策略Q网络的Q值进行Softmax操作,得到中心Q网络的概率分布值和行程时间策略Q网络的概率分布值;
根据中心Q网络的概率分布值和行程时间策略Q网络的概率分布值计算KL散度,并设置蒸馏过程的学习率,
重复蒸馏过程满足更新次数。
2.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法,其特征在于,所述建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境,具体地:
选定交通仿真环境,并初始化两个相同的交通仿真环境,分别作为行程时间策略Q网络的交通仿真环境和公平性策略Q网络的交通仿真环境;其中,所述交通仿真环境包括:路网,交通信号灯及车辆。
3.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法,其特征在于,所述行程时间策略Q网络和所述公平性策略Q网络的输入维度为52维,输出维度为8维。
4.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法,其特征在于,所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理之前,还包括:
通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行冷启动处理。
5.如权利要求4所述的一种同时考虑行程时间和公平性的交通灯控制方法,其特征在于,所述冷启动处理,包括:
初始化仿真回合数;
设置更新间隔、每轮更新次数、每回合仿真步数及缓存值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111641916.1/1.html,转载请声明来源钻瓜专利网。