[发明专利]一种交通信号控制方法、装置、电子设备及存储介质有效
申请号: | 202111664526.6 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114333357B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 陈若冰;刘宇;王晓刚 | 申请(专利权)人: | 上海商汤智能科技有限公司 |
主分类号: | G08G1/07 | 分类号: | G08G1/07;G08G1/08;G08G1/01 |
代理公司: | 北京中知恒瑞知识产权代理有限公司 11889 | 代理人: | 袁忠林 |
地址: | 200233 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交通信号 控制 方法 装置 电子设备 存储 介质 | ||
1.一种交通信号控制方法,其特征在于,包括:
获取目标路口的车流状态信息及至少一个相邻路口的车流状态信息,并获取针对所述目标路口对应的预训练的强化学习网络;所述目标路口属于目标路网的任一路口;
将所述目标路口的车流状态信息以及所述相邻路口的车流状态信息输入所述强化学习网络进行动作预测,确定对所述目标路口的交通灯进行信号切换动作控制的相位组合策略;其中,所述相位组合策略用于指示对应目标路口的交通信号控制信息;所述交通信号控制信息用于控制所述目标路口的交通灯,按照所述强化学习网络输出的相位组合策略执行信号切换动作;
将所述目标路网包括的各个路口分别对应的当前车流状态信息,输入至中心化的价值网络,输出全局状态下针对所述目标路网的状态奖励值;所有路口共享所述中心化的价值网络;
获取所述各个路口在当前相位组合策略下的车流压力值;
基于所述车流压力值的相反数,确定所述各个路口在当前相位组合策略下的回报奖励值;
为所述目标路网包括的各个路口分别赋予重要度权重;
基于所述各个路口在当前相位组合策略下的回报奖励值以及为所述各个路口分别赋予的重要度权重之间的加权求和,得到针对所述目标路网的回报奖励和值;
基于所述状态奖励值以及回报奖励和值,对所述目标路口对应的强化学习网络进行调整;
基于调整后的所述目标路口对应的强化学习网络、以及在所述目标路口按照当前相位组合策略控制对应的交通灯执行信号切换动作的情况下,所述目标路口的下一个车流状态信息,确定针对所述目标路口的交通灯进行信号切换动作控制的下一个相位组合策略。
2.根据权利要求1所述的方法,其特征在于,所述获取所述目标路口在当前相位组合策略下的车流压力值,包括:
检测驶入所述目标路口的第一车辆数量以及从所述目标路口驶出的第二车辆数量;
基于所述第一车辆数量与所述第二车辆数量之间的差值运算,确定所述车流压力值。
3.根据权利要求1所述的方法,其特征在于,所述基于所述车流压力值的相反数,确定所述目标路口在当前相位组合策略下的回报奖励值,包括:
获取所述当前相位组合策略相比上一个相位组合策略的相位切换时长;
基于所述相位切换时长以及所述车流压力值的相反数,确定所述目标路口在当前相位组合策略下的回报奖励值。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标路口对应的强化学习网络进行调整,包括:
获取包括多个状态动作序列的回放池,所述多个状态动作序列中的每个状态动作序列由所述目标路网中每个路口的历史车流状态信息以及所述每个路口对应的强化学习网络输出的历史相位组合策略确定;
基于从所述回放池中选取的状态动作序列,确定针对所述目标路网的历史状态奖励值、以及所述每个路口在对应历史相位组合策略下的历史回报奖励;
基于所述历史状态奖励值以及所述历史回报奖励,对所述目标路口对应的强化学习网络进行调整。
5.根据权利要求1至4任一所述的方法,其特征在于,所述路口的车流状态信息包括以下信息中的至少一种:
从所述路口包括的每个车道驶入所述路口的车流长度;
驶入所述路口的车流长度占所述路口所属道路的长度的比例;
驶入所述路口的车流对应的平均等待次数;
所述路口包括的各个交通灯之间的相位偏移量;
所述路口包括的各个交通灯在对应相位循环中每个相位的持续时长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海商汤智能科技有限公司,未经上海商汤智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111664526.6/1.html,转载请声明来源钻瓜专利网。