[发明专利]一种交通信号控制方法、装置、电子设备及存储介质有效

申请号：	202111664526.6	申请日：	2021-12-31
公开（公告）号：	CN114333357B	公开（公告）日：	2023-08-15
发明（设计）人：	陈若冰;刘宇;王晓刚	申请（专利权）人：	上海商汤智能科技有限公司
主分类号：	G08G1/07	分类号：	G08G1/07;G08G1/08;G08G1/01
代理公司：	北京中知恒瑞知识产权代理有限公司 11889	代理人：	袁忠林
地址：	200233 上海市徐***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种交通信号控制方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种交通信号控制方法，其特征在于，包括：

获取目标路口的车流状态信息及至少一个相邻路口的车流状态信息，并获取针对所述目标路口对应的预训练的强化学习网络；所述目标路口属于目标路网的任一路口；

将所述目标路口的车流状态信息以及所述相邻路口的车流状态信息输入所述强化学习网络进行动作预测，确定对所述目标路口的交通灯进行信号切换动作控制的相位组合策略；其中，所述相位组合策略用于指示对应目标路口的交通信号控制信息；所述交通信号控制信息用于控制所述目标路口的交通灯，按照所述强化学习网络输出的相位组合策略执行信号切换动作；

将所述目标路网包括的各个路口分别对应的当前车流状态信息，输入至中心化的价值网络，输出全局状态下针对所述目标路网的状态奖励值；所有路口共享所述中心化的价值网络；

获取所述各个路口在当前相位组合策略下的车流压力值；

基于所述车流压力值的相反数，确定所述各个路口在当前相位组合策略下的回报奖励值；

为所述目标路网包括的各个路口分别赋予重要度权重；

基于所述各个路口在当前相位组合策略下的回报奖励值以及为所述各个路口分别赋予的重要度权重之间的加权求和，得到针对所述目标路网的回报奖励和值；

基于所述状态奖励值以及回报奖励和值，对所述目标路口对应的强化学习网络进行调整；

基于调整后的所述目标路口对应的强化学习网络、以及在所述目标路口按照当前相位组合策略控制对应的交通灯执行信号切换动作的情况下，所述目标路口的下一个车流状态信息，确定针对所述目标路口的交通灯进行信号切换动作控制的下一个相位组合策略。

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标路口在当前相位组合策略下的车流压力值，包括：

检测驶入所述目标路口的第一车辆数量以及从所述目标路口驶出的第二车辆数量；

基于所述第一车辆数量与所述第二车辆数量之间的差值运算，确定所述车流压力值。

3.根据权利要求1所述的方法，其特征在于，所述基于所述车流压力值的相反数，确定所述目标路口在当前相位组合策略下的回报奖励值，包括：

获取所述当前相位组合策略相比上一个相位组合策略的相位切换时长；