[发明专利]基于多智能体近端策略优化算法的区域信号灯控制方法在审
| 申请号: | 202310714706.3 | 申请日: | 2023-06-14 |
| 公开(公告)号: | CN116597672A | 公开(公告)日: | 2023-08-15 |
| 发明(设计)人: | 刘鹏;张真;郑圣杰;张堃;曹旭东;时晨皓 | 申请(专利权)人: | 南京云创大数据科技股份有限公司 |
| 主分类号: | G08G1/08 | 分类号: | G08G1/08;G08G1/01 |
| 代理公司: | 南京中盟科创知识产权代理事务所(特殊普通合伙) 32279 | 代理人: | 孙丽君 |
| 地址: | 210000 江苏省南京市秦淮区永*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 智能 体近端 策略 优化 算法 区域 信号灯 控制 方法 | ||
1.基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,该区域信号灯控制方法包括以下步骤:
S1、获取每个交叉口的交通流量信息;
S2、将交通流量信息分别输入各自交叉口的策略网络,得到多个交叉口的配时方案;
S3、将区域中的多个交叉口配时方案进行数组合并,得到配时方案集合;
S4、获取全局的交通流量状态和配时方案集合进行数组合并,得到新的全局状态集合;
S5、将新的全局状态集合输入到价值网络,并通过价值网络的计算,得到对整体交通路网和每个交叉口配合的配时方案评价;
S6、将局部交通流量信息分别输入到更新前的策略网络与更新后的策略网络,分别得到两个配时方案的概率分布,将其做比值,通过不断的采样,更新前的策略概率分布会越来越接近更新后的策略概率分布,从而得到配时方案的重要性采样;
S7、将局部交通流量信息输入到更新后的策略网络中,得到配时方案概率分布,并计算配时方案概率分布的熵值;
S8、利用全局与局部交通流状态、配时方案集合、重要性采样及熵值计算策略网络的损失函数和价值网络的损失函数,并将这两个损失函数进行相加;
S9、利用adam优化器最小化步骤S8得到的损失函数loss(w)+loss(θ),由于价值网络损失函数和策略网络损失函数共同目标是最小化,所以可以进行相加,使用adam进行优化,优化策略网络和价值网络参数;
S10、通过不断的迭代,损失函数逐渐收敛,价值函数鼓励策略函数学习到最好的配时方案;
S11、将每个交通流量信息交通流量信息分别输入到优化后的策略网络中,并输出不同时刻中最佳的配时方案秒数。
2.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,所述交通流量信息包括当前交叉口交通流量信息以及相邻的交叉口交通流量信息。
3.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,所述将交通流量信息分别输入各自交叉口的策略网络,得到多个交叉口的配时方案包括以下步骤:
S21、将当前交叉口局部状态输入全连接层中,并提取状态信息;
S22、将状态信息输入到循环神经网络中,获取历史信息,并再次经过全连接层,计算状态信息的均值和方差;
S23、通过均值和方差得到配时方案中具体的秒数。
4.根据权利要求3所述的基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,所述通过均值和方差得到配时方案中具体的秒数包括以下步骤:
S231、通过均值和方差模拟出信号控制配时秒数的正态分布;
S232、通过采样的方式,得到每个相位具体秒数;
S233、根据每个相位具体秒数得到交叉口的配时方案。
5.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,所述将新的全局状态集合输入到价值网络,并通过价值网络的计算,得到对整体交通路网和每个交叉口配合的配时方案评价包括以下步骤:
S51、将全局路网状态和路网中所有交叉口的信号控制配时方案集合输入价值网络中,并通过全连接层进行提取状态信息;
S52、通过循环神经网络,获取历史信息,并决策当前时刻信号配时方案;
S53、通过全连接层,把状态信息压缩成配时方案集合,得到当前时刻路网状态和路网中所有交叉口信号控制配时方案搭配中速度指标的期望奖励。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云创大数据科技股份有限公司,未经南京云创大数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310714706.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:服务实现方法、装置、计算机设备与存储介质
- 下一篇:可旋转的气溶胶产生装置





