[发明专利]一种基于近端策略优化的小型路网交通信号优化方法有效
申请号: | 202011036655.6 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112216127B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 徐云;应丹红;王喆冰;袁传军;柴子辉;冯远静;李永强 | 申请(专利权)人: | 航天科工广信智能技术有限公司 |
主分类号: | G08G1/08 | 分类号: | G08G1/08;G08G1/01;G06F30/27;G06N3/08 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310004 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 策略 优化 小型 路网 交通信号 方法 | ||
1.一种基于近端策略优化的小型路网交通信号控制方法,其特征在于,所述方法包括以下步骤:
1)利用路网交叉口处的交通数据信号传感器,实时获取小型路网中的交通数据,为车辆的相对坐标信息和信号灯在对应时刻所处的相位信息,确定处于排队状态的车辆,保存在原始数据集中;
2)原始数据预处理,删去离谱的数据并用前一时刻的数据填补缺失的数据,获取具体交叉口处的排队长度-相位编号集合{Qi,j,Pi},其中,Qi,j表示当前时刻第i交叉口第j车道处的车辆排队长度,Pi代表当前时刻第i交叉口处的信号灯灯态,i=1,2,3,4,j=1,2,...,7,8;按照路网中交叉口的排列顺序,将集合{Qi,j,Pi}整合得到整个路网在当前时刻的排队长度-相位编号数据集St,t为当前的时刻;
3)利用路网的排队长度-相位编号集St,初始化神经网络权重,利用近端策略优化方法PPO更新网络参数,寻找当前交通环境下的最优信号灯配时方案;
4)保存最终收敛的神经网络训练参数,得到该路网下基于近端策略优化的交通信号优化配时方案,在不同交通状态st下,该路网需切换至的交通相位由以下状态-动作对所决定:
Pnext=argmax(Q(snow,anow,θ))
其中Pnext表示路网需切换至的相位,snow为当前路网交通状态,anow为当前路网可执行的相位,θ表示神经网络的参数,Q(snow,anow,θ)表示由当前路网状态,当前路网可执行相位,神经网络参数决定的Q值函数,argmax(Q(snow,anow,θ))表示使得Q(snow,anow,θ)最大的受控参数anow;
所述步骤3)的过程如下:
3.1)首先,定义训练超参数,折扣因子γ=0.9,Actor网络学习率A_LR=0.0001,Critic网络学习率C_LR=0.0002,batch=256,AC网络的更新步长Step=10,裁剪因子ε=0.2,当前时刻PPO方法的奖励定义如下:
3.2)根据排队长度-相位编号数据集St,缓冲区buffer中存储的小批量训练数据以及Critic网络的返回值adv更新Actor神经网络Q(st,at,θt),其中θt为策略参数,更新当前时刻选取各个动作的概率,并按照预设的Step将更新参数传入old_policy网络,PPO中Policy的更新公式如下所示:
LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1-ε,1+ε)At)];
其中,rt(θ)是t时刻New Policy和Old Policy的比例,以此限制New Policy的更新幅度;
3.3)根据排队长度-相位编号数据集St和平均奖励的偏导数dRt更新Critic神经网络权重w,输出评价θt好坏的指标adv:
adv=dRt-V(St)
3.4)重复更新PPO网络参数直到达到最大迭代次数I=200000或者损失函数达到收敛精度的要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天科工广信智能技术有限公司,未经航天科工广信智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011036655.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超强降粘防蜡器
- 下一篇:一种仿形人工骨及其制备方法