[发明专利]一种基于近端策略优化的小型路网交通信号优化方法有效

申请号：	202011036655.6	申请日：	2020-09-27
公开（公告）号：	CN112216127B	公开（公告）日：	2022-05-03
发明（设计）人：	徐云;应丹红;王喆冰;袁传军;柴子辉;冯远静;李永强	申请（专利权）人：	航天科工广信智能技术有限公司
主分类号：	G08G1/08	分类号：	G08G1/08;G08G1/01;G06F30/27;G06N3/08
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310004 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于策略优化小型路网交通信号方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于近端策略优化的小型路网交通信号控制方法，其特征在于，所述方法包括以下步骤：

1)利用路网交叉口处的交通数据信号传感器，实时获取小型路网中的交通数据，为车辆的相对坐标信息和信号灯在对应时刻所处的相位信息，确定处于排队状态的车辆，保存在原始数据集中；

2)原始数据预处理，删去离谱的数据并用前一时刻的数据填补缺失的数据，获取具体交叉口处的排队长度-相位编号集合{Q_i,j,P_i}，其中，Q_i,j表示当前时刻第i交叉口第j车道处的车辆排队长度，P_i代表当前时刻第i交叉口处的信号灯灯态，i＝1,2,3,4，j＝1,2,...,7,8；按照路网中交叉口的排列顺序，将集合{Q_i,j,P_i}整合得到整个路网在当前时刻的排队长度-相位编号数据集S_t，t为当前的时刻；

3)利用路网的排队长度-相位编号集S_t，初始化神经网络权重，利用近端策略优化方法PPO更新网络参数，寻找当前交通环境下的最优信号灯配时方案；

4)保存最终收敛的神经网络训练参数，得到该路网下基于近端策略优化的交通信号优化配时方案，在不同交通状态s_t下，该路网需切换至的交通相位由以下状态-动作对所决定：

P_next＝argmax(Q(s_now,a_now,θ))

其中P_next表示路网需切换至的相位，s_now为当前路网交通状态，a_now为当前路网可执行的相位，θ表示神经网络的参数，Q(s_now,a_now,θ)表示由当前路网状态，当前路网可执行相位，神经网络参数决定的Q值函数，argmax(Q(s_now,a_now,θ))表示使得Q(s_now,a_now,θ)最大的受控参数a_now；

所述步骤3)的过程如下：

3.1)首先，定义训练超参数，折扣因子γ＝0.9，Actor网络学习率A_LR＝0.0001，Critic网络学习率C_LR＝0.0002，batch＝256，AC网络的更新步长Step＝10，裁剪因子ε＝0.2，当前时刻PPO方法的奖励定义如下：

3.2)根据排队长度-相位编号数据集S_t，缓冲区buffer中存储的小批量训练数据以及Critic网络的返回值adv更新Actor神经网络Q(s_t,a_t,θ_t)，其中θ_t为策略参数，更新当前时刻选取各个动作的概率，并按照预设的Step将更新参数传入old_policy网络，PPO中Policy的更新公式如下所示：

L^CLIP(θ)＝E_t[min(r_t(θ)A_t,clip(r_t(θ),1-ε,1+ε)A_t)]；

其中，r_t(θ)是t时刻New Policy和Old Policy的比例，以此限制New Policy的更新幅度；

3.3)根据排队长度-相位编号数据集S_t和平均奖励的偏导数dR_t更新Critic神经网络权重w，输出评价θ_t好坏的指标adv：

adv＝dR_t-V(S_t)

3.4)重复更新PPO网络参数直到达到最大迭代次数I＝200000或者损失函数达到收敛精度的要求。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于航天科工广信智能技术有限公司，未经航天科工广信智能技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011036655.6/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G08 信号装置
G08G 交通控制系统
G08G1-00 道路车辆的交通控制系统
G08G1-005 .包括行人导引指示器的
G08G1-01 .检测要统计或要控制的交通运动
G08G1-065 .计算一段道路或停车场上的车辆数的，即比较进出车辆数
G08G1-07 .交通信号控制
G08G1-09 .给出可变交通指令的装置

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于近端策略优化的小型路网交通信号优化方法有效

专利文献下载