[发明专利]交通信号控制方法、系统及介质在审
| 申请号: | 201911311519.0 | 申请日: | 2019-12-18 |
| 公开(公告)号: | CN111091710A | 公开(公告)日: | 2020-05-01 |
| 发明(设计)人: | 薛贵荣;徐凯 | 申请(专利权)人: | 上海天壤智能科技有限公司 |
| 主分类号: | G08G1/01 | 分类号: | G08G1/01 |
| 代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
| 地址: | 201100 上海市闵行*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 交通信号 控制 方法 系统 介质 | ||
1.一种交通信号控制方法,其特征在于,包括:
数据生成步骤:生成专家数据;
网络结构搭建步骤:构建行为策略评价网络结构;
评价方法构造步骤:构造行为策略评价方法;
网络损失函数构造步骤:构造行为策略损失函数;
获取步骤:获取到行为策略信息;
评价网络损失函数构造步骤:构造评价网络损失函数;
时序差分值获取步骤:根据评价网络损失函数,计算得到时序差分值;
行为更新步骤:根据时序差分值,对行为策略进行更新;
预测结果计算步骤:得到预测结果并运用到交通中。
2.根据权利要求1所述的交通信号控制方法,其特征在于,所述数据生成步骤包括:
根据自组织交通信号灯控制方法生成专家数据;
所述网络结构搭建步骤包括:
搭建行为策略神经网络结构,定义行为策略神经网络结构中的网络层类别及层的参数;
搭建评价神经网络结构,定义评价神经网络结构中的网络层类别及层的参数;
行为策略评价网络结构包括行为策略神经网络结构和评价神经网络结构;
行为策略神经网络结构和评价神经网络结构均有双层全连接网络结构,隐层神经单元数为20。
3.根据权利要求1所述的交通信号控制方法,其特征在于,所述评价方法构造步骤包括:
构造一个新的值函数,对值函数进行优化;得到一个新的优势函数;
公式依次如下:
其中,Qπ和π分别由θQ和θπ决定,θπ为行为策略网络参数,θQ为评价网络参数;
s表示:状态集合
a表示:动作决策集合;
st表示:t时刻的状态集合。
4.根据权利要求3所述的交通信号控制方法,其特征在于,所述网络损失函数构造步骤包括:
在离散的行为空间中,根据Gumbel-Softmax构建行为策略网络损失函数;
公式如下:
asoft=softmax((gi+π)/τ))
lactor(θπ)=Cross-Entropy(asoft,aD)
其中,g=-log(-log(u)),u~Uniform(0,1),aD是demos的行为;
asoft表示:经过softmax函数处理的动作决策概率;
gi表示:i时刻的g函数;
Cross-Entropy表示交叉商函数。
5.根据权利要求3所述的交通信号控制方法,其特征在于,所述获取步骤包括:
根据行为策略神经网络结构中的网络层类别及层的参数,计算得到softmax值;
所述评价网络损失函数构造步骤包括:
评价网络使用行为克隆损失函数包括:1-step时序差分损失、n步时序差分损失、大余量分类损失和L2损失。
6.根据权利要求5所述的交通信号控制方法,其特征在于,所述评价网络损失函数中的1-step时序差分损失如下:
y=R(s,a)+γQ(s′,a′)
其中,s'为下一个状态,由环境采取行动a和下一个行动a'决定,关系为a'~π(a|s');
梯度为:
y表示:算法模型计算出的此时刻的动作决策的奖励值;
γ表示:奖励的折算系数;
R(s,a)表示:奖励函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海天壤智能科技有限公司,未经上海天壤智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911311519.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动化摆动式搬运机
- 下一篇:一种抗泥型聚羧酸系减水剂及其制备方法和应用





