[发明专利]交通信号控制方法、系统及介质在审
| 申请号: | 201911311519.0 | 申请日: | 2019-12-18 |
| 公开(公告)号: | CN111091710A | 公开(公告)日: | 2020-05-01 |
| 发明(设计)人: | 薛贵荣;徐凯 | 申请(专利权)人: | 上海天壤智能科技有限公司 |
| 主分类号: | G08G1/01 | 分类号: | G08G1/01 |
| 代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
| 地址: | 201100 上海市闵行*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 交通信号 控制 方法 系统 介质 | ||
本发明提供了一种交通信号控制方法,包括:数据生成步骤:生成专家数据;网络结构搭建步骤:构建行为策略评价网络结构;评价方法构造步骤:构造行为策略评价方法;网络损失函数构造步骤:构造行为策略损失函数;获取步骤:获取到行为策略信息;评价网络损失函数构造步骤:构造评价网络损失函数;时序差分值获取步骤:根据评价网络损失函数,计算得到时序差分值;行为更新步骤:根据时序差分值,对行为策略进行更新;预测结果计算步骤:得到预测结果并运用到交通中。本发明有效降低系统在状态/行为空间中的探索成本;提高了收敛速度和预测控制表现。
技术领域
本发明涉及计算机软件和交通领域,具体地,涉及一种交通信号控制方法、系统及介质。尤其地,涉及一种基于专家数据和行为策略评价框架的交通信号控制方法。
背景技术
交通阻塞通行拥挤问题已经成为日常影响每个人生活的主要问题之一,人们往往因此要花费大量的通行时间在道路上。缓解这一问题的有效方法是开发一种高效的交通信号灯控制系统。
随着计算资源和机器学习算法的发展,越来越多的研究者们开始用强化学习(Reinforcement Learning,RL)的算法来研究交通信号的控制方法。在交通信号控制中,强化学习是通过智能体与环境的交互来学习一种优化的行为策略,并使此策略能够符合现实交通信号控制的需求。目前,关于这方面的强化学习算法已经有很多被提出来了。Van和HuaWei用Deep Q Network来搜索最优策略,2019年Tianshu Chu用行为策略评价框架(Actor-Critic)和LSTM网络结构提高并稳定了预测效果。虽然这些方法都在交通信号控制方面取得了一定成果,但是他们也面临着强化学习中的一个重大挑战,即在大探索空间中的收敛慢表现差的问题。实际上,为了减少在大空间中不必要的探索,可以从人本身的学习过程中获得借鉴。当人们试图掌握一项技能时,他们往往会从专家那获取知识,从而加速学习过程。类比到交通信号控制的方法模型中,我们也同样可以通过传入优质的从专家处得来的训练样本来促使方法可以更好的学习如何实现交通信号的控制。但是这样会面临两个难点:(1)在交通信号控制方面所谓的专家知识是什么?(2)这样的专家知识如何优化强化学习算法的探索过程?
对于第一个问题,我们通过交通控制中的经典方法来获取。在现有的交通专家们提出的方法中,有一个自组织交通信号灯控制方法(Self-Organizing Traffic Lightcontrol,SOTL),SOTL是一个可以实现根据实时交通的动态变化自动调节的交通信号控制方法。这种交通控制方法往往建立在交通模型假设的基础上的,能够应用的交通场景较少。但是他们能够作为一个基准,作为一种专家知识用来优化深度学习的方法。
对于第二个问题,为了利用这种专家知识,我们将其处理为专家(Demonstrations)数据,类似于在决策任务中的专家策略。近期,已经有很多基于专家数据的强化学习算法被提出,结果表明这种方式可以有效处理强化学习的探索成本问题。ToddHester等人用基于专家数据的深度Q-learning算法,通过修改损失函数,从而在较小专家数据集下加速了算法对Atari游戏的学习过程,扩大了机器人控制的应用范围。所以对于本文中的问题,由传统经典方法产生的交通状态和对应的信号策略可以作为专家数据,并将其整合到我们的方法中提高预测表现。
综上所述,虽然众多研究人员将强化学习和专家数据方法在多个领域进行了研究性探索,并取得了一定的成绩。但在交通信号控制方面,目前还没有将专家数据和行为策略评价框架结合在一起来解决交通信号控制这一具有挑战且对人们日常生活具有重要影响的问题。
专利文献CN106128122B(申请号:201610522193.6)公开了一种智能交通信号灯,包括交通信号灯和与交通信号灯相连的预测装置,所述预测装置包括依次连接的采集模块、数据预处理模块、数据分类模块、平稳性检验模块、相关系数计算模块、阈值设定模块、时空相关系数矩阵生成模块、历史相关系数矩阵生成模块、预测因子选取模块和预测模型构造模块。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海天壤智能科技有限公司,未经上海天壤智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911311519.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动化摆动式搬运机
- 下一篇:一种抗泥型聚羧酸系减水剂及其制备方法和应用





