[发明专利]基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法在审

申请号：	202211135878.7	申请日：	2022-09-19
公开（公告）号：	CN115457782A	公开（公告）日：	2022-12-09
发明（设计）人：	李云;赵睿;高镇海;高菲;张天瑶	申请（专利权）人：	吉林大学
主分类号：	G08G1/081	分类号：	G08G1/081;G06N3/08;G06N3/04;G06K9/62;G06F30/20
代理公司：	深圳众邦专利代理有限公司 44545	代理人：	李茂松
地址：	130000 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习自动驾驶车辆交叉口冲突合作方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于自动驾驶技术领域，具体为基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法，包括步骤1：交叉口问题马尔可夫建模，综合考虑安全约束马尔可夫决策(constrained Markov decision process,CMDP)与马尔可夫博弈(Markov Game,MG)理论，将道路交叉口环境转化为为符合强化学习算法要求的模型；步骤2：单策略网络与双价值网络更新过程设计，设计单策略‑双评论家(Actor‑Critic1‑Critic2)网络架构；步骤3：马尔可夫形式数据搜集；步骤4：强化学习训练，训练单策略‑双评论家(Actor‑Critic1‑Critic2)神经网络；步骤5：强化学习测试，在仿真器Carla中实际测试该强化学习算法的性能，能够针对时变的交通网络拓扑结构输出符合预期的车辆通行策略，在安全、舒适与效率方面均能够获得良好性能。

技术领域

本发明涉及自动驾驶技术领域，具体为基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法。

背景技术

随着智能化与网联化的发展，多辆自动驾驶汽车通过车联网协作通行的方式将改变未来交通管理和组织的模式，尤其是在交叉路口。自动驾驶车辆在基于信号灯的道路交叉口中往往有着较低的通行效率，由于部分车辆可能会由于红灯而产生许多无意义的等待。相比之下，在无信号灯道路交叉口环境中的自动车辆协作通行近几年得到了许多研究。该方式赋予自动驾驶车辆充分的自主权，能够最大化提升交通场景整体通行效率。然而，由于缺乏交通信号灯的管控，在复杂高动态的道路交叉口中保证多车通行的安全性面临较强的挑战性。

目前在无信号道路交叉口自动驾驶车辆协作通行方面，现有公开的技术包括模型预测控制算法、前馈-反馈控制、预测维仿真算法等。该类方法通过将道路交叉口下多台车辆安全、舒适、高效通行问题建模为带约束的优化问题，并通过求解该带约束的优化问题来为交通场景中的每台车辆提供实时通行方式。然而当交通场景中车辆数目较多时求解NP-hard问题需要巨大的计算，求解往往需要较长时间，在实际交通场景中难以部署。作为当下在各个领域均获得广泛关注的技术，强化学习方法在自动驾驶领域得到了越来越多的关注。自动驾驶的本质是在没有驾驶员参与的情况下，仅根据车辆对环境的感知来输出节气门开度、方向盘转角、刹车片开合力度等车辆控制量。在道路交通场景越来越复杂与传统基于解约束问题的计算方法的矛盾越来越显著的情况下，利用神经网络来进行决策正成为重要的解决方案，通过在高维度的环境中不断探索最优策略，经过训练的强化学习模型能够以极少的计算成本输出实时、高效、安全的道路交叉口通行策略。

基于上述问题，我们提出一种基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法。

发明内容

本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于现有技术中存在的问题，提出了本发明。

因此，本发明的目的是提供基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法，能够针对时变的交通网络拓扑结构输出符合预期的车辆通行策略，在安全、舒适与效率方面均能够获得良好性能。

为解决上述技术问题，根据本发明的一个方面，本发明提供了如下技术方案：

基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法，其包括如下步骤：

步骤1：交叉口问题马尔可夫建模，综合考虑安全约束马尔可夫决策(constrained Markov decision process，CMDP)与马尔可夫博弈(Markov Game，MG)理论，将道路交叉口环境转化为为符合强化学习算法要求的模型；

步骤2：单策略网络与双价值网络更新过程设计，设计单策略-双评论家 (Actor-Critic1-Critic2)网络架构，以满足高随机动态道路交叉口环境中对安全性的需求：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于吉林大学，未经吉林大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211135878.7/2.html，转载请声明来源钻瓜专利网。

上一篇：数据处理方法、装置、计算机设备和存储介质
下一篇：一种山茶油面霜及其制备方法

同类专利

专利分类

G 物理

G08 信号装置
G08G 交通控制系统
G08G1-00 道路车辆的交通控制系统
G08G1-005 .包括行人导引指示器的
G08G1-01 .检测要统计或要控制的交通运动
G08G1-065 .计算一段道路或停车场上的车辆数的，即比较进出车辆数
G08G1-07 .交通信号控制
G08G1-09 .给出可变交通指令的装置

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法在审

专利文献下载