[发明专利]基于粒子注意力深度Q学习的部分观测路口自主并道方法有效
申请号: | 202110337809.3 | 申请日: | 2021-03-30 |
公开(公告)号: | CN113160562B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 章宗长;廖沩健;俞扬;黎铭;周志华 | 申请(专利权)人: | 南京大学 |
主分类号: | G08G1/01 | 分类号: | G08G1/01;G08G1/0967;G06N3/00;G06N20/00 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 粒子 注意力 深度 学习 部分 观测 路口 自主 方法 | ||
本发明公开了一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,着眼于路口场景、车辆并道任务、观测视野被楼宇和其他车辆遮挡住的部分观测条件,使用强化学习中的深度Q学习算法对给定路线的并道车辆的驾驶行为进行优化。使用低维物理信息量作为车辆的观测表征;使用基于粒子的表示处理因遮挡造成的部分观测问题;通过引入注意力机制优化状态表示,使模型可以仅接受未被遮挡到的车辆信息同时具有输入排列不变性;使用深度Q学习算法根据获取到的社会车辆信息输出当前最优驾驶动作;通过在经验回放池中加入多种车流密度下的采样数据,结合优先经验回放技术,使自主并道行为可以适应真实环境下多变的车流密度。
技术领域
本发明涉及一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,使用基于粒子的表示来处理行车过程中因视野被遮挡造成的部分观测情况,使用基于注意力机制优化状态表示的深度Q学习算法优化驾驶行为,属于汽车自动驾驶技术领域。
背景技术
自动驾驶需要解决三个问题:定位、路径规划和驾驶行为的选择。第一类定位的问题可以使用多种传感器融合技术以及日渐成熟的计算机视觉技术来处理;第二类路径规划规划的问题可以使用Dijkstra、A*或者其他一些动态规划的方法来处理;本发明处理的是第三类问题,并且考虑了更加现实的因素,即在视野遮挡以及车流密度多变的情况下如何选择更好的驾驶行为。
我们把汽车的行驶过程建模成成一个部分可观测的马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)。那么在驾驶过程获得的关于周围环境的测量就视为一个观测,智能体(自车)将依据观测做成决策。至于这个观测是否能反应环境的真实状态,我们是不得而知的。这里面设计到了两个问题:一个是用什么作为观测,另一个是如何使真实的环境状态更好地从观测中还原出来或者说让自车意识到观测是不充分的,需要警惕可能存在的风险(视觉盲区)。
对于第一个观测表示的问题,我们希望它具备的性质有:输入大小可以变化;输入信息排列顺序不变性;尽可能减小仿真环境和真实环境下的输入差异;准确反映出自车和社会车辆当期时刻的行为同时又不会有很多冗余表达。使用计算机视觉技术处理观测表示问题,即使用图像作为观测输入模型,可以做到输入信息排列顺序不变性,但无法适应不同大小(尺寸)的输入数据。同时图像当中难免有很多冗余信息,即使能够做到精准的图像处理提取出想要的目标信息,对图像的清晰程度,地图的动态构建都有较高要求;并且在仿真环境中使用图像作为观测输入与现实环境中选择图像作为输入是存在差异的。
在强化学习算法中处理部分观测的问题往往有两种思路:一是帧堆叠,二是RNN及其变体。前者是将连续几帧的观测值同时输入网络,即扩增网络的输入,让网络不仅能够知道当前观测信息,同时还能结合历史信息,这样一定程度上弥补了由部分观测带来的信息丢失的问题。RNN因其对时序数据有强大的表达能力而闻名,这个结构能够把握数据在时间上的依赖关系,就像卷积网络能把握数据在空间上的依赖关系一样。那么将原来网络的部分隐藏层替换为RNN层,直觉上是解决部分观测的有效手段,因为通过其递归结构,可以编码多个历史帧的信息,为当前决策提供更丰富的特征。但这两种方法都有其固有缺陷。帧堆叠的方法由于只是简单地将过去几帧历史观测连接在一起,因此会丢失原有的时序信息,同时由于不知道到底要使用过去多少帧才能准确反映现在的真实状态,因此确定堆叠帧的数量也是一个问题。从实现角度考虑,过多的帧同时输入模型在存储上也是一个问题。基于RNN的方法的问题主要在其收敛性能的不稳定上,存在更多优化上的困难,并且隐状态的含义未知,缺乏解释性。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,本发明的自动驾驶算法使用低维物理量信息作为观测信息,使用深度Q学习算法作为控制车辆驾驶行为的控制算法,在因遮挡造成的部分观测条件下,使用基于粒子的表达和注意力机制提升了自车对可能存在的风险的感知能力,实现了更加安全可靠的自主并道驾驶行为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110337809.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种单膜盒表作业装配工艺
- 下一篇:蓝莓枝条外植体的处理方法及组培工艺