[发明专利]一种基于元强化学习的端到端自动驾驶方法及系统在审

申请号：	202310458868.5	申请日：	2023-04-26
公开（公告）号：	CN116469080A	公开（公告）日：	2023-07-21
发明（设计）人：	金彦亮;范宝荣;高塬	申请（专利权）人：	上海大学
主分类号：	G06V20/58	分类号：	G06V20/58;G06V10/44;G06V10/82;G06V10/774;G06N20/00
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	陈金星
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习端到端自动驾驶方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于元强化学习的端到端自动驾驶方法及系统，其中方法首先采集多个数据集用于训练MVWG(Meta‑VAE‑WGAN‑GP)特征提取模型，在不同的驾驶任务上训练MPPO(Meta‑Proximal Policy Optimization)决策控制模型，面临新的驾驶任务时，用训练好的MVWG特征提取模型和MPPO决策控制模型初始化自动驾驶系统；当智能车面临新的驾驶场景时，由摄像头实时采集环境图片，并将图片输入特征提取模型进行编码，提取特征，将提取的特征信息输入给智能体，智能体结合自身当前的运行信息，根据初始化后的MPPO策略输出相应的决策控制动作，同时将动作反馈给驾驶环境，继续优化驾驶策略，最终训练得到稳定的自动驾驶系统。与现有技术相比，本发明具有模型训练速度快、泛化性能高、提取特征质量高等优点。

技术领域

本发明涉及自动驾驶决策控制及图像特征提取技术领域，尤其是涉及一种基于元强化学习的端到端自动驾驶方法及系统。

背景技术

基于深度强化学习的端到端自动驾驶系统主要分为特征提取和决策控制两部分。特征提取模型提取的特征信息作为决策控制模型的输入，对智能体理解环境信息至关重要。

传统的特征提取模型存在梯度消失、梯度爆炸、提取特征质量低及面临新任务时收敛速度慢等问题，并且基于强化学习的决策模型在面临新的任务时也需要很长的训练时间，因此围绕新兴技术，开展针对面临新任务时的自动驾驶系统，具有巨大的科研空间和应用价值。端到端的自动驾驶系统与方法，即首先车载摄像头采集驾驶场景中的视频图像信息，然后将采集到的RGB图像作为特征提取模型的输入，特征提取模型就会对图像信息进行特征降维，提取高质量的特征供Agent理解环境信息，最后Agent根据自身策略做出对应的决策控制动作。自动驾驶系统融合深度学习、强化学习、元学习等众多前沿科技，是人工智能领域的一个研究热点，推动了出行服务的创新和变革，能够改善交通拥堵状况，提高交通的安全性和便捷性。

目前，关于端到端的自动驾驶系统的研究已有一定的研究成效，但是该项研究任务需同时满足快速性、准确性、泛化性等要求，导致多数研究方法仍有改进空间。可改进的主要问题包括：

(1)特征提取模型中需要人工调参，若调参不当将会出现梯度消失、梯度爆炸现象，从而导致提取特征质量不强、收敛速度缓慢；

(2)在面临新环境时，特征提取模型需要重头开始训练，训练时间过长；

(3)Agent在面临新的驾驶任务时，不能有效利用之前学习到的知识快速学习，没有学会学习的能力，泛化性能较差。这些问题对端到端的自动驾驶系统提出了挑战。因此，需要对特征提取模型及决策控制模型开展深入研究，在提升准确性的同时，具有一定的快速性和泛化性。

发明内容

本发明的目的是克服上述现有技术存在的缺陷而提供一种基于元强化学习的端到端自动驾驶方法及系统。

本发明的目的可以通过以下技术方案来实现：

一种基于元强化学习的端到端自动驾驶方法，包括以下步骤：

S1、构建数据集，使用元学习算法Reptile训练VWG特征提取模型，得到MVWG特征提取模型；

S2、构建决策控制模型，并使用元学习算法Reptile训练所述决策控制模型，得到训练好的MPPO决策模型；

S3、使用训练得到的MVWG特征提取模型和MPPO决策模型初始化自动驾驶系统，当车辆智能体在新的驾驶场景中完成驾驶任务时，实时采集驾驶环境的RGB图片；

S4、将所述驾驶环境的RGB图片输入MVWG模型中的编码器中并对其进行编码，提取所述驾驶环境的RGB图片的特征信息；