[发明专利]一种基于深度强化学习的无人驾驶端到端决策方法有效

申请号：	202110372793.X	申请日：	2021-04-07
公开（公告）号：	CN113104050B	公开（公告）日：	2022-04-12
发明（设计）人：	杨璐;王一权;任凤雷;刘佳琦;王龙志	申请（专利权）人：	天津理工大学
主分类号：	B60W60/00	分类号：	B60W60/00;G06N20/00
代理公司：	天津才智专利商标代理有限公司 12108	代理人：	王梦
地址：	300384 天津市南***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习无人驾驶端到端决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度强化学习的无人驾驶端到端决策方法，步骤为：1)获取无人驾驶车辆前方道路特征编码，2)将前方道路环境状态与车辆自身状态作为当前时刻环境状态输入至经过训练的深度强化学习结构中以输出无人驾驶车辆的动作；其中，深度强化学习网络包括由Eval Actor网络和Target Actor网络构成的Actor网络，由Eval Critic 1网络和Target Critic 1网络构成的Critic 1网络，由Eval Critic 2网络和Target Critic 2网络构成的Critic 2网络，以及由Eval Q网络和Target Q网络构成的Q网络组；该方法要求的环境数据要求少，可实现有效降低成本，同时通过构建具有高学习效率、训练速度快的深度强化学习网络，实现提高智能体的探索效率的目的。

技术领域

本发明涉及无人驾驶技术领域，特别涉及一种基于深度强化学习的无人驾驶端到端决策方法。

背景技术

无人驾驶技术近年来得到了飞速的发展，集环境感知、决策规划、控制于一体，依靠人工智能技术，使车辆能够在没有驾驶员的情况下，在道路上安全的行驶。感知模块融合摄像头、激光雷达等传感器信息，对车辆周围环境进行实时感知。决策模块根据感知信息和车辆状态信息，输出最佳的决策规划。控制模块根据决策信息，控制车辆随规划轨迹以指定速度在道路上行驶。决策模块作为连接感知和控制的中枢，是无人驾驶技术研究的重点。

决策方面的研究目前有三个方向：1)基于规则的决策方法、2)基于模仿学习的决策方法、3)基于强化学习的决策方法。基于规则的方法无法覆盖所有可能出现的场景，难以适应复杂的环境；基于模仿学习的方法面对复杂多变的城市交通环境，难以做出最优决策。深度强化学习的学习方式更加接近人类思维，结合了深度学习和强化学习优势，性能和泛化性获得了提升。

基于深度强化学习的决策方法在无人驾驶领域已经取得了一定的成绩，但算法训练时进行大量随机探索，使智能体在训练前期容易获得过多的低回报经验，导致算法学习效率低，训练时间长。因此，如何解决这些问题对于车辆决策具有关键意义。

发明内容

本发明的目的是提供一种解决上述技术难题的基于深度强化学习的无人驾驶端到端决策方法。

为此，本发明技术方案如下：

一种基于深度强化学习的无人驾驶端到端决策方法，步骤如下：

1、一种基于深度强化学习的无人驾驶端到端决策方法，其特征在于，包括构建并训练深度强化学习网络；其中，

1)构建深度强化学习网络：

深度强化学习网络包括由Eval Actor网络和Target Actor网络构成的Actor网络，由Eval Critic 1网络和Target Critic 1网络构成的Critic 1网络，由Eval Critic2网络和Target Critic 2网络构成的Critic 2网络，以及由Eval Q网络和Target Q网络构成的Q网络组；其中，Eval Actor网络用于接收当前时刻环境状态s_t并输出连续空间动作a_ct，Target Actor网络用于输出训练Eval Critic 1网络和Eval Critic2网络的动作a’；Eval Critic 1网络和Eval Critic 2网络用于输出训练Eval Actor网络的动作值Q，Target Critic 1网络和Target Critic 2网络用于输出训练Eval Critic 1网络和EvalCritic 2网络的动作值Q_j’；Eval Q网络用于接收当前时刻环境状态s_t并输出动作值Q_D并选取数值最高的离散空间动作a_Dt，Target Q网络用于输出训练Eval Q网络的动作值

2)训练深度强化学习网络，其具体步骤为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津理工大学，未经天津理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110372793.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于TCP/IP的二进制数据交互协议设计方法
下一篇：一种配电柜开关组装设备

同类专利

专利分类

B 作业；运输

B60 一般车辆
B60W 不同类型或不同功能的车辆子系统的联合控制；专门适用于混合动力车辆的控制系统；不与某一特定子系统的控制相关联的道路车辆驾驶控制系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的无人驾驶端到端决策方法有效

专利文献下载