[发明专利]一种改进深度强化学习的智能汽车类人跟驰行为控制方法在审

申请号：	202211445665.4	申请日：	2022-11-18
公开（公告）号：	CN115830863A	公开（公告）日：	2023-03-21
发明（设计）人：	赵健;李思远;朱冰;宋东鉴	申请（专利权）人：	吉林大学
主分类号：	G08G1/01	分类号：	G08G1/01;G06N3/045;G06N3/08;B60W60/00
代理公司：	长春市恒誉专利代理事务所(普通合伙) 22212	代理人：	梁紫钺
地址：	130012 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种改进深度强化学习智能汽车行为控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种改进深度强化学习的智能汽车类人跟驰行为控制方法，包括第一步、采集真实驾驶员跟驰行驶时的制动踏板和油门踏板开度数据、与前车的距离数据、自车的速度数据及前车的速度数据；第二步、获得真实驾驶员跟驰行为数据集的离散制动踏板和油门踏板开度的动作概率分布p；第三步，构建跟驰行为策略模型；第四步，训练模型。本发明复合奖励函数的设置及通过奖励评估器动态调节复合奖励函数的权重的设置能够保障本发明类人跟驰行为策略模型具有良好的类人特性，在降低人机差异的同时，提高了智能汽车的用户接受度、信任度和社会认同度，减少了本发明类人跟驰行为策略模型的训练时间，并提高了最终训练完成的模型的输出效果。

技术领域

本发明涉及一种智能汽车类人跟驰行为控制方法，特别涉及一种基于改进深度强化学习方法的智能汽车类人跟驰行为控制方法。

背景技术

随着汽车的智能化技术不断提高，配备智能驾驶系统的自动驾驶智能汽车的保有量不断增加。跟驰行为是微观交通流的核心组成部分，对研究车辆间的博弈行为及所在车道的交通流特性至关重要。为了提高智能汽车的社会认同度、用户信任度和接受度、提升交通效率并降低由于人机差异造成事故的风险，智能汽车应当具备与人类相似的跟驰行为策略。深度强化学习是一种结合强化学习方法与深度学习，通过探索试错的方式以获得最大的期望回报，找到最优的行为策略的方法，是建模跟驰行为策略的有利工具，可以通过深度强化学习方法，结合真实人类驾驶员数据训练类人跟驰行为策略模型。然而，目前基于深度强化学习的类人跟驰行为策略模型仍具有一些不足，例如：

(1)基于深度强化学习的跟驰行为策略模型训练时间过长，难以收敛。现有基于深度强化学习的类人跟驰行为策略模型在训练时通过随机探索环境后环境给出的奖励更新自己的策略，并最终使得策略达到最优，由于跟驰环境数据的多样复杂，使得这一个随机探索过程通常较为漫长，难以收敛。

(2)基于深度强化学习的类人跟驰行为策略模型学习到的类人跟驰行为策略大多是对人类驾驶员行为的模仿，难以做出持平甚至超越人类驾驶员水平的行为。现有基于深度强化学习的类人跟驰行为策略模型的输入为真实人类跟驰行为数据，模型训练的优化目标仅仅是使得跟驰行为策略更像人类，这种单目标的、不会动态调整的优化策略降低了跟驰行为策略模型输出行为的水平上限，难以做出持平甚至超越人类驾驶员水平的行为。

综上所述，如何有效地利用深度强化学习方法，开发具有高度类人化特性、训练时间较短且能给出持平甚至超越人类驾驶员水平的跟驰行为的控制方法，已成为智能汽车领域亟待解决的关键技术难题。

发明内容

为了解决上述技术问题，本发明提供一种改进深度强化学习的智能汽车类人跟驰行为控制方法，包括以下步骤：

第一步、采集真实驾驶员跟驰行驶时的制动踏板和油门踏板开度数据、与前车的距离数据、自车的速度数据及前车的速度数据；

第二步、获得真实驾驶员跟驰行为数据集的离散制动踏板和油门踏板开度的动作概率分布p；

第三步，构建跟驰行为策略模型，包括：

步骤1：构建DDPG跟驰行为策略模型的状态输入；模型的状态空间S以自车与前车的间距s_rel、自车的速度v₀、前车的速度v_f作为状态空间的输入：

S＝{s_rel，v₀，v_f}

步骤2：构建跟驰行为策略模型的复合奖励函数r：

r＝w₁·r₁+w₂@r₂

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载