[发明专利]一种改进深度强化学习的智能汽车类人跟驰行为控制方法在审
申请号: | 202211445665.4 | 申请日: | 2022-11-18 |
公开(公告)号: | CN115830863A | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 赵健;李思远;朱冰;宋东鉴 | 申请(专利权)人: | 吉林大学 |
主分类号: | G08G1/01 | 分类号: | G08G1/01;G06N3/045;G06N3/08;B60W60/00 |
代理公司: | 长春市恒誉专利代理事务所(普通合伙) 22212 | 代理人: | 梁紫钺 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 深度 强化 学习 智能 汽车 行为 控制 方法 | ||
本发明提供一种改进深度强化学习的智能汽车类人跟驰行为控制方法,包括第一步、采集真实驾驶员跟驰行驶时的制动踏板和油门踏板开度数据、与前车的距离数据、自车的速度数据及前车的速度数据;第二步、获得真实驾驶员跟驰行为数据集的离散制动踏板和油门踏板开度的动作概率分布p;第三步,构建跟驰行为策略模型;第四步,训练模型。本发明复合奖励函数的设置及通过奖励评估器动态调节复合奖励函数的权重的设置能够保障本发明类人跟驰行为策略模型具有良好的类人特性,在降低人机差异的同时,提高了智能汽车的用户接受度、信任度和社会认同度,减少了本发明类人跟驰行为策略模型的训练时间,并提高了最终训练完成的模型的输出效果。
技术领域
本发明涉及一种智能汽车类人跟驰行为控制方法,特别涉及一种基于改进深度强化学习方法的智能汽车类人跟驰行为控制方法。
背景技术
随着汽车的智能化技术不断提高,配备智能驾驶系统的自动驾驶智能汽车的保有量不断增加。跟驰行为是微观交通流的核心组成部分,对研究车辆间的博弈行为及所在车道的交通流特性至关重要。为了提高智能汽车的社会认同度、用户信任度和接受度、提升交通效率并降低由于人机差异造成事故的风险,智能汽车应当具备与人类相似的跟驰行为策略。深度强化学习是一种结合强化学习方法与深度学习,通过探索试错的方式以获得最大的期望回报,找到最优的行为策略的方法,是建模跟驰行为策略的有利工具,可以通过深度强化学习方法,结合真实人类驾驶员数据训练类人跟驰行为策略模型。然而,目前基于深度强化学习的类人跟驰行为策略模型仍具有一些不足,例如:
(1)基于深度强化学习的跟驰行为策略模型训练时间过长,难以收敛。现有基于深度强化学习的类人跟驰行为策略模型在训练时通过随机探索环境后环境给出的奖励更新自己的策略,并最终使得策略达到最优,由于跟驰环境数据的多样复杂,使得这一个随机探索过程通常较为漫长,难以收敛。
(2)基于深度强化学习的类人跟驰行为策略模型学习到的类人跟驰行为策略大多是对人类驾驶员行为的模仿,难以做出持平甚至超越人类驾驶员水平的行为。现有基于深度强化学习的类人跟驰行为策略模型的输入为真实人类跟驰行为数据,模型训练的优化目标仅仅是使得跟驰行为策略更像人类,这种单目标的、不会动态调整的优化策略降低了跟驰行为策略模型输出行为的水平上限,难以做出持平甚至超越人类驾驶员水平的行为。
综上所述,如何有效地利用深度强化学习方法,开发具有高度类人化特性、训练时间较短且能给出持平甚至超越人类驾驶员水平的跟驰行为的控制方法,已成为智能汽车领域亟待解决的关键技术难题。
发明内容
为了解决上述技术问题,本发明提供一种改进深度强化学习的智能汽车类人跟驰行为控制方法,包括以下步骤:
第一步、采集真实驾驶员跟驰行驶时的制动踏板和油门踏板开度数据、与前车的距离数据、自车的速度数据及前车的速度数据;
第二步、获得真实驾驶员跟驰行为数据集的离散制动踏板和油门踏板开度的动作概率分布p;
第三步,构建跟驰行为策略模型,包括:
步骤1:构建DDPG跟驰行为策略模型的状态输入;模型的状态空间S以自车与前车的间距s_rel、自车的速度v0、前车的速度vf作为状态空间的输入:
S={s_rel,v0,vf}
步骤2:构建跟驰行为策略模型的复合奖励函数r:
r=w1·r1+w2@r2
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211445665.4/2.html,转载请声明来源钻瓜专利网。