[发明专利]一种改进深度强化学习的智能汽车类人跟驰行为控制方法在审

申请号：	202211445665.4	申请日：	2022-11-18
公开（公告）号：	CN115830863A	公开（公告）日：	2023-03-21
发明（设计）人：	赵健;李思远;朱冰;宋东鉴	申请（专利权）人：	吉林大学
主分类号：	G08G1/01	分类号：	G08G1/01;G06N3/045;G06N3/08;B60W60/00
代理公司：	长春市恒誉专利代理事务所(普通合伙) 22212	代理人：	梁紫钺
地址：	130012 吉***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种改进深度强化学习智能汽车行为控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种改进深度强化学习的智能汽车类人跟驰行为控制方法，其特征在于：包括以下步骤：

第一步、采集真实驾驶员跟驰行驶时的制动踏板和油门踏板开度数据、与前车的距离数据、自车的速度数据及前车的速度数据；

第二步、获得真实驾驶员跟驰行为数据集的离散制动踏板和油门踏板开度的动作概率分布p；

第三步，构建跟驰行为策略模型，包括：

步骤1：构建DDPG跟驰行为策略模型的状态输入；模型的状态空间S以自车与前车的间距s_rel、自车的速度v₀、前车的速度v_f作为状态空间的输入：

S＝{s_rel，v₀，v_f}

步骤2：构建跟驰行为策略模型的复合奖励函数r：

r＝w₁·r₁+w₂·r₂

r₁为相似奖励函数，r₂为多目标奖励函数，w₁为相似奖励函数的权重，w₂为多目标奖励函数的权重，w₁+w₂＝1,w₁＞0,w₂＞0；

步骤3：构建奖励评估器T(R)：

根据建立的多目标奖励函数r₂的表达式，分别计算真实驾驶员跟驰行为的制动踏板或油门踏板开度的动作的平均奖励值R₂与当前深度强化学习策略给出的动作的平均奖励R'₂，当R'₂≥R₂时，减小w₁的值，增大w₂的值；

步骤4：构建DDPG框架，包括：构建DDPG的Actor网络μ(ω₁)及其目标网络target Actor网络构建DDPG的Critic网络及其目标网络target Critic网络ω₁、为神经网络参数；Actor网络μ(ω₁)根据当前的状态，输出一个制动踏板或油门踏板开度动作；

步骤5：建立Replaybuffer经验回放缓存区；

将状态-动作-奖励-状态转移的四元组{s_t,a_t,r_2,t,s_t+1}存入Replaybuffer经验回放缓存区中，直至Replaybuffer经验回放缓存区收集N₀个状态-动作-奖励-状态转移的四元组{s_t,a_t,r_2,t,s_t+1}，其中下标t为时间步，s_t代表t时刻的状态，a_t代表t时刻做出的动作，r_2,t代表t时刻多目标奖励函数给出的奖励，s_t+1代表下一个时间t+1的状态；