[发明专利]一种改进深度强化学习的智能汽车类人跟驰行为控制方法在审
申请号: | 202211445665.4 | 申请日: | 2022-11-18 |
公开(公告)号: | CN115830863A | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 赵健;李思远;朱冰;宋东鉴 | 申请(专利权)人: | 吉林大学 |
主分类号: | G08G1/01 | 分类号: | G08G1/01;G06N3/045;G06N3/08;B60W60/00 |
代理公司: | 长春市恒誉专利代理事务所(普通合伙) 22212 | 代理人: | 梁紫钺 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 深度 强化 学习 智能 汽车 行为 控制 方法 | ||
1.一种改进深度强化学习的智能汽车类人跟驰行为控制方法,其特征在于:包括以下步骤:
第一步、采集真实驾驶员跟驰行驶时的制动踏板和油门踏板开度数据、与前车的距离数据、自车的速度数据及前车的速度数据;
第二步、获得真实驾驶员跟驰行为数据集的离散制动踏板和油门踏板开度的动作概率分布p;
第三步,构建跟驰行为策略模型,包括:
步骤1:构建DDPG跟驰行为策略模型的状态输入;模型的状态空间S以自车与前车的间距s_rel、自车的速度v0、前车的速度vf作为状态空间的输入:
S={s_rel,v0,vf}
步骤2:构建跟驰行为策略模型的复合奖励函数r:
r=w1·r1+w2·r2
r1为相似奖励函数,r2为多目标奖励函数,w1为相似奖励函数的权重,w2为多目标奖励函数的权重,w1+w2=1,w1>0,w2>0;
步骤3:构建奖励评估器T(R):
根据建立的多目标奖励函数r2的表达式,分别计算真实驾驶员跟驰行为的制动踏板或油门踏板开度的动作的平均奖励值R2与当前深度强化学习策略给出的动作的平均奖励R'2,当R'2≥R2时,减小w1的值,增大w2的值;
步骤4:构建DDPG框架,包括:构建DDPG的Actor网络μ(ω1)及其目标网络target Actor网络构建DDPG的Critic网络及其目标网络target Critic网络ω1、为神经网络参数;Actor网络μ(ω1)根据当前的状态,输出一个制动踏板或油门踏板开度动作;
步骤5:建立Replaybuffer经验回放缓存区;
将状态-动作-奖励-状态转移的四元组{st,at,r2,t,st+1}存入Replaybuffer经验回放缓存区中,直至Replaybuffer经验回放缓存区收集N0个状态-动作-奖励-状态转移的四元组{st,at,r2,t,st+1},其中下标t为时间步,st代表t时刻的状态,at代表t时刻做出的动作,r2,t代表t时刻多目标奖励函数给出的奖励,st+1代表下一个时间t+1的状态;
第四步,训练模型,包括:
步骤1:从Replaybuffer经验回放缓存区中采样n个四元组{si,ai,r2,i,si+1}i=1,....n,下标i表示该四元组是第i个被采样的四元组;
步骤2:计算DDPG网络给出的离散制动踏板或油门踏板开度的动作概率分布q;
步骤3:计算所有采样的四元组的相似奖励函数r1;
步骤4:计算每个四元组的复合奖励函数ri;
步骤5:对每个元组,用目标网络target Critic网络计算预测价值;
步骤6:更新当前的Actor网络和当前的Critic网络;
步骤7:奖励评估器T(R)计算真实驾驶员跟驰行为的制动踏板或油门踏板开度的动作的平均奖励值R2,与当前深度强化学习策略给出的动作的平均奖励R′2;
步骤8:更新目标网络;
重复上述步骤,直至训练收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211445665.4/1.html,转载请声明来源钻瓜专利网。