[发明专利]换道决策模型生成方法和无人车换道决策方法及装置有效
申请号: | 201911181338.0 | 申请日: | 2019-11-27 |
公开(公告)号: | CN112937564B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 时天宇;冉旭 | 申请(专利权)人: | 魔门塔(苏州)科技有限公司 |
主分类号: | B60W30/095 | 分类号: | B60W30/095;B60W10/20;G05D1/02;G08G1/01;G06N3/08 |
代理公司: | 北京科领智诚知识产权代理事务所(普通合伙) 11782 | 代理人: | 陈士骞 |
地址: | 215100 江苏省苏州市相城区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 决策 模型 生成 方法 无人 车换道 装置 | ||
1.一种换道决策模型生成方法,包括:
获取车辆换道的训练样本集,所述训练样本集包括多个训练样本组,每个所述训练样本组包括车辆按照规划的换道轨迹完成换道的过程中每个时间步长下的训练样本,所述训练样本包括一组状态量及对应的控制量,所述状态量包括目标车辆的位姿、速度、加速度,目标车辆本车道前车的位姿、速度、加速度以及目标车道上跟车的位姿、速度、加速度;所述控制量包括目标车辆的速度、角速度;
通过所述训练样本集对基于深度强化学习网络的决策模型进行训练,得到换道决策模型,所述换道决策模型使得目标车辆的状态量与对应的控制量相关联;
所述基于深度强化学习网络的决策模型包括基于学习的预测网络和预先训练完成的基于规则的目标网络,所述通过所述训练样本集对基于深度强化学习网络的决策模型进行训练,得到换道决策模型的步骤包括:
对于预先加入经验池的训练样本集,将每组训练样本中的任一状态量作为所述预测网络的输入,得到所述预测网络对该状态量的下一时间步长的预测控制量;将训练样本中该状态量的下一时间步长的状态量和对应的控制量作为所述目标网络的输入,得到所述目标网络输出的价值评估Q值;
将所述预测控制量作为预先构建的环境模拟器的输入,得到所述环境模拟器输出的环境奖励以及下一时间步长的状态量;
将该状态量、对应的预测控制量、所述环境奖励以及下一时间步长的状态量作为一组经验数据存储到经验池中;
当所述经验数据的组数每达到第一预设数目后,根据多组所述经验数据以及每组经验数据对应的所述目标网络输出的Q值,计算损失函数,优化所述损失函数,得到所述预测网络参数变化的梯度,更新所述预测网络参数直至所述损失函数收敛;
当所述预测网络参数的更新次数达到第二预设数目后,获取经验池中环境奖励高于预设值的预测控制量和对应的状态量,或者获取经验池中环境奖励排名位于前第三预设数目的预测控制量和对应的状态量,将所述预测控制量以及对应的状态量添加至所述目标网络的目标网络训练样本集中,以训练更新所述目标网络的参数。
2.根据权利要求1所述的方法,所述训练样本集通过以下至少一种方式得到:
第一获取方式:
在模拟器中按照基于规则的优化算法使得车辆完成换道,获取多次换道过程中目标车辆和目标车辆本车道前车以及目标车道上跟车的每一时间步长下的所述状态量和对应的所述控制量;
第二获取方式:
从存储车辆换道信息的数据库中,采样出车辆换道过程中的车辆数据,所述车辆数据包括目标车辆和目标车辆本车道前车以及目标车道上跟车的每一时间步长下的所述状态量和对应的所述控制量。
3.根据权利要求1所述的方法,其特征在于,所述损失函数为第一预设数目个预设网络的价值评估Q值与目标网络的价值评估Q值的均方误差,所述预设网络的价值评估Q值关于输入的状态量、对应预测控制量以及预测网络的策略参数;所述目标网络的价值评估Q值关于输入的训练样本中的状态量、对应控制量以及目标网络的策略参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于魔门塔(苏州)科技有限公司,未经魔门塔(苏州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911181338.0/1.html,转载请声明来源钻瓜专利网。