[发明专利]一种轨迹跟踪控制方法、装置及无人驾驶车辆有效
| 申请号: | 201910502179.3 | 申请日: | 2019-06-11 |
| 公开(公告)号: | CN110221611B | 公开(公告)日: | 2020-09-04 |
| 发明(设计)人: | 付圣;颜诗涛;任冬淳;钱德恒;丁曙光 | 申请(专利权)人: | 北京三快在线科技有限公司 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝;赵美林 |
| 地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 轨迹 跟踪 控制 方法 装置 无人驾驶 车辆 | ||
1.一种轨迹跟踪控制方法,应用于无人驾驶车辆,其特征在于,包括:
获取所述无人驾驶车辆的第一状态信息;所述第一状态信息包括指示第一时刻所述无人驾驶车辆与期望轨迹的位置偏差量;
将所述第一状态信息输入至长短期记忆神经网络,获得所述长短期记忆神经网络输出的第一控制量;
基于模型预测控制器MPC的模型预测功能,依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量,当评价结果为好评时,控制所述无人驾驶车辆根据所述第一控制量执行动作,实现轨迹跟踪。
2.如权利要求1所述的方法,其特征在于,在所述依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量之后,所述方法进一步包括:
当评价结果为差评时,通过模型预测控制器MPC根据获取的所述第一状态信息生成第二控制量,控制所述无人驾驶车辆根据所述第二控制量执行动作,实现轨迹跟踪,
其中,所述第二控制量的评价结果为好评。
3.如权利要求2所述的方法,其特征在于,在所述将所述第一状态信息输入至长短期记忆神经网络之前,所述方法进一步包括:
预先训练深度强化学习模型,确定出深度强化学习模型的策略参数;所述深度强化学习模型用于将状态信息映射为所述无人驾驶车辆的控制量;
根据所述深度强化学习模型输出的经验数据,训练所述长短期记忆神经网络。
4.如权利要求3所述的方法,其特征在于,在通过模型预测控制器MPC根据获取的所述第一状态信息生成第二控制量之后,所述方法还包括:
记录在第一状态下,所述无人驾驶车辆根据所述第二控制量执行动作后获得的第一奖励分数,以及所述无人驾驶车辆根据所述第一控制量执行动作后获得的第二奖励分数,
保存由所述第一状态信息,所述第一控制量,所述第一奖励分数和第二状态信息组成的第一序列,以及由所述第一状态信息,所述第二控制量,所述第二奖励分数和第二状态信息组成的第二序列;其中,所述第二奖励分数小于所述第一奖励分数,所述第二状态是所述无人驾驶车辆在第一状态下,根据所述第一控制量执行动作后迁移到的状态;
将所述第一序列和所述第二序列作为样本数据,输入到所述深度强化学习模型中进行训练,以更新所述深度强化学习模型的策略参数。
5.如权利要求3所述的方法,其特征在于,所述预先训练深度强化学习模型包括:
获取样本数据,所述样本数据是由第一样本状态信息,第一样本控制量,奖励分数和第二样本状态信息组成的序列;其中,所述第二样本状态是所述无人驾驶车辆在第一样本状态下,根据所述第一样本控制量执行动作后迁移到的状态,所述第一样本状态信息包括指示第一样本时刻所述无人驾驶车辆与样本轨迹的位置偏差量;
将所述样本数据输入至所述深度强化学习模型中进行训练,得到所述深度强化学习模型的策略参数。
6.如权利要求5所述的方法,其特征在于,所述第一状态信息以及所述第一样本状态信息中还包括:附着系数,
所述附着系数指示所述无人驾驶车辆的轮胎在路面上的附着能力。
7.如权利要求3所述的方法,其特征在于,所述根据所述深度强化学习模型输出的经验数据,训练所述长短期记忆神经网络包括:
将所述深度强化学习模型输出的经验数据作为训练数据,输入至所述长短期记忆神经网络并训练所述长短期记忆神经网络;
其中,所述经验数据是由第一样本状态信息以及第一样本控制量组成的序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910502179.3/1.html,转载请声明来源钻瓜专利网。





