[发明专利]一种模型训练以及轨迹规划的方法及装置有效
申请号: | 202110338028.6 | 申请日: | 2021-03-30 |
公开(公告)号: | CN112949756B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 李潇;丁曙光;杜挺;袁克彬;任冬淳 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 以及 轨迹 规划 方法 装置 | ||
本说明书公开了一种模型训练以及轨迹规划的方法及装置,可获取无人设备的状态信息作为训练样本,针对每次迭代训练,获取上一次迭代训练得到的轨迹置信度,将训练样本输入位置确定模型,得到由位置确定模型根据训练样本和获取的轨迹置信度输出的目标位置,根据训练样本以及目标位置,通过决策模型得到无人设备到达目标位置的目标轨迹以及目标轨迹的轨迹置信度。通过上述方法,基于每次目标轨迹的轨迹置信度,位置确定模型可重新确定更好的目标位置,从而基于目标位置由决策模型再次规划目标轨迹,以此来训练位置确定模型以及决策模型。
技术领域
本说明书涉及无人驾驶技术领域,尤其涉及一种模型训练以及轨迹规划的方法及装置。
背景技术
通常,无人设备在运行时,可通过机器学习模型确定控制信息,并基于控制信息对无人设备进行控制。
例如,无人设备可将无人设备当前的状态、环境信息等输入强化学习模型,得到强化学习模型输出的油门控制量、方向盘转角等信息,并控制无人设备按照强化学习模型输出的信息运行。
实际上,上述方式在无人设备的运行中,随着时间的推移不断地基于强化学习模型得到控制信息,而无人设备按照控制信息运行时,运行的轨迹可能在轨迹线曲率等方面不够平滑,导致运行的舒适性和可靠性并不能得到较好的保障,因此,如何较好地控制无人设备的运行,成为亟需解决的问题。
发明内容
本说明书实施例提供一种模型训练以及轨迹规划的方法及装置,以部分地解决现有技术存在的上述问题。
本说明书实施例采用下述技术方案:
本说明书提供的一种模型训练的方法,所述方法包括:
获取无人设备的状态信息作为训练样本;
根据所述训练样本,采用下述方法对位置确定模型以及决策模型进行迭代训练:
针对每次迭代训练,获取上一次迭代训练得到的轨迹置信度,将所述训练样本输入所述位置确定模型,得到由所述位置确定模型根据所述训练样本和获取的轨迹置信度输出的目标位置,所述位置确定模型用于规划所述无人设备的目标位置;
根据所述训练样本以及所述目标位置,通过决策模型得到所述无人设备到达所述目标位置的目标轨迹以及所述目标轨迹的轨迹置信度。
可选地,根据所述训练样本以及所述目标位置,通过决策模型得到所述无人设备到达所述目标位置的目标轨迹以及所述目标轨迹的轨迹置信度,具体包括:
在所述目标位置的邻域内,确定若干个指定位置,由所述目标位置以及各指定位置组成位置集合;
将所述训练样本以及所述位置集合输入所述决策模型,得到由所述决策模型输出的所述无人设备到达所述位置集合中包含的每个位置的待定轨迹以及每个待定轨迹的轨迹置信度;
根据各轨迹置信度,在各待定轨迹中,选择所述目标轨迹。
可选地,所述决策模型包括第一子模型以及第二子模型;
根据所述训练样本以及所述目标位置,通过决策模型得到所述无人设备到达所述目标位置的目标轨迹以及所述目标轨迹的轨迹置信度,具体包括:
将所述训练样本以及所述目标位置输入所述第一子模型,得到所述第一子模型输出的所述目标轨迹;
将所述目标轨迹输入所述第二子模型,由所述第二子模型根据预设的若干个参数,得到所述目标轨迹的轨迹置信度。
可选地,将所述训练样本以及所述目标位置输入所述第一子模型,得到所述第一子模型输出的所述目标轨迹,具体包括:
获取所述无人设备所处环境中各障碍物的信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110338028.6/2.html,转载请声明来源钻瓜专利网。