[发明专利]一种机器人移动方法、装置、设备及存储介质在审
申请号: | 202111281034.9 | 申请日: | 2021-11-01 |
公开(公告)号: | CN113988196A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 冷晓琨;常琳;王松;白学林;柯真东;吴雨璁;何治成;黄贤贤 | 申请(专利权)人: | 乐聚(深圳)机器人技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 曹瑞敏 |
地址: | 518110 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器人 移动 方法 装置 设备 存储 介质 | ||
本申请提供一种机器人移动方法、装置、设备及存储介质,属于机器人控制技术领域。该方法包括:获取机器人的实际状态信息,实际状态信息包括:当前状态信息以及目标状态信息;将实际状态信息输入至预先训练得到的目标神经网络模型,得到机器人的待执行动作参数,其中,目标神经网络模型基于强化学习奖励函数训练得到,强化学习奖励函数用于根据机器人当前位置到目标点的距离以及机器人与目标障碍物的距离计算奖励结果;根据待执行动作参数控制机器人移动至目标点。本申请可以避免机器人与障碍物发生碰撞,降低机器人移动过程中的风险。
技术领域
本申请涉及机器人控制技术领域,具体而言,涉及一种机器人移动方法、装置、设备及存储介质。
背景技术
在对机器人的导航控制的过程中,通常会存在障碍物挡住机器人规划好的路线,这就导致了机器人亟需一种避障的方式避开这些障碍物从而到达目标点。
现有技术中,通常是在获取到障碍物的位置后,规划出另一条路进行绕行,然而在实际场景中,障碍物很有可能是移动中的人或物,也即是动态障碍物,若规划出新的道路,有可能会产生对动态障碍物抢道的情况。
这就导致了可能因抢道而发生与动态障碍物的碰撞,增加了机器人在移动过程中的风险。
发明内容
本申请的目的在于提供一种机器人移动方法、装置、设备及存储介质,可以避免机器人与障碍物发生碰撞,降低机器人移动过程中的风险。
本申请的实施例是这样实现的:
本申请实施例的一方面,提供一种机器人移动方法,包括:
获取机器人的实际状态信息,实际状态信息包括:当前状态信息以及目标状态信息;
将实际状态信息输入至预先训练得到的目标神经网络模型,得到机器人的待执行动作参数,其中,目标神经网络模型基于强化学习奖励函数训练得到,强化学习奖励函数用于根据机器人当前位置到目标点的距离以及机器人与目标障碍物的距离计算奖励结果;
根据待执行动作参数控制机器人移动至目标点。
可选地,获取机器人的状态信息之前,该方法还包括:
采集机器人实际运行时的状态信息作为样本状态信息,样本状态信息包括:当前状态信息以及目标状态信息;
将样本状态信息输入至初始神经网络模型,得到样本输出结果;
基于样本状态信息确定机器人当前位置到目标点的距离以及机器人与目标障碍物的距离;
根据机器人当前位置到目标点的距离、机器人与目标障碍物的距离以及强化学习奖励函数,得到样本奖励结果;
根据样本奖励结果对初始神经网络模型的模型参数进行更新。
可选地,根据机器人当前位置到目标点的距离、机器人与目标障碍物的距离以及强化学习奖励函数,得到样本奖励结果,包括:
利用强化学习奖励函数,分别计算机器人当前位置到目标点的距离对应的第一奖励结果以及机器人与目标障碍物的距离对应的第二奖励结果,并根据第一奖励结果以及第二奖励结果计算样本奖励结果。
可选地,根据样本奖励结果对初始神经网络模型的模型参数进行更新之后,该方法包括:
基于样本状态信息以及更新后的神经网络模型确定更新后的样本输出结果;
按照更新后的样本输出结果控制机器人移动至目标点;
若移动时间大于预设阈值或者机器人与障碍物发生碰撞,对更新后的神经网络模型的模型参数进行更新。
可选地,按照更新后的样本输出结果控制机器人移动至目标点,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐聚(深圳)机器人技术有限公司,未经乐聚(深圳)机器人技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111281034.9/2.html,转载请声明来源钻瓜专利网。