[发明专利]机械臂导航避障方法、系统、计算机设备及存储介质在审
| 申请号: | 202210462455.X | 申请日: | 2022-04-28 |
| 公开(公告)号: | CN114603564A | 公开(公告)日: | 2022-06-10 |
| 发明(设计)人: | 闫冬;陈盛;王新迎;赵琦;谈元鹏;吴凯;郭锐;李勇;许乃媛;李笋 | 申请(专利权)人: | 中国电力科学研究院有限公司;国网安徽省电力有限公司电力科学研究院;国网山东省电力公司 |
| 主分类号: | B25J9/16 | 分类号: | B25J9/16 |
| 代理公司: | 北京中巡通大知识产权代理有限公司 11703 | 代理人: | 张晓凯 |
| 地址: | 100192 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 机械 导航 方法 系统 计算机 设备 存储 介质 | ||
本发明属于人工智能技术领域,公开了一种机械臂导航避障方法、系统、计算机设备及存储介质,包括:获取机械臂当前的状态张量;将机械臂当前的状态张量输入预设的机械臂导航避障深度强化学习模型中,得到机械臂的决策动作轨迹;其中,所述机械臂导航避障深度强化学习模型,基于在模仿学习环境下以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型构建得到;根据机械臂的决策动作轨迹,控制机械臂运行。基于导航规划算法作先验指导,使模型具备一定的基础隐性知识,能够使机械臂适应不同种类的障碍环境,能够快速训练并顺利迁移至实际环境使用,避免复杂的奖励体系构建,极大的提升了训练速度,降低资源消耗。
技术领域
本发明属于人工智能技术领域,涉及一种机械臂导航避障方法、系统、计算机设备及存储介质。
背景技术
深度强化学习技术是实现机器人智能控制的核心技术,目前在人形机器人行走、多臂机器人行走以及机械臂抓取等任务上取得了突破进展。深度强化学习技术的应用需要与一个可交互环境建立策略尝试及反馈机制,需要不断地将智能体最新策略输入到交互环境中,通过交互环境给出的反馈结果确定策略的提升方向,在大量交互经验的基础上,构建可实现实时端到端决策的智能体,通常使用深度神经网络作为这一策略的载体。
机器人控制问题非常适合深度强化学习应用。其一,完备的仿真交互平台能够天然的作为可交互环境存在,而高精度仿真环境保证了策略交互的真实性,便于后期智能体直接向真实环境迁移。其二,机器人控制往往涉及多变量以及难以精确动力学建模的问题,而基于深度强化学习正好可以克服这一难题,继而为机器人适应不同环境提供了可能。
但是,深度强化学习训练容易受问题复杂度和反馈信息稀疏程度影响,遇到复杂随机多变的环境不能有效收敛,而机械臂导航避障的工作环境正是一种复杂随机多变的环境,应用深度强化学习时需要构建复杂的奖励体系,这使得深度强化学习难以有效应用至机械臂导航避障中。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供一种机械臂导航避障方法、系统、计算机设备及存储介质。
为达到上述目的,本发明采用以下技术方案予以实现:
本发明第一方面,一种机械臂导航避障方法,包括:
获取机械臂当前的状态张量;
将机械臂当前的状态张量输入预设的机械臂导航避障深度强化学习模型中,得到机械臂的决策动作轨迹;其中,所述机械臂导航避障深度强化学习模型,基于在模仿学习环境下以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型构建得到;
根据机械臂的决策动作轨迹,控制机械臂运行。
可选的,所述状态张量包括状态显式数值信息、空间隐式特征信息以及机械臂当前时刻及前T个时刻的状态显式时序信息;其中,状态显式时序信息包括机械臂自由度关节角、机械臂臂体末端位置坐标以及机械臂末端到目标点的距离;状态显式数值信息包括目标点坐标、目标点是否到达以及机械臂臂体是否与障碍物发生碰撞;空间隐式特征信息包括障碍物在空间分布的平面网格矩阵。
可选的,所述机械臂导航避障深度强化学习模型通过下述方法构建得到:
获取在模仿学习环境下,以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型;
当机械臂导航避障的当前环境与模仿学习环境之间的特征差异小于预设特征差异阈值时,根据机械臂导航避障的当前环境,基于PPO算法训练初始机械臂导航避障深度强化学习模型,得到预设的机械臂导航避障深度强化学习模型;
否则,将初始机械臂导航避障深度强化学习模型中行动器的输出层替换为初始化全连接网络模型,并固定所述行动器中除初始化全连接网络模型的模型参数外的模型参数,然后基于PPO算法训练初始机械臂导航避障深度强化学习模型,得到预设的机械臂导航避障深度强化学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国网安徽省电力有限公司电力科学研究院;国网山东省电力公司,未经中国电力科学研究院有限公司;国网安徽省电力有限公司电力科学研究院;国网山东省电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210462455.X/2.html,转载请声明来源钻瓜专利网。





