[发明专利]机械臂导航避障方法、系统、计算机设备及存储介质在审
| 申请号: | 202210462455.X | 申请日: | 2022-04-28 |
| 公开(公告)号: | CN114603564A | 公开(公告)日: | 2022-06-10 |
| 发明(设计)人: | 闫冬;陈盛;王新迎;赵琦;谈元鹏;吴凯;郭锐;李勇;许乃媛;李笋 | 申请(专利权)人: | 中国电力科学研究院有限公司;国网安徽省电力有限公司电力科学研究院;国网山东省电力公司 |
| 主分类号: | B25J9/16 | 分类号: | B25J9/16 |
| 代理公司: | 北京中巡通大知识产权代理有限公司 11703 | 代理人: | 张晓凯 |
| 地址: | 100192 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 机械 导航 方法 系统 计算机 设备 存储 介质 | ||
1.一种机械臂导航避障方法,其特征在于,包括:
获取机械臂当前的状态张量;
将机械臂当前的状态张量输入预设的机械臂导航避障深度强化学习模型中,得到机械臂的决策动作轨迹;其中,所述机械臂导航避障深度强化学习模型,基于在模仿学习环境下以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型构建得到;
根据机械臂的决策动作轨迹,控制机械臂运行。
2.根据权利要求1所述的机械臂导航避障方法,其特征在于,所述状态张量包括状态显式数值信息、空间隐式特征信息以及机械臂当前时刻及前T个时刻的状态显式时序信息;其中,状态显式时序信息包括机械臂自由度关节角、机械臂臂体末端位置坐标以及机械臂末端到目标点的距离;状态显式数值信息包括目标点坐标、目标点是否到达以及机械臂臂体是否与障碍物发生碰撞;空间隐式特征信息包括障碍物在空间分布的平面网格矩阵。
3.根据权利要求1所述的机械臂导航避障方法,其特征在于,所述机械臂导航避障深度强化学习模型通过下述方法构建得到:
获取在模仿学习环境下,以导航规划算法作先验指导进行预训练得到的初始机械臂导航避障深度强化学习模型;
当机械臂导航避障的当前环境与模仿学习环境之间的特征差异小于预设特征差异阈值时,根据机械臂导航避障的当前环境,基于PPO算法训练初始机械臂导航避障深度强化学习模型,得到预设的机械臂导航避障深度强化学习模型;
否则,将初始机械臂导航避障深度强化学习模型中行动器的输出层替换为初始化全连接网络模型,并固定所述行动器中除初始化全连接网络模型的模型参数外的模型参数,然后基于PPO算法训练初始机械臂导航避障深度强化学习模型,得到预设的机械臂导航避障深度强化学习模型。
4.根据权利要求3所述的机械臂导航避障方法,其特征在于,所述初始机械臂导航避障深度强化学习模型通过下述方法构建得到:
基于预设的导航规划算法,获取模仿学习环境中各预设作业场景下,机械臂导航避障的专家样本;
构建生成器模型,生成器模型中包括结构相同的新生成器网络和旧生成器网络,旧生成器网络的参数由新生成器网络的参数延迟更新得到,旧生成器网络的参数用于辅助更新新生成器网络的参数,新生成器网络以机械臂的状态张量为输入,以机械臂在当前状态张量下的决策动作为输出;
构建以机械臂的状态张量和在当前状态张量下的决策动作为输入,以当前决策动作最终能够实现合理路径规划的概率值为输出的判别器模型;
构建以机械臂的状态张量为输入,以机械臂的状态张量的价值函数值为输出的评价器模型;
基于生成器模型,获取模仿学习环境中各预设作业场景下,机械臂导航避障的生成样本;
通过所述专家样本和所述生成样本,训练生成器模型、判别器模型和评价器模型,至预设的训练完成依据条件,得到训练完成的生成器模型和评价器模型;
构建以机械臂当前的状态张量为输入,以机械臂的决策动作轨迹为输出的初始深度强化学习模型,并采用训练完成的生成器模型替换初始深度强化学习模型中的行动器,采用训练完成的评价器模型替换初始深度强化学习模型中的评价器,得到初始机械臂导航避障深度强化学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国网安徽省电力有限公司电力科学研究院;国网山东省电力公司,未经中国电力科学研究院有限公司;国网安徽省电力有限公司电力科学研究院;国网山东省电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210462455.X/1.html,转载请声明来源钻瓜专利网。





