[发明专利]一种基于深度强化学习的机械臂六自由度实时抓取方法有效

专利信息
申请号: 202110972705.X 申请日: 2021-08-24
公开(公告)号: CN113752255B 公开(公告)日: 2022-12-09
发明(设计)人: 禹鑫燚;徐靖;黄睿;邹超;欧林林;陈磊 申请(专利权)人: 浙江工业大学
主分类号: B25J9/16 分类号: B25J9/16
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵
地址: 310014 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 强化 学习 机械 自由度 实时 抓取 方法
【权利要求书】:

1.基于深度强化学习的机械臂六自由度实时抓取方法,其特征在于:包括如下步骤:

步骤1:通过双目相机采集抓取操作台上物体的图像信息;

步骤2:利用YOLOv5剪枝网络模型对图像进行目标检测训练;

步骤3:建立强化学习网络模型;

步骤4:通过机器人正逆运动学完成机械臂抓取移动;

步骤5:进行强化学习模型训练,使得机械臂完成抓取动作;

所述步骤2具体步骤如下:

2.1):为了降低梯度爆炸和梯度消失的可能性,减少池化层对梯度计算的影响,参考残差网络Resnet跳层连接结构,将卷积层的步长参数设为2,并对其余卷积层加入BatchNormalization(BN);借鉴CSPNet网络结构,由CBL模块、Res_unint模块以及卷积层、Concate组成CSP1_X模块;由卷积层和X个Res_unint模块Concate组成CSP2_X模块;其输入层由卷积层,Batch Normalization(BN),Leaky_Relu激活函数组成;根据输入彩色图大小,学习数据集中的锚框大小,达到自适应多尺度预测的目的;

2.2):使用基于训练数据自动学习和K-meas聚类算法,即使数据集中目标对象大小与COCO数据集中不同,YOLOv5也可以重新学习锚框的尺寸,得到适合自定义数据集中对象边界预测的预设锚框,此方法的目的是加速预测框的回归;YOLOv5剪枝网络模型前向推断中预测公式如下所示:

by=σ(ty)+cy (1)

bx=σ(tx)+cx (2)

进行目标检测框的预测,最后得到预测框相对于当前特征图的相对中心坐标值bx,by,以及预测框的宽和高bw,bh,cx,cy是输出特征图grid cell的左上角坐标,pw,ph为锚框的宽和高;tx,ty为网络预测的坐标偏移值,tw,th为网络预测的尺度缩放倍数;

2.3):设计YOLOv5损失函数,采用GIOU_Loss交叉熵损失来代替Smooth L1 Loss函数,设计的目标置信度损失函数如下所示:

其中网络输出ci通过Sigmoid函数得到

2.4):目标类别损失函数同样采用二值交叉熵,设计的目标类别损失函数如下所示:

其中,网络输出ci通过Sigmoid函数得到表示目标检测框i中存在第j类目标的Sigmoid概率:

2.5):目标定位损失函数采用MSE损失函数,如下所示:

其中:

其中表示预测框的坐标偏移量,表示真实框的坐标偏移量,(bx,by,bw,bh)为预测框的参数,(cx,cy,pw,ph)为锚框的参数,(gx,gy,gw,gh)为真实框的参数;

2.6):将上述所有损失函数通过权值相加得到总损失函数:

L(O,o,C,c,l,g)=λconfLconf(o,c)+λclaLcla(O,C)+λlocLloc(l,g) (11)

2.7):首先,通过步骤2.1)至2.4)不断降低模型总损失函数从而更新模型权重,得到训练好的权重参数;然后,将更新好的模型权重参数导入YOLOv5剪枝模型;其次,将上述步骤1采集到的抓取操作台上物体的图像信息作为网络模型的输入,输出为图像中物体的中心坐标点和标签值;

所述步骤3具体步骤如下:

3.1):通过以下公式对网络进行前向推理:

其中公式(12)表示在状态s,动作a下的期望回报,其中at表示t时刻采取的动作,st表示t时刻的状态,rt表示t时刻的回报;公式(13)表示网络总的回报函数;公式(14)为状态分布函数;公式(15)表示状态-动作函数;

3.2.1):设计强化学习网络损失函数,采用计算交叉熵损失函数,其公式如下所示:

其中τ=s0a0s1a1...snan...表示马尔可夫过程;

由于Pr{a|s}=π(s,a),故此可得公式(17);

3.2.2):权重更新函数如下所示:

其中fω:S×A→R是对的近似函数,当fω取极小值,Δω=0时,可推导出公式(19)

3.2.3):当满足公式(20)时,则通过权重系数得到最终的损失函数,如下所示:

3.3):首先,根据上述公式设计网络模型:特征提取网络由卷积层,BatchNormalization,MaxPooling池化层组成,最后加上全连接层;然后,通过降低步骤3.2.3中的损失函数从而更新模型权重,得到训练好的权重参数;接着,将更新好的权重参数导入强化学习网络模型;其次,对步骤1得到的彩色图像和深度图像进行缩放和归一化处理,使得两张图像格式符合强化学习网络的输入要求;将特征提取网络输出的两张张量通过Pytorch的concat进行横向拼接,送入Batch Normalization和卷积层组成的网络,输出大小为12544的特征概率热点图;

3.4):最后,将输出的张量整理为16张大小为28*28的热力图,找出最大概率抓取点所在坐标,即输出的为一组三维坐标数组;

3.5):将输出的三维数组中每一元素转换为机械臂末端分别绕x,y,z三个坐标轴旋转的角度,具体转换公式如下所示:

ax=((best_pix_ind[0]-14)*30/28)-pi (22)

by=((best_pix_ind[1]-14)*30/28) (23)

rz=(best_pix_ind[2]*180/16) (24)

其中ax表示为机械臂末端绕x轴旋转角度,即为末端执行器的侧倾角;by表示为机械臂末端绕y轴旋转角度,即为末端执行器的俯仰角;rz表示为机械臂末端绕z轴旋转角度,即为末端执行器的偏航角。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110972705.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top