[发明专利]一种基于视觉位姿感知和深度强化学习的机器人抓取方法在审
申请号: | 202010036635.2 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111251294A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 陈智鑫;林梦香;贾之馨 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;邓治平 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 感知 深度 强化 学习 机器人 抓取 方法 | ||
1.一种基于视觉位姿感知和深度强化学习的机器人抓取方法,其特征在于:
利用深度学习方法对物体进行识别和定位,利用深度强化学习对机器人进行控制并执行对物体的抓取;机器人执行抓取的环境为:在工作平面内放置多个待抓取物体,视觉传感器固定在物体正上方,机器人位于工作平面侧方;该方法包括如下步骤:
第一步,根据视觉传感器获得的图像,利用基于区域的掩码卷积神经网络(Mask RCNN)算法在图像上生成所有物体的掩码,得到所有物体掩码所包含的像素点集;
第二步,求取第一步中所得的每一个掩码的像素中心,并利用主成分分析(PCA)算法对每一个掩码求取第一主成分方向,得到每一个物体在图像中的像素位置(xk-pixel,yk-pixel)和朝向θk;
第三步,将第二步所得的每一个物体的像素位置和朝向通过坐标变换得到每一个物体在工作平面内的物理位置(xk,yk)和朝向θk;
第四步,获取当前机器人的物理位置和朝向,指定一物体作为目标物体,联合第三步获得的该目标物体的物理位置和朝向,作为深度强化学习算法近端策略优化算法(PPO)的输入,近端策略优化算法(PPO)输出对机器人的控制指令;
第五步,机器人接收到第四步所得到的控制指令并执行,执行结束后计算当前机器人位置与目标物体位置的欧式距离,若小于一定阈值,则执行抓取物体动作,完成对物体的抓取。
2.根据权利要求1所述的一种基于视觉位姿感知和深度强化学习的机器人抓取方法,其特征在于:
分离感知和控制部分,环境的感知由Mask RCNN算法和PCA算法实现,机器人的控制由深度强化学习PPO算法实现,PPO不直接使用视觉传感器的数据而是利用Mask RCNN算法和PCA算法的结果,降低PPO算法的训练代价。
3.根据权利要求1所述的基一种基于视觉位姿感知和深度强化学习的机器人抓取方法,其特征在于:所述第一步中,得到某一物体掩码所包含的像素点集的方法为:
对一个特定类别的物体,Mask RCNN的输出中包含目标物体的覆盖矩形,以及矩形内的每个像素点是否为物体上一点的标志信号;首先初始化一个空的目标点集合,遍历覆盖矩形中的每一个像素点,若该像素点是物体上的一点,则将其加入目标点集合中,直到完成矩形内的所有像素点的遍历,得到该物体掩码所包含的所有像素点集。
4.根据权利要求1所述的一种基于视觉位姿感知和深度强化学习的机器人抓取方法,其特征在于:所述第二步中,得到每一个物体在图像中的像素位置和朝向的方法为:
对第一步中所得到的物体掩码所包含的像素点集求平均值,即得到该物体的像素位置,记为(xk-pixel,yk-pixel);利用PCA算法对第一步所得到的物体掩码求取第一主成分,所得到的是一条直线上的像素点集合,求该直线和水平方向的夹角,作为目标物体的朝向θk。
5.根据权利要求1所述的一种基于视觉位姿感知和深度强化学习的机器人抓取方法,其特征在于:所述第三步中,将像素位置朝向变换到物理位置和朝向的方法为:
由于视觉传感器在工作平面的正上方,其视角与工作平面垂直,位置关系是确定的;通过测量视觉传感器视野的左上角、右下角两个角点坐标(x1,y1),(x2,y2),根据公式:
求得物体在工作平面内的物理位置(x,y),式中Rx,Ry为视觉传感器的分辨率,θk与第二步中求得的物体像素朝向θk一致。
6.根据权利要求1所述的一种基于视觉位姿感知和深度强化学习的机器人抓取方法,其特征在于:
所述第四步中,PPO算法具体如下:
串联机器人物理位置、朝向和目标物体的物理位置、朝向组成一个六维向量作为输入,经过一层包含512个神经元的全连接神经网络,得到一个512维的隐含层变量,将该隐含层变量分别输入两个包含512个神经元的全连接神经网络,得到两个512维的向量,分别是动作向量(action vector)和价值向量(value vector);价值向量最后经过一个包含1个神经元的全连接神经网络,得到一个标量,称为环境状态价值(environment state value);动作向量经过一个包含6个神经元的全连接神经网络,得到一个6维的向量,其中前3维表示动作均值μ,后3维表示动作方差σ;根据动作均值和动作方差构建一个正态分布,并从正态分布中采样得到动作,并作为控制指令发送给机器人;
PPO算法使用如下奖励函数对神经网络进行训练:
其中d是当前机器人位置和朝向与目标物体的位置和朝向的欧氏距离,其中朝向θk是[0,π]的弧度制,在求取d时除以权重π,以缩放到与距离同一尺度,Rt是深度强化学习PPO的奖励函数,下标t是某一时间步,PPO输出的动作每一次执行即每一个时间步都会获得一个奖励,直到整个任务完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010036635.2/1.html,转载请声明来源钻瓜专利网。