[发明专利]一种基于深度强化学习的机器人抓取方法在审
| 申请号: | 201811644503.7 | 申请日: | 2018-12-29 |
| 公开(公告)号: | CN109693239A | 公开(公告)日: | 2019-04-30 |
| 发明(设计)人: | 黄睿;郎需林;刘培超;林俊凯;林炯辉 | 申请(专利权)人: | 深圳市越疆科技有限公司 |
| 主分类号: | B25J9/16 | 分类号: | B25J9/16 |
| 代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 曲卫涛 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 抓取 强化学习 机器人 控制机器人 环境状态 预设 机器人技术领域 策略控制 视觉标定 遍历 | ||
1.一种基于深度强化学习的机器人抓取方法,其特征在于,所述方法包括:
获取环境状态参数与预设抓取模型;
根据所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略;
根据所述最优抓取策略,控制所述机器人抓取物料。
2.根据权利要求1所述的方法,其特征在于,所述根据所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略,包括:
根据预设动态规划方程及所述环境状态参数,从所述预设抓取模型中遍历出最优抓取策略。
3.根据权利要求2所述的方法,其特征在于,所述根据所述最优抓取策略,控制所述机器人抓取物料,包括:
接收抓取指令,所述抓取指令包括相对位移与夹爪状态参数;
根据所述相对位移与夹爪状态参数,控制所述机器人的夹爪抓取物料放置于预设位置。
4.根据权利要求3所述的方法,其特征在于,所述夹爪状态参数包括张开抓取参数与关闭抓取参数;
所述根据所述相对位移与夹爪状态参数,控制所述机器人的夹爪抓取物料放置于预设位置,包括:
若所述夹爪状态参数为张开抓取参数,则控制所述机器人的夹爪按照所述相对位移移动至所述物料并抓取所述物料;
若所述夹爪状态参数为关闭抓取参数,则控制所述机器人的夹爪将所述物料放置于预设位置。
5.根据权利要求4所述的方法,其特征在于,所述控制所述机器人的夹爪将所述物料放置于预设位置,包括:
接收物料提起指令;
根据所述物料提起指令,控制所述机器人的夹爪提起所述物料,并将所述物料放置于预设位置。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述环境状态参数包括:抓取物料的环境视觉图像、夹爪高度以及所述机器人的笛卡尔空间位置。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
训练出所述预设抓取模型。
8.根据权利要求7所述的方法,其特征在于,所述训练出所述预设抓取模型,包括:
初始化所述机器人的初始位置与抓取策略,所述抓取策略包括若干类抓取动作;
设置所述机器人从物料台抓取物料的抓取高度;
确定所述机器人当前抓取物料的环境视觉图像、夹爪高度以及所述机器人的笛卡尔空间位置;
从所述抓取策略中选择目标抓取动作;
执行所述目标抓取动作;
根据所述目标抓取动作,确定策略奖赏;
根据在所述机器人当前抓取物料的环境视觉图像、夹爪高度以及所述机器人的笛卡尔空间位置的前提下对应的目标抓取动作及策略奖赏,生成一次路径数据;
根据多次路径数据,生成预设抓取模型。
9.根据权利要求8所述的方法,其特征在于,所述抓取策略中每个抓取动作被选择执行的执行概率是相同的,并且所述抓取动作包括普通抓取动作与最优抓取动作;
所述从所述抓取策略中选择目标抓取动作,包括:
随机选择0至1之间的随机数;
判断所述随机数是否大于所述执行概率;
若是,从所述抓取策略中选择最优抓取动作为所述目标抓取动作;
若否,随机从所述抓取策略中选择任意抓取动作为所述目标抓取动作。
10.根据权利要求8所述的方法,其特征在于,所述根据所述目标抓取动作,确定策略奖赏,包括:
若检测到所述机器人抓取到物料时,则按照第一预设奖赏值奖励所述目标抓取动作;
若未检测到所述机器人抓取到物料时,则不奖励所述目标抓取动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市越疆科技有限公司,未经深圳市越疆科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811644503.7/1.html,转载请声明来源钻瓜专利网。





