[发明专利]基于感知增强和场景迁移的深度强化学习机器人抓取方法有效
申请号: | 202111473137.5 | 申请日: | 2021-12-02 |
公开(公告)号: | CN114131603B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 杨子鹏;商慧亮 | 申请(专利权)人: | 复旦大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;G06V20/00;G06V10/40;G06V10/82;G06N3/045;G06N3/0464;G06N3/0895;G06N3/092;G06N3/096 |
代理公司: | 济南鼎信专利商标代理事务所(普通合伙) 37245 | 代理人: | 贾国浩 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 感知 增强 场景 迁移 深度 强化 学习 机器人 抓取 方法 | ||
1.基于感知增强和场景迁移的深度强化学习机器人抓取方法,其特征在于:首先进行仿真环境训练,获得算法模型,然后再进行真实环境应用;
所述仿真环境训练包括步骤:
S11、通过RGB-D相机获取场景信息作为状态;
S12、通过DenseNet提取特征;
S13、通过感知增强模块对抓取对象特征增强;
S14、变换得到动作空间Q表,执行Q值最大的动作;
S15、判定是否抓取成功,如果抓取成功则给予奖励,否则给予惩罚,并进行模型更新;
所述真实环境应用包括步骤:
S21、通过RGB-D相机获取场景信息作为状态;
S22、通过场景迁移模块,将真实抓取场景变换成仿真风格的场景;
S23、载入仿真环境训练好的模型;
S24、通过DenseNet提取特征;
S25、通过感知增强模块对抓取对象特征增强;
S26、变换得到动作空间Q表,执行Q值最大的动作;
其中,感知增强模块包括DenseNet卷积网络、基于正弦相似度的感知增强模块以及全卷积网络,在进行特征增强时,首先将实际抓取场景的RGB-D图送入DenseNet卷积网络进行特征提取,得到特征矩阵(1×2048×20×20),同时,将抓取场景背景RGB-D图送入同一个DenseNet卷积网络进行特征提取,得到特征矩阵(1×2048×20×20),将实际抓取场景和背景的特征矩阵中的20×20子矩阵两两对应进行正弦相似度检测,得到相似度指数α,α的区间为0-1,通过1-α得到实际的特征权重,最后得到2048个特征权重,然后将权重与之前实际抓取场景特征矩阵相乘得到感知增强后的特征矩阵,传入后续全卷积网络;
在所述步骤S22中,将仿真环境背景去除后的图片和仿真环境原始图片作为配对数据集进行训练,让模型学习从仿真环境背景去除后的图片到仿真环境原始图片的映射,训练完成后,在真实环境下应用时,也将真实环境下的图片进行背景去除,然后通过pix2pix模型变换成仿真环境风格的图片,这样即可应用仿真环境下训练的模型。
2.根据权利要求1所述的基于感知增强和场景迁移的深度强化学习机器人抓取方法,其特征在于:所述步骤S11和S21中,将通过RGB-D相机拍摄的RGB-D图像进行正交变换并根据工作区域得到224×224尺寸的RGB-D俯视图像,以此作为状态输送给算法模型。
3.根据权利要求1所述的基于感知增强和场景迁移的深度强化学习机器人抓取方法,其特征在于:所述步骤S14和S26中,全卷积网络通过卷积计算以及上采样,得到224×224×12的Q表矩阵,每个值对应着动作空间中的具体动作,从中选取Q值最大的动作来进行抓取。
4.根据权利要求1所述的基于感知增强和场景迁移的深度强化学习机器人抓取方法,其特征在于:在背景去除环节,采用Grabcut法和漫水填充法混合的算法去除背景。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111473137.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种支持多人在线的大型角色扮演类游戏操纵系统
- 下一篇:一种铜杆存储筒