[发明专利]一种基于视觉位姿感知和深度强化学习的机器人抓取方法在审
申请号: | 202010036635.2 | 申请日: | 2020-01-14 |
公开(公告)号: | CN111251294A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 陈智鑫;林梦香;贾之馨 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;邓治平 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 感知 深度 强化 学习 机器人 抓取 方法 | ||
一种基于视觉位姿感知和深度强化学习的机器人抓取方法,用于控制携带视觉传感器的机器人完成智能抓取任务,步骤为:(1)根据视觉传感器获取的图像,利用Mask RCNN和PCA算法对图像中的所有物体进行位姿感知,得到每个物体的三自由度物理位姿坐标,包括物体中心点(x,y)和朝向θ;(2)将机器人当前位置坐标和物体位置坐标作为输入,利用深度强化学习PPO算法输出控制指令;(3)向机器人发送控制指令,并在运动后计算当前机器人位置与目标物体位置的距离,在距离小于一定阈值时执行抓取动作,完成目标物体的抓取。本发明可以在仅有视觉传感器作为输入时,在多个物体中对指定物体执行三自由度的刚性二指抓取,也可以完成移动物体的视觉追踪和抓取,鲁棒性强,泛化性强,训练代价小,通用性好。
技术领域
本发明涉及一种根据视觉传感器的输入进行位姿感知和机器人智能抓取的方法,特别是一种基于深度学习和深度强化学习的机器人感知和控制方法,属于机器人控制领域、深度学习和深度强化学习领域,主要应用在机器人自动化进行物体的码放、搬运、分类的任务场景。
背景技术
机械臂物体抓取是被研究得最广泛的机器人操纵领域问题,而智能的感知和抓取一直是机械臂物体抓取研究的主要热点方向,如何让机器人学会像人一样抓取是研究的终极目标。随着深度强化学习的蓬勃发展,这一技术在直观上非常契合机械臂物体智能抓取这一目的,让机械臂从零开始,像人类一样,在一次次抓取尝试中学会如何抓取。然而,深度强化学习还有相当大的局限性,即深度强化学习的训练难度十分巨大。当下,深度强化学习在游戏领域取得了举世瞩目的成就,一个重要的原因就是游戏环境的进程能够使用软件进行加速,游戏的帧率能够随着硬件水平的提高不断地上升,这就意味着从游戏环境中可以得到相当丰富的经验数据,从而降低了学习的难度。如果在真实的机械臂上,每一次的经验数据需要一次机械臂的抓取执行,而一次抓取执行往往需要数十秒钟的时间,那么在机械臂上训练一个有效深度强化学习智能体所需要的时间就不可估量。因此,当下的深度强化学习方法并不直接适用于机械臂抓取。
通常,深度强化学习算法都将感知和控制融合在一起,通过卷积神经网络,对图像进行处理,并在后端接入全连接神经网络,输出动作向量,完成从感知到控制的端到端模型。但是,这样端到端的模型有相当严重的局限性,深度强化学习不同于监督学习,它没有直接的训练数据,而是通过与环境进行交互产生反馈,来训练神经网络的参数,而与环境交互产生的反馈可能非常稀疏,或者存在严重的滞后性,非常不利于网络参数的更新,而感知与控制的端到端模型非常复杂,网络参数庞大,使得训练十分困难。在现有的研究中,研究人员通过14台机器人分布式地与环境进行交互,产生足够多的经验数据,在超过两个月的时间里,终于训练得到了一个学会抓取新物体的深度强化学习智能体。由此可见,目前深度强化学习算法仍很难胜任机器人抓取任务,所需的硬件条件过于苛刻,其训练效率也十分低下。自Mnih等人发表深度强化学习划时代的方法DQN之后,相当多的学者都在为提高深度强化学习算法的训练效率而努力,Hado等人提出了Double-DQN方法,着重解决了DQN中对于Q值的过度估计,导致收敛困难的问题,在提升了训练速度的同时,也实现了更好的效果。Tom等人对DQN所使用的经验回放(Experience Replay)技术进行改进,使得更有利于网络更新的经验得到更多的重视和使用,提出了优先经验回放,将智能体所经历的经验按其有效性赋予优先级,并根据优先级来更好地训练网络。实验表明,优先经验回放能够更快地训练网络,并且在雅达利游戏上比原始DQN得分更高。Wang等人提出了对抗式的网络结构,令网络在输出Q(st,at)的同时输出V(st)值,实验证明,该网络结构更加适用于现代的深度强化学习方法,提升了DQN的训练速度,并在雅达利游戏环境上得分比原始DQN更高。Mnih等人提出了异步训练的模式,利用多个智能体同时体验游戏获得经验,并更新共享的网络参数,理论上使得网络的训练速度成倍的增长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010036635.2/2.html,转载请声明来源钻瓜专利网。