[发明专利]一种基于深度强化学习的机械臂控制方法及系统有效

申请号：	202111475392.3	申请日：	2021-12-06
公开（公告）号：	CN114012735B	公开（公告）日：	2022-08-05
发明（设计）人：	魏巍;王达;李琳;梁吉业	申请（专利权）人：	山西大学
主分类号：	B25J9/16	分类号：	B25J9/16
代理公司：	北京高沃律师事务所 11569	代理人：	刘芳
地址：	030006 山***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习机械控制方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于深度强化学习的机械臂控制方法及系统，方法包括：建立机械臂的环境空间、机械臂的状态、机械臂的动作以及抓取物体的目标位置；机械臂在每个时刻t观察自身状态s_t，选择一个动作a_t与环境进行交互，得到环境的反馈r_t，并转移到下一个状态s_t+1，此时获得时刻t下的经验，e_t＝(s_t,a_t,r_t,s_t+1)，即样本；构建短期记忆回放池B₁和被遗忘回忆池B₂；将获取的M个样本以η的概率替换B₁中的样本；将所有被替换的样本存入B₂中；在B₁和B₂中抽取B个样本；采用抽取的B个样本对神经网络进行训练，基于训练好的神经网络中，得到动作输出。本发明中的上述方法通过引入深度强化学习算法帮助机械臂进行实时动作决策，以最大奖励地完成目标区域的物体抓取任务，可以实现机械臂灵活准确的行为选择。

技术领域

本发明涉及深度强化学习领域，特别是涉及一种基于深度强化学习的机械臂控制方法及系统。

背景技术

如今，人工智能技术蓬勃发展，相关智能机器人遍布各行各业。其对提高工业生产效率、降低生产成本以及提高产品质量发挥着至关重要的作用。智能机器人应用在各种不同场景的复杂工作环境，对环境有较强的适应性，符合未来机器人发展的需求，对机器人自动化、智能化、精度、稳定性、灵活性提出了更高的要求。机械臂是生产流程过程当中非常重要的设备，要实现机械臂灵活准确的行为选择，仅仅依靠设计者的经验和个人知识积累来编程控制，机器人系统很难良好适应复杂、不确定的环境。深度强化学习算法的不断发展，为实现机械臂自主学习、智能控制提供了可能性。

在深度强化学习中，机械臂与环境不断进行交互，基于环境的反馈学习如何选择一系列动作，以使长期累积的奖励最大化。利用深度神经网络(Deep Neuarl Networks,DNN)作为函数逼近器，深度强化学习算法能够直接从高维输入中学习复杂的非线性策略(或值函数)，而无需先验知识。将深度强化学习算法应用于机械臂控制时，算法的稳定性是十分重要的，因为当策略波动较大时，机械臂将承受没有必要的“试错”过程，这无疑会加剧机器的磨损，造成资源和经济的浪费，因此，减少所需的与外部环境的交互次数是非常必要的。经验回放通过使用回放缓冲区在过去的策略迭代中收集的经验(i.e.样本)来计算当前策略的更新，提高了样本效率。目前的经验回放方法通常对样本赋予一定的权重，或容易受到噪声干扰，或容易造成神经网络的性能下降，这对深度强化学习在机械臂上的应用造成了严重影响，因此，用深度强化学习方法实现机械臂的最优控制时，研究高效的深度强化学习经验回放方法具有重要意义。

面向深度强化学习的已有经验回放方法通常侧重于两个不同的角度，一些工作通常“保守”地回放经验，避免回放离当前策略太远的经验而导致性能的下降，如注意经验回放(Attentive Experience Replay,AER)、铭记与遗忘经验回放(Remember and ForgetExperience Replay,ReF-ER)，另一些工作通常考虑样本的多样性，如优先经验回放(Prioritized Experience Replay,PER)。

现有技术缺点1：AER认为，包含当前策略经常访问的状态的样本，应当以更高的优先级进行回放，而包含当前策略很少访问的状态的样本应当以更少的优先级进行回放；ReF-ER用样本与当前策略的相似程度作为衡量样本重要性的标准，只用接近于当前策略的样本进行训练。这些工作偏向于“保守”地回放经验，追求保守的经验回放的初衷是想避免使用太旧的样本来更新当前策略导致的不稳定，但若没有经过合适的处理，则会导致另外一种情况的不稳定：即机械臂在接受训练的过程中因为缺乏样本的多样性导致机械臂只能记住状态空间的狭窄区域，进而导致过拟合和灾难性遗忘等问题。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山西大学，未经山西大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111475392.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

B 作业；运输

B25 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J 机械手；装有操纵装置的容器
B25J9-00 程序控制机械手
B25J9-02 .以臂的运动为特征的，例如直角坐标型的
B25J9-06 .以多铰接爪臂为特征的
B25J9-08 .以部件结构为特征的
B25J9-10 .以机械手元件定位装置为特征的
B25J9-16 .程序控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的机械臂控制方法及系统有效

专利文献下载