[发明专利]基于深度增强学习的工业机械臂自动控制方法有效
申请号: | 201711275146.7 | 申请日: | 2017-12-06 |
公开(公告)号: | CN108052004B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 柯丰恺;周唯倜;赵大兴;孙国栋;许万;丁国龙;吴震宇;赵迪 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G06F30/27;G06N3/04;G06N3/08;B25J9/16 |
代理公司: | 武汉开元知识产权代理有限公司 42104 | 代理人: | 王和平;张继巍 |
地址: | 430068 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 增强 学习 工业 机械 自动控制 方法 | ||
本发明涉及一种基于深度增强学习的工业机械臂自动控制方法,构建深度增强学习模型、构造输出干扰、建立奖励rt计算模型、构建仿真环境、积累经验池、训练深度强化学习神经网络及利用训练好的深度增强学习模型在实际中控制机械臂运动。通过加入深度增强学习网络,解决机械臂在复杂环境的自动控制问题,完成机械臂的自动控制,且训练完成后运行速度快、精度高。
技术领域
本发明属于强化学习算法技术领域,具体涉及一种基于深度增强学习的工业机械臂自动控制方法。
背景技术
工业机械臂相对于人力来说,可以更加高效的完成一些简单重复而又笨重的操作,在极大的提高生产效率的同时,还可以降低劳动成本与劳动强度,在保障生产质量的同时又能降低人工事故发生的概率。在一些恶劣环境中,如高温、高压、低温、低压、粉尘、易燃、易爆等,由机械臂代替人工作业,能够防止因为操作疏忽而导致的人工事故,具有重大意义。
机械臂的运动求解过程为首先获取抓取目标的位姿信息,然后获得自身的位姿信息,通过逆向动力学求解出各个轴的旋转角度。由于运动过程中关节与连杆的柔性效应的存在,使结构发生变形,精度降低。所以实现柔性机械臂的控制是一大问题。常见的控制方法有PID控制、力反馈控制、自适应控制、模糊与神经网络控制等。其中神经网络控制具有明显的优点即不需要被控制对象的数学模型,并且在未来人工智能的社会,基于神经网络的自动控制将会是主流。
发明内容
本发明的目的就是提供一种基于深度增强学习的工业机械臂自动控制方法,通过加入深度增强学习网络,解决机械臂在复杂环境的自动控制问题,完成机械臂的自动控制。
为实现上述目的,本发明所设计的基于深度增强学习的工业机械臂自动控制方法,其特征在于:所述控制方法包括如下步骤:
步骤1)构建深度增强学习模型
1.1)经验池初始化:设定经验池为m行、n列的二维矩阵,二维矩阵中每个元素的值初始化为0,其中,m为样本容量大小、n为每个样本储存的信息数量,n=2×state_dim+action_dim+1,state_dim为状态的维度、action_dim为动作的维度;同时,在经验池中预留出用于存储奖励信息的空间,n=2×state_dim+action_dim+1这个公式中的1即为存储奖励信息的预留空间;
1.2)神经网络初始化:神经网络分为Actor网络和Critic网络两个部分,Actor网络为行为网络、Critic网络为评价网络,每个部分又分别构建两个结构完全相同而参数不同的eval net和target net,eval net为估计网络、target net为目标网络,从而形成μ(s|θμ)网络、μ(s|θμ′)网络、Q(s,a|θQ)网络及Q(s,a|θQ′)网络共四个网络,即μ(s|θμ)网络为行为估计网络、μ(s|θμ′)网络为行为目标网络、Q(s,a|θQ)网络为评价估计网络、Q(s,a|θQ′)网络为评价目标网络;随机初始化μ(s|θμ)网络的参数θμ和随机初始化Q(s,a|θQ)网络的参数θQ,然后将μ(s|θμ)网络的参数θμ值赋予行为目标网络,即θμ′←θμ,将Q(s,a|θQ)网络的参数θQ值赋予评价目标网络,即θQ′←θQ;
步骤2)构造输出干扰
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711275146.7/2.html,转载请声明来源钻瓜专利网。