[发明专利]基于专家演示和强化学习的微零件装配方法有效
申请号: | 202110335254.9 | 申请日: | 2021-03-29 |
公开(公告)号: | CN113043275B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 马燕芹;谢永华;周元伟 | 申请(专利权)人: | 南京工业职业技术大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 专家 演示 强化 学习 零件 装配 方法 | ||
1.一种基于专家演示和强化学习的微零件装配方法,其特征在于,该方法包括:
步骤S10,采集微零件a和微零件b的图像,并通过基于图像雅可比矩阵的视觉伺服控制方法进行所述微零件b的姿态调整和所述微零件a的位置调整,使所述微零件a与所述微零件b的三维姿态一致且位于所述微零件b的正上方;
步骤S20,实时获取微零件a和微零件b之间的三维力信息;
步骤S30,通过微零件装配模型进行所述微零件a的位置调整,使所述微零件a和微零件b的三维位置达到期望状态,完成微零件装配;
其中,所述微零件装配模型通过基于专家演示和强化学习的微零件装配方法进行训练,其方法为:
步骤A10,构建强化学习的模糊回报函数和混合探索方法,并构建强化学习中用于逼近动作值函数的评估网络和用于输出动作的策略网络;
步骤A20,基于获取的专家演示数据通过状态转移模型进行数据增强,并以数据增强后的预训练样本结合所述模糊回报函数和混合探索方法,进行所述评估网络和策略网络的预训练;
步骤A30,基于所述模糊回报函数和混合探索方法,进行预训练后的评估网络和策略网络自学习,获得训练好的微零件装配模型。
2.根据权利要求1所述的基于专家演示和强化学习的微零件装配方法,其特征在于,所述专家演示数据,其获取方法为:
步骤B10,定义装配过程中专家每次控制第二执行机构平移一次的动作a=[dx,dy,dz]T以及装配系统状态信息s=[fx,fy,fz,pz]T;
其中,dx,dy分别为沿第二执行机构XE,YE轴的调整量,dz>0为沿第二执行机构ZE轴负方向的装配步长,fx,fy,fz分别代表三维力信息中沿力传感器的XF,YF,ZF轴的接触力,pz为沿第二执行机构ZE轴的装配深度;
步骤B20,执行一次动作a,获取执行后的装配系统状态信息s以及动作执行后的回报r;
步骤B30,判断当前时刻s是否为装配结束状态,若不是,则跳转步骤B20;否则,结束装配过程;
步骤B40,将所述装配过程中获取的数据构建为数据组(si,ai,ri,si+1),获得专家演示数据;
其中,si代表当前动作ai执行前的装配系统状态信息,ri代表当前动作ai执行后获得的回报,si+1代表当前动作ai执行后的装配系统状态信息。
3.根据权利要求2所述的基于专家演示和强化学习的微零件装配方法,其特征在于,所述状态转移模型,其训练方法为:
步骤C10,基于非线性微分方程构建状态转移模型:
st+1=st+Kat+N(0,∑)
其中,st+1为t时刻装配系统状态信息st在执行动作at后获得的t+1时刻装配系统状态信息,K为比例系数矩阵,N(·,·)为表示状态转移中的不确定性的高斯函数,∑代表方差矩阵;
步骤C20,基于专家演示数据,通过最小二乘法进行比例系数矩阵K和方差矩阵∑的离线学习,获得训练好的状态转移模型。
4.根据权利要求1所述的基于专家演示和强化学习的微零件装配方法,其特征在于,所述数据增强,其公式表示为:
其中,构成数据增强后的训练数据,和分别代表数据增强的状态和动作的方差,为限制增强后的动作幅值的限幅函数,r(·)为模糊回报函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业职业技术大学,未经南京工业职业技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110335254.9/1.html,转载请声明来源钻瓜专利网。