[发明专利]基于蓄水池采样和双经验池的机械臂智能控制系统有效
| 申请号: | 202010202667.5 | 申请日: | 2020-03-20 |
| 公开(公告)号: | CN111300390B | 公开(公告)日: | 2021-03-23 |
| 发明(设计)人: | 张琳婧;章宗长 | 申请(专利权)人: | 南栖仙策(南京)科技有限公司 |
| 主分类号: | B25J9/08 | 分类号: | B25J9/08;B25J9/16 |
| 代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 郭磊 |
| 地址: | 210034 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 蓄水池 采样 经验 机械 智能 控制系统 | ||
1.一种基于蓄水池采样和双经验池的机械臂智能控制系统,其特征在于,所述机械臂智能控制系统包括:
环境信息采集模块:通过机械臂所带相机采集当前环境图像信息,用于确定机械臂的状态集合动作集合及相应的奖赏集合奖赏信息表示为机械臂的训练过程中各个动作相应的奖赏值;
仿真环境生成模块:搭建虚拟环境,根据所述环境信息采集模块中获取的状态信息和动作信息搭建虚拟环境,通过仿真环境训练机械臂的控制模型,然后再将训练好的模型用于实体机械臂的控制中;
深度神经网络模块:基于深度确定性策略梯度算法,构建根据所述环境信息采集模块中获得的机械臂的状态信息输出机械臂所需执行的动作该网络模块由行动者模块和评论家模块组成,评论家和行动者模块均包括两个结构完全相同而参数不同的网络:当前网络Q和μ,目标网络Q′和μ′,即,所述网络模块由四个神经网络搭建形成;在训练开始前,随机初始化所述四个网络的参数,θQ、θQ′、θμ和θμ′;
双经验池模块:双经验池用于保存机械臂自动学习特定目标过程中产生的样本信息;样本信息存储为四元组数据(s,a,r,s′),其中表示机械臂当前所处状态信息,将s输入到所述深度神经网络模块,通过神经网络的训练输出机械臂下一步需要执行的动作a;机械臂执行动作a后会得到一个反馈信息,即奖赏值此时机械臂移动到下一个状态这样完成了机械臂的一步训练,将所述每一步训练产生的四元组数据作为样本信息保存在经验池中,用于后续的训练;
样本管理模块:该模块用于辅助双经验池中样本的保留和采集;通过样本保留方法在经验池填充满后,决定新旧样本的交替;而样本采集方法通过采集具有信息价值高的样本用于算法训练,从而加速训练过程并保证高效的样本利用度;
其中,所述机械臂的状态集合是将机械臂相机采集的关于环境的图像信息输入到卷积神经网络经过特征提取获得;
其中,所述经验池模块中创建两个大小一样的经验池,根据机械臂当前采取探索性质动作还是利用性质动作分为探索经验池和利用经验池;
对于从经验池中采集的样本,用于训练机械臂的控制模型,以最大化奖赏信息为目标输出每一步需要执行的动作;在进行采样时,从所述探索经验池和利用经验池中共同采样,合成一个批训练样本集合用于训练所述深度神经网络模块中各个网络的参数;
其中,所述经验池中采集的批样本集合输入到深度神经网络模块中进行训练,控制机械臂的自主运动;在训练过程中,采集的批样本集合中的样本(s,a,r,s′)输入到评论家模块中计算动作值函数Q(s,a),不断迭代训练并更新网络参数;完成训练过程后,根据之前计算所得动作值来决定所述行动者模块在输入状态s下,机械臂下一步应执行的动作a。
2.根据权利要求1所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统,其特征在于,环境信息采集模块中奖赏值的具体计算过程为:
机械臂在某个时刻t时,根据卷积神经网络提取的当前状态信息st,从中得到当前所处的位置信息(xt,yt,zt)及指定目标的位置信息(xg,yg,zg),当前奖励值
3.根据权利要求1所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统,其特征在于,对于所述样本管理模块中,两个经验池选用不同的样本保留方法;当经验池填充满时,所述探索经验池采用蓄水池采样的方法来决定样本的替换,而所述利用经验池采用先进先出的方法进行样本的替换;蓄水池采样方法可以保证训练过程中产生的样本等概率地存入经验池或被新样本替换;蓄水池采样方法在大小k经验池填充满时,保留第i(i>k)个样本的概率如下:
其中,C表示训练过程中产生的全部样本,该值为一个极大甚至无穷的数,在此仅用于证明每个样本保留概率是相等的;
所采集的样本来自两个经验池中,通过采样比τ来控制需要两个经验池中采集的样本比例;τ的计算通过从经验池中采集批样本Nb,输入到行动者模块中当前网络和目标网络,统计这两个网络所产生动作一致的个数nb来计算,同时,为防止过于探索会对采样比添加一个最大限制采样比的计算如下:
4.根据权利要求1所述的一种基于蓄水池采样和双经验池的机械臂智能控制系统,其特征在于,对于动作a的选择:在每个时刻t,加入遵从高斯分布的探索噪声生成新的动作,该方法可以使机械臂充分的探索相同状态下潜在的更优策略;新动作的生成方法表述如下:
其中,为探索噪声,服从高斯分布,即,均值0,方差1的正态分布;
通过提前设定噪声阈值δ对动作at进行分类,分为探索性质的动作和利用性质的动作;然后根据这些动作的性质,将训练产生的与动作相关样本信息分别存入所述的两个经验池中;
at存入
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南栖仙策(南京)科技有限公司,未经南栖仙策(南京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010202667.5/1.html,转载请声明来源钻瓜专利网。





