[发明专利]一种智能体探索3D迷宫的批A3C强化学习方法有效
申请号: | 201810820233.4 | 申请日: | 2018-07-24 |
公开(公告)号: | CN109063823B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 李玉鑑;聂小广;刘兆英;张婷 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种智能体探索3D迷宫的批A3C强化学习方法,为了达到相对较短的训练时间和较小的内存损耗的目标,本发明使用基于批的强化学习方法训练神经网络。神经网络划分为两个部分,第一部分主要包含若干个卷积层和MLP,得到原始屏幕像素的低维度表示;第二部分是一个LSTM即长短时记忆模型。LSTM的输入是第一部分的MLP的输出,LSTM的最后一个时间步的细胞输出外接两个MLP,分别用来预测当前状态下动作a的概率分布以及当前状态下的状态值v的预测。结合高效强化学习算法与深度学习方法实现智能体自主探索3D迷宫,并且以相对较短的训练时间和较小的内存损耗使得智能体能够成功的探索3D迷宫环境。 | ||
搜索关键词: | 一种 智能 探索 迷宫 a3c 强化 学习方法 | ||
【主权项】:
1.一种智能体探索3D迷宫的批A3C强化学习方法,其特征在于:该方法的实现过程如下:步骤1、选择迷宫地图;步骤2、强化学习系统主要包含两大块:环境及智能体;环境就是步骤1中的迷宫地图,下面定义的智能体将与迷宫环境交互,即走迷宫,智能体通过不断的走迷宫,学习迷宫环境,最终顺利的走出迷宫。定义智能体的n种基本动作,n为基本动作的种类数;n=5时的基本动作分别为:前进,后退,向左转,向右转,原地不动,以及各基本动作的组合,
组合动作数目为32种,则组合动作集合Action={a1,a2,......,a32},其中每个组合动作用1个5元二进制向量表示,a=(1,0,1,0,0)的含义是前进和向左转的组合;步骤3、智能体与环境交互,获取环境状态s,s取为游戏屏幕像素矩阵,以及当前状态下环境的回报r,把环境状态s经过若干层卷积和全连接层后,得到的低维度向量表示为vec=(f1,f2,......,fdim),dim是最后一个全连接层的节点个数;步骤4、把向量vec输入到一个LSTM网络中,把LSTM网络中最后一个时间步的输出记为T;步骤5、把LSTM网络的输出T分别经过两个MLP网络,一个产生动作a的概率分布,另一个产生状态值v,其中
distribution_a中每一项都是对每个动作的预测,且
状态值v的计算公式为v=wvT·cell_output_T+bv,其中wv和bv分别是MLP层的权重和偏置;步骤6、用共享队列queue收集训练网络所需要的样本,共享队列的大小设置为200,其中每个样本都可以表示为一个四元组sample=(s,a,r,v):s表示当前状态,a表示当前状态下采取的动作,r表示环境对动作a的回报,v表示s的状态值;步骤7、从共享队列中批量清除编号比较靠后的样本,共享队列的长度为200,固定清除10个样本,那么当队列长度达到200时,就清除编号为191~200的样本,并且将新获取的样本从队头插入到队列中,如果队列的长度不够200,那么直接将新样本添加进队列,并且循环,共享队列就总是能够保存一些相对较新的环境状态;步骤8、定义损失函数,更新网络参数,优化网络模型,直至网络收敛,最后状态值v=wvT·cell_output_T+bv近似重建动作值Q,动作分布distribution_a收敛于状态s的最优策略。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810820233.4/,转载请声明来源钻瓜专利网。