[发明专利]一种智能体探索3D迷宫的批A3C强化学习方法有效

专利信息
申请号: 201810820233.4 申请日: 2018-07-24
公开(公告)号: CN109063823B 公开(公告)日: 2022-06-07
发明(设计)人: 李玉鑑;聂小广;刘兆英;张婷 申请(专利权)人: 北京工业大学
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 智能 探索 迷宫 a3c 强化 学习方法
【权利要求书】:

1.一种智能体探索3D迷宫的批A3C强化学习方法,其特征在于:该方法的实现过程如下:

步骤1、选择迷宫地图;

步骤2、强化学习系统主要包含两大块:环境及智能体;环境就是步骤1中的迷宫地图,下面定义的智能体将与迷宫环境交互,即走迷宫,智能体通过不断的走迷宫,学习迷宫环境,最终顺利的走出迷宫; 定义智能体的n种基本动作,n为基本动作的种类数;n=5时的基本动作分别为:前进,后退,向左转,向右转,原地不动,以及各基本动作的组合,组合动作数目为32种,则组合动作集合Action={a1,a2,......,a32},其中每个组合动作用1个5元二进制向量表示,a=(1,0,1,0,0)的含义是前进和向左转的组合;

步骤3、智能体与环境交互,获取环境状态s,s取为游戏屏幕像素矩阵,以及当前状态下环境的回报r,把环境状态s经过若干层卷积和全连接层后,得到的低维度向量表示为vec=(f1,f2,......,fdim),dim是最后一个全连接层的节点个数;

步骤4、把向量vec输入到一个LSTM网络中,把LSTM网络中最后一个时间步的输出记为T;

步骤5、把LSTM网络的输出T分别经过两个MLP网络,一个产生动作a的概率分布,另一个产生状态值v,其中distribution_a中每一项都是对每个动作的预测,且状态值v的计算公式为v=wvT·cell_output_T+bv,其中wv和bv分别是MLP层的权重和偏置;

步骤6、用共享队列queue收集训练网络所需要的样本,共享队列的大小设置为200,其中每个样本都可以表示为一个四元组sample=(s,a,r,v):s表示当前状态,a表示当前状态下采取的动作,r表示环境对动作a的回报,v表示s的状态值;

步骤7、从共享队列中批量清除编号比较靠后的样本,共享队列的长度为200,固定清除10个样本,那么当队列长度达到200时,就清除编号为191~200的样本,并且将新获取的样本从队头插入到队列中,如果队列的长度不够200,那么直接将新样本添加进队列,并且循环,共享队列就总是能够保存一些相对较新的环境状态;

步骤8、定义损失函数,更新网络参数,优化网络模型,直至网络收敛,最后状态值v=wvT·cell_output_T+bv近似重建动作值Q,动作分布distribution_a收敛于状态s的最优策略。

2.根据权利要求1所述的一种智能体探索3D迷宫的批A3C强化学习方法,其特征在于,迷宫地图为自己设计,或使用第三方提供的强化学习开源游戏引擎DeepMind Lab、VizDoom设计。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810820233.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top