[发明专利]基于Double DQN的改进深度强化学习方法及系统在审

专利信息
申请号: 202010169230.6 申请日: 2020-03-12
公开(公告)号: CN111461321A 公开(公告)日: 2020-07-28
发明(设计)人: 奚思遥;王力立;肖强;林高尚;杜万年;闫晓;黄成;单梁;张永 申请(专利权)人: 南京理工大学
主分类号: G06N3/08 分类号: G06N3/08;G06N3/04
代理公司: 南京理工大学专利中心 32203 代理人: 朱炳斐;马鲁晋
地址: 210094 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 double dqn 改进 深度 强化 学习方法 系统
【说明书】:

发明公开了一种基于Double DQN的改进深度强化学习方法及系统,属于强化学习领域,该方法包括以下步骤:初始化环境和DQN网络参数;基于ε‑贪婪策略进行经验积累,并将经验存入回放记忆单元;利用回放记忆单元中的样本对DQN网络进行训练优化获得决策网络。本发明方法可以提高Double Q‑Learning Network的收敛速度,并优化最终收敛值,且能减小噪声对DQN算法效果的干扰,提高深度强化学习在实际生产生活中的应用效果,扩大其应用范围。

技术领域

本发明属于强化学习领域,特别涉及一种基于Double DQN的改进深度强化学习方法及系统。

背景技术

Double Deep Q-Learning Network是深度强化学习中最常见的框架之一,在实践中有很好的效果,DQN总共分为三个部分:环境、回放记忆单元和神经网络。其中,agent与环境进行交互得到当前状态s,做出动作a后得到下一个状态s'和奖赏r。回放记忆单元将每一条(s,a,s',r)进行存储,存储到一定的数量后,按照一定的抽取方式从中抽取部分数据输入到神经网络进行训练。神经网络有两个,网络结构完全一致,分别为当前值网络(Q-eval)和目标值网络(Q-target)。当前值网络的输入为当前状态s,输出为argmaxa Q(s,a;θ),即为对应Q估计值Q-eval最大的动作a;目标值网络的输入为下一状态s',输出为maxQ(s',a';θ'),即为s’对应的最大目标Q值Q-target。

DQN的一个特点是记忆回放。因为神经网络对于训练数据的要求是样本间独立,而在agent与环境交互的过程中,状态的转变具有连续性,因此,在训练神经网络之前,先将交互经验存储在记忆单元中,在训练时打乱选取,避免相关性问题。但是经验回放也存在一定的问题,在奖励十分少的时候,随机抽取样本会出现学习速度非常慢的问题。目前主流的优先重播的思路,是在抽取样本不是随机抽样,按照优先级抽取。使用时间差分误差(temporal-difference error,TD-error),即y-Q(s,a;θ)来规定优先学习的程度。如果TD-error越大,就代表预测精度还有很多上升空间,那么这个样本就越需要被学习,也就是优先级越高。但这种方法受噪声的影响较大,可能会造成无法收敛的结果。

发明内容

本发明的目的在于提供一种基于Double DQN的改进深度强化学习方法及系统,能提高Double Deep Q-Learning Network的收敛速度,并优化最终收敛值,且能减小噪声对DQN算法效果的干扰。

实现本发明目的的技术解决方案为:一种基于Double DQN的改进深度强化学习方法,包括以下步骤:

步骤1、初始化环境和DQN网络参数;

步骤2、基于ε-贪婪策略进行经验积累,并将经验存入回放记忆单元;

步骤3、利用回放记忆单元中的样本对DQN网络进行训练优化获得决策网络。

进一步地,步骤1所述环境包括:状态空间动作空间和奖赏函数r;所述DQN网络参数包括当前值神经网络参数、目标值神经网络参数、DQN误差函数和回放记忆单元其中,神经网络参数包括网络层数与节点数、初始权值、激活函数。

进一步地,步骤2所述基于ε-贪婪策略进行经验积累,并将经验存入回放记忆单元,具体包括:

步骤2-1,初始化贪婪系数ε,0≤ε<1;

步骤2-2,将当前状态输入DQN网络,输出动作空间中每一个动作a的Q值,Q值代表当前动作的价值;

步骤2-3,随机生成一个数x,x∈(0,1),并判断x是否小于等于ε,若是,表明智能体处于探索阶段,反之表明智能体处于利用阶段;

步骤2-4,若步骤2-3判断结果为探索阶段,则随机选取动作若为利用阶段则选取最大Q值对应的动作a;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010169230.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top