[发明专利]基于Double DQN的改进深度强化学习方法及系统在审

申请号：	202010169230.6	申请日：	2020-03-12
公开（公告）号：	CN111461321A	公开（公告）日：	2020-07-28
发明（设计）人：	奚思遥;王力立;肖强;林高尚;杜万年;闫晓;黄成;单梁;张永	申请（专利权）人：	南京理工大学
主分类号：	G06N3/08	分类号：	G06N3/08;G06N3/04
代理公司：	南京理工大学专利中心 32203	代理人：	朱炳斐;马鲁晋
地址：	210094 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 double dqn 改进深度强化学习方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于Double DQN的改进深度强化学习方法及系统，属于强化学习领域，该方法包括以下步骤：初始化环境和DQN网络参数；基于ε‑贪婪策略进行经验积累，并将经验存入回放记忆单元；利用回放记忆单元中的样本对DQN网络进行训练优化获得决策网络。本发明方法可以提高Double Q‑Learning Network的收敛速度，并优化最终收敛值，且能减小噪声对DQN算法效果的干扰，提高深度强化学习在实际生产生活中的应用效果，扩大其应用范围。

技术领域

本发明属于强化学习领域，特别涉及一种基于Double DQN的改进深度强化学习方法及系统。

背景技术

Double Deep Q-Learning Network是深度强化学习中最常见的框架之一，在实践中有很好的效果，DQN总共分为三个部分：环境、回放记忆单元和神经网络。其中，agent与环境进行交互得到当前状态s，做出动作a后得到下一个状态s'和奖赏r。回放记忆单元将每一条(s,a,s',r)进行存储，存储到一定的数量后，按照一定的抽取方式从中抽取部分数据输入到神经网络进行训练。神经网络有两个，网络结构完全一致，分别为当前值网络(Q-eval)和目标值网络(Q-target)。当前值网络的输入为当前状态s，输出为argmax_a Q(s,a；θ)，即为对应Q估计值Q-eval最大的动作a；目标值网络的输入为下一状态s'，输出为maxQ(s',a'；θ')，即为s’对应的最大目标Q值Q-target。

DQN的一个特点是记忆回放。因为神经网络对于训练数据的要求是样本间独立，而在agent与环境交互的过程中，状态的转变具有连续性，因此，在训练神经网络之前，先将交互经验存储在记忆单元中，在训练时打乱选取，避免相关性问题。但是经验回放也存在一定的问题，在奖励十分少的时候，随机抽取样本会出现学习速度非常慢的问题。目前主流的优先重播的思路，是在抽取样本不是随机抽样，按照优先级抽取。使用时间差分误差(temporal-difference error,TD-error)，即y-Q(s,a；θ)来规定优先学习的程度。如果TD-error越大，就代表预测精度还有很多上升空间，那么这个样本就越需要被学习，也就是优先级越高。但这种方法受噪声的影响较大，可能会造成无法收敛的结果。

发明内容

本发明的目的在于提供一种基于Double DQN的改进深度强化学习方法及系统，能提高Double Deep Q-Learning Network的收敛速度，并优化最终收敛值，且能减小噪声对DQN算法效果的干扰。

实现本发明目的的技术解决方案为：一种基于Double DQN的改进深度强化学习方法，包括以下步骤：

步骤1、初始化环境和DQN网络参数；

步骤2、基于ε-贪婪策略进行经验积累，并将经验存入回放记忆单元；

步骤3、利用回放记忆单元中的样本对DQN网络进行训练优化获得决策网络。

进一步地，步骤1所述环境包括：状态空间动作空间和奖赏函数r；所述DQN网络参数包括当前值神经网络参数、目标值神经网络参数、DQN误差函数和回放记忆单元其中，神经网络参数包括网络层数与节点数、初始权值、激活函数。

进一步地，步骤2所述基于ε-贪婪策略进行经验积累，并将经验存入回放记忆单元，具体包括：

步骤2-1，初始化贪婪系数ε，0≤ε＜1；

步骤2-2，将当前状态输入DQN网络，输出动作空间中每一个动作a的Q值，Q值代表当前动作的价值；

步骤2-3，随机生成一个数x，x∈(0,1)，并判断x是否小于等于ε，若是，表明智能体处于探索阶段，反之表明智能体处于利用阶段；

步骤2-4，若步骤2-3判断结果为探索阶段，则随机选取动作若为利用阶段则选取最大Q值对应的动作a；