[发明专利]基于Double DQN的改进深度强化学习方法及系统在审
申请号: | 202010169230.6 | 申请日: | 2020-03-12 |
公开(公告)号: | CN111461321A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 奚思遥;王力立;肖强;林高尚;杜万年;闫晓;黄成;单梁;张永 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱炳斐;马鲁晋 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 double dqn 改进 深度 强化 学习方法 系统 | ||
本发明公开了一种基于Double DQN的改进深度强化学习方法及系统,属于强化学习领域,该方法包括以下步骤:初始化环境和DQN网络参数;基于ε‑贪婪策略进行经验积累,并将经验存入回放记忆单元;利用回放记忆单元中的样本对DQN网络进行训练优化获得决策网络。本发明方法可以提高Double Q‑Learning Network的收敛速度,并优化最终收敛值,且能减小噪声对DQN算法效果的干扰,提高深度强化学习在实际生产生活中的应用效果,扩大其应用范围。
技术领域
本发明属于强化学习领域,特别涉及一种基于Double DQN的改进深度强化学习方法及系统。
背景技术
Double Deep Q-Learning Network是深度强化学习中最常见的框架之一,在实践中有很好的效果,DQN总共分为三个部分:环境、回放记忆单元和神经网络。其中,agent与环境进行交互得到当前状态s,做出动作a后得到下一个状态s'和奖赏r。回放记忆单元将每一条(s,a,s',r)进行存储,存储到一定的数量后,按照一定的抽取方式从中抽取部分数据输入到神经网络进行训练。神经网络有两个,网络结构完全一致,分别为当前值网络(Q-eval)和目标值网络(Q-target)。当前值网络的输入为当前状态s,输出为argmaxa Q(s,a;θ),即为对应Q估计值Q-eval最大的动作a;目标值网络的输入为下一状态s',输出为maxQ(s',a';θ'),即为s’对应的最大目标Q值Q-target。
DQN的一个特点是记忆回放。因为神经网络对于训练数据的要求是样本间独立,而在agent与环境交互的过程中,状态的转变具有连续性,因此,在训练神经网络之前,先将交互经验存储在记忆单元中,在训练时打乱选取,避免相关性问题。但是经验回放也存在一定的问题,在奖励十分少的时候,随机抽取样本会出现学习速度非常慢的问题。目前主流的优先重播的思路,是在抽取样本不是随机抽样,按照优先级抽取。使用时间差分误差(temporal-difference error,TD-error),即y-Q(s,a;θ)来规定优先学习的程度。如果TD-error越大,就代表预测精度还有很多上升空间,那么这个样本就越需要被学习,也就是优先级越高。但这种方法受噪声的影响较大,可能会造成无法收敛的结果。
发明内容
本发明的目的在于提供一种基于Double DQN的改进深度强化学习方法及系统,能提高Double Deep Q-Learning Network的收敛速度,并优化最终收敛值,且能减小噪声对DQN算法效果的干扰。
实现本发明目的的技术解决方案为:一种基于Double DQN的改进深度强化学习方法,包括以下步骤:
步骤1、初始化环境和DQN网络参数;
步骤2、基于ε-贪婪策略进行经验积累,并将经验存入回放记忆单元;
步骤3、利用回放记忆单元中的样本对DQN网络进行训练优化获得决策网络。
进一步地,步骤1所述环境包括:状态空间动作空间和奖赏函数r;所述DQN网络参数包括当前值神经网络参数、目标值神经网络参数、DQN误差函数和回放记忆单元其中,神经网络参数包括网络层数与节点数、初始权值、激活函数。
进一步地,步骤2所述基于ε-贪婪策略进行经验积累,并将经验存入回放记忆单元,具体包括:
步骤2-1,初始化贪婪系数ε,0≤ε<1;
步骤2-2,将当前状态输入DQN网络,输出动作空间中每一个动作a的Q值,Q值代表当前动作的价值;
步骤2-3,随机生成一个数x,x∈(0,1),并判断x是否小于等于ε,若是,表明智能体处于探索阶段,反之表明智能体处于利用阶段;
步骤2-4,若步骤2-3判断结果为探索阶段,则随机选取动作若为利用阶段则选取最大Q值对应的动作a;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010169230.6/2.html,转载请声明来源钻瓜专利网。