[发明专利]一种基于最大置信度上界的交替深度Q网络方法在审

申请号：	202110858279.7	申请日：	2021-07-28
公开（公告）号：	CN113627589A	公开（公告）日：	2021-11-09
发明（设计）人：	谭晓阳;吴卿源	申请（专利权）人：	南京航空航天大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06N20/00
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	向文
地址：	210016 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于最大置信上界交替深度网络方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于最大置信度上界的交替深度Q网络方法，包括：初始化多个各自独立的深度Q网络，公共历史经验回放池，网络选择次数；初始化环境状态；根据Q‑UCB策略选择Q网络；选择并执行动作，获得新环境状态和奖励；将信息存储进公共历史经验回放池中；更新网络选择次数；从公共历史经验回放池中独立随机采样更新深度Q网络；重复步骤直到网络收敛。本发明基于神经网络自身初始化的探索性能结合最大置信度上界策略进行交替探索，使用多个Q网络进行协作决策，提升了探索效率，解决了强化学习任务中样本效率与算法效率低下的问题，提升了Q网络的性能。

技术领域

本发明属于机器学习领域，具体涉及一种基于最大置信度上界的交替深度Q网络方法。

背景技术

在强化学习问题中，智能体与环境进行交互，并学习如何在当前状态下采取最好的动作以最大化未来累计奖励。传统的强化学习算法都已经在简单强化学习问题上取得了不错的效果。而将强化学习与深度学习相结合的深度强化学习在许多复杂高维的领域都取得了巨大的成功。例如通过将深度学习与Q学习算法相结合得到了深度Q网络算法。即通过参数为的神经网络函数来近似状态动作价值函数。在与环境进行交互时，深度Q网络采取的是离策略，即在与环境交互时采取-贪心策略进行交互；在估计最优动作状态价值函数时采取的是贪心策略。

在现实场景中，强化学习需要与环境进行交互以获取知识与信息。而智能体需要很好地平衡利用与探索。现有的利用与探索策略如epsilon贪心策略在探索的时候没有很好地考虑到历史的经验信息，因此会有探索效率低下等问题，因此无法去完成一些需要很强探索性的任务场景。

在实际环境中，智能体常常面对的是未知的环境，所能获取的关于环境的信息很少，只能通过之前的交互经验来学习。并且还常常面对着探索与利用的难题，智能体需要去探索不同的环境以提升未来的奖励，会牺牲一些眼前的一些奖励，以使得最终获得的奖励最大化。并且智能体需要进行有效的探索，以使得样本采样有效性最大化，从而使得智能体训练效率提升。而如何进行有效的探索一直是一个尚未解决的难题。

发明内容

发明目的：为了克服现有技术中存在的强化学习任务中样本效率与算法效率低下的问题，提供一种基于最大置信度上界的交替深度Q网络方法，能够利用多个网络协作共同探索，以提升探索效率。

技术方案：为实现上述目的，本发明提供一种基于最大置信度上界的交替深度Q网络方法，包括如下步骤：

S1：初始化k个各自独立的深度Q网络公共历史经验回放池B，网络选择次数N_i；

S2：初始化环境状态s₀；

S3：根据Q-UCB策略选择Q网络；

S4：根据步骤S3获取的Q网络，选择并执行动作，获得新环境状态s_t+1和奖励r_t；

S5：将步骤S4获取的信息存储进公共历史经验回放池中；

S6：更新网络选择次数；

S7：从公共历史经验回放池中独立随机采样更新深度Q网络；

S8：重复步骤S2～S7直到网络收敛。

进一步地，所述步骤S3具体为：