[发明专利]一种高样本效率的多智能体强化学习训练方法在审
| 申请号: | 202110718305.6 | 申请日: | 2021-06-28 |
| 公开(公告)号: | CN113313209A | 公开(公告)日: | 2021-08-27 |
| 发明(设计)人: | 吴健;宋广华;姜晓红;叶振辉;陈弈宁;王珂;应豪超 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 彭剑 |
| 地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 样本 效率 智能 强化 学习 训练 方法 | ||
本发明公开了一种高样本效率的多智能体强化学习训练方法,包括以下步骤:(1)构建多智能体系统,多智能体系统由多智能体强化学习模型控制;(2)收集多个训练样本并存储到容器中;(3)抽取训练样本,对抽取的训练样本进行数据预处理;(4)采用策略延迟更新的方式训练模型,在更新模型的执行者网络、评价者网络和目标网络时,先更新评价者网络n×d次,再更新执行者网络n次,最后更新目标网络n次;(5)使用最大动作熵和函数平滑的目标函数来训练模型中的策略函数和评价函数;(6)训练完毕后,使用多智能体系统进行应用。利用本发明,可以解决现有多智能体强化学习算法在现实任务中面临的低样本效率、高训练成本的问题。
技术领域
本发明属于多智能体强化学习技术领域,尤其是涉及一种高样本效率的多智能体强化学习训练方法。
背景技术
面对现实世界中日益复杂、规模庞大的群体控制任务,集成的单智能体解决方案越来越面临着资源和条件的限制。多智能体系统是在同一个环境中由多个较为简单的交互智能体组成的系统,该系统常用于解决独立智能体以及单层系统难以解决的复杂问题,相比独立智能体或单层系统,多智能体系统有效地提高了整个系统的鲁棒性、可靠性和可扩展性。随着互联网、智能设备等新兴技术的发展,越来越多新的任务场景可以被建模成多智能体系统,如城市交通调度、分布式传感网络、无人机集群协同、通信路由等。然而,这些场景多存在智能体规模大、数据类型复杂、环境部分可观测等困难,对传统多智能体系统算法提出了巨大挑战。设计满足上述要求的高效多智能体算法,训练具有群体智能的多智能体系统,是解决此类问题的关键所在。
深度强化学习是将强化学习和深度学习理论应用于智能体决策问题的技术,强化学习使得智能体可以从与环境的交互中学习到有效的策略,深度学习技术的引入则使智能体能够处理更加动态、更加高维的数据,从而可以应用在更复杂的现实场景中。然而,目前较少有多智能体强化学习算法在现实场景中的应用,这很大部分是因为目前多智能体强化学习算法的样本效率较低,算法收敛所需要的数据量很高,在现实场景中收集这些数据的经济成本和时间成本十分高昂。因此,目前学界广泛作为基准的DIAL、MADDPG、QMIX、MAAC等多智能体强化学习算法无法很好地应对现实任务中的这些难点。为此,已有很多专家和学者立足于“在实际场景中应用强化学习”这一目标展开了研究。还有的致力于提升强化学习算法的样本效率,分别侧重于考虑改进采样方式(如优先级经验回放)、并行化收集样本(异步环境)、利用数据增强产生额外数据等。下面我们对学界中提升训练效率和样本效率的研究进行总结。
提升算法的训练效率是一个很宽泛的概念,但却是强化学习领域一个长久的研究热点。与监督学习有一个明确的训练目标不同,由于强化学习需要从试错中学习,低样本效率导致的高经济成本和低训练速度导致的高时间成本一直是限制其在复杂现实任务中得到应用的最大制约因素。最早的提升强化学习算法的训练效率的尝试应该是DQN引入的经验回放(experience replay)机制,该机制将当前策略在过去与环境交互获得的训练样本储存起来进行多次使用,大大提升了强化学习算法的样本效率,并在此后的大部分强化学习算法中得到沿用。此后有大量工作通过改善选取训练样本的策略达到了提升算法训练效率的效果。Prioritized Experience Replay提出优先级经验回放,根据各训练样本的训练价值(时序差分误差大小)进行优先级采样,提升了算法的训练速度。Combined ExperienceReplay提出在进行经验回放的同时将智能体当前采集的样本结合一起用来训练,在部分场景中实现了更快的训练速度。Reinforcement Learning with Augmented Data将在计算机视觉中常用的数据增强方法应用在强化学习中,提升了算法的收敛性能和鲁棒性。Message-Dropout通过将dropout机制迁移到智能体间通信流程中,实现了更快的训练速度和更优的性能。此外还有很多工作从分布式训练的角度对算法的训练策略进行了优化,如A3C算法首次提出同时执行多个平行仿真环境来提高样本的收集速度,起到了加速探索、提升样本效率的效果;Distributed Prioritized Experience Replay在执行平行环境的基础上引入了优先级经验回放,进一步提升了算法的训练效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110718305.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搂取式掏耳器
- 下一篇:一种淀粉自动投料装置





