[发明专利]基于组合训练的规则嵌入多智能体强化学习方法及装置在审
申请号: | 202010568287.3 | 申请日: | 2020-06-19 |
公开(公告)号: | CN111783944A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 李渊;张帅;徐新海;刘逊韵;张峰;李豪 | 申请(专利权)人: | 中国人民解放军军事科学院战争研究院 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗晓静 |
地址: | 100091 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 组合 训练 规则 嵌入 智能 强化 学习方法 装置 | ||
本发明实施例公开了一种基于组合训练的规则嵌入多智能体强化学习方法及装置,本发明实施例将规则库与强化学习有效的结合起来,能够实现对博弈对抗问题的建模与求解,通过引入间接动作类型,在智能体对自身求解空间探索的同时,增加了是否使用规则的决策,避免了规则优先使用的缺陷,提升规则与学习结合的有效性。此外,多智能体强化学习模型产生的间接动作指定了智能体所使用的规则库之后,规则选择模型用来从指定的规则库中选择最合适的规则。通过两级规则选择机制,能够有效降低无效规则对强化学习效果的影响。针对包含两种异构模型的训练问题,提供了一种组合训练的方法,通过反复迭代训练得到两种模型,实现异构模型的融合训练。
技术领域
本发明涉及多智能体强化学习技术领域,具体涉及一种基于组合训练的规则嵌入多智能体强化学习方法及装置。
背景技术
自从2016年Alpha Go在围棋中击败人类顶级选手,强化学习技术引起了广泛的关注,已经在仿真模拟、游戏对抗、推荐系统等许多方面取得了突出的进展。现实世界问题的复杂性促使强化学习从单智能体领域拓展到多智能体领域。多智能体系统不是多个单智能体的简单叠加,而是通过多智能体之间的竞争与合作关系形成整体的能力。一方面,智能体数量的增加将极大的扩展多智能体状态-动作,导致多智能体问题求解难度急剧增大。另一方面,多智能体强化学习不仅需要每个智能体与环境进行大量试错交互而且需要多智能体进行竞争协作的试错交互,这使得多智能体强化学习变得非常困难。传统的从零开始学习的方法导致智能体在庞大的策略空间中进行随机探索,导致大量的无效探索,探索效率不高;智能体没有初始经验,训练周期长。智能体训练需要大量的训练数据,训练效果难以实现。这些问题导致强化学习方法在很多实际问题中陷入局部解,表现的不太理想。
针对大多数多智能体的学习问题,往往存在一些先前积累的经验或知识。这些经验知识如果以一定方式融入到学习过程来指导智能体的探索,可以避免许多无效的探索,使得智能体训练速度更快,效果更好。一个典型的例子是在2018年的星际争霸智能体对抗赛中,得益于韩国电子竞技选手的指导,基于规则的多智能体系统获得了冠军。传统的基于人类知识经验的技术途径如专家系统,将大量的经验知识有效的组织起来,用于实际问题的分析求解。然而人类的知识经验繁杂众多,很难建立一个完善的、适应性强、智能性高的专家系统。
基于人类经验知识的方式与基于数据学习的方式各有优劣,将二者结合起来是高效求解多智能体问题的一个有效手段。当前针对知识与学习的结合方式的研究还处于比较初始的状态。最常见是将知识经验以规则形式表达进而与学习直接耦合的结合方法。这种方法在使用中,一旦规则匹配到,优先使用规则。当没有规则匹配时,就使用强化学习进行探索。这种方式的缺陷在于规则一直优先使用,无法对无效规则进行筛选。
由此可见,多智能体强化学习存在着探索空间巨大、训练周期长以及训练效果不明显等问题。将人类知识经验以规则形式嵌入学习过程是提升多智能体学习能力的有效手段。现有通用的规则耦合学习的方法只适用于规则确定有效的场景,无法对规则的有效性进行甄别。无效的规则不但不会对多智能体的学习效果起到帮助作用,甚至还会减弱多智能体的学习效果。
发明内容
针对现有技术中存在的问题,本发明实施例提出一种基于组合训练的规则嵌入多智能体强化学习方法及装置。
具体地,本发明实施例提供了以下技术方案:
第一方面,本发明实施例提供了一种基于组合训练的规则嵌入多智能体强化学习方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院战争研究院,未经中国人民解放军军事科学院战争研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010568287.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于汽轮机的多级喷射式抽气器
- 下一篇:复合型船舶冷却器