[发明专利]基于深度强化学习模型的兵棋推演协作策略获取方法在审
申请号: | 202210270021.X | 申请日: | 2022-03-18 |
公开(公告)号: | CN114722701A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 冯旸赫;梁星星;刘忠;程光权;黄金才;许乃夫;陈丽;姚晨蝶 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06K9/62;G06F111/08 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 李杨 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 模型 推演 协作 策略 获取 方法 | ||
本发明涉及兵棋推演领域,公开了一种基于深度强化学习模型的兵棋推演协作策略获取方法,本发明在兵棋平台上搭建多智能体系统环境;根据所述多智能体系统环境结合预设元组进行建模,生成决策模型;根据专家先验知识设计子目标,将所述子目标用于奖励塑造;选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法;通过QMIX算法对所述决策模型进行求解以获取兵棋推演协作策略实现了在兵棋环境中引导多智能体学习到较好的学习策略。
技术领域
本申请涉及兵棋推演领域,特别是涉及一种基于深度强化学习模型的兵棋推演协作策略获取方法。
背景技术
在多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)研究中,奖励稀疏的问题同样存在。兵棋推演是一种模拟真实战场和战斗过程的博弈工具,相较于传统强化学习环境,兵棋推演环境具有不完全信息、不确定性、多算子同时决策等特点,需要考虑算子之间的协同和博弈,这些特点一方面增加了强化学习的研究难度,另一方面为强化学习的进一步发展提供了研究平台。
国内外的研究者很早就在兵棋环境中进行人工智能的研究。棋类智能体阿尔法狗战胜围棋世界冠军李世石事件,展现了强化学习技术在智能决策领域的优势,相比于棋类环境,兵棋推演的非完全观测使得它的研究更具有挑战性。现阶段多智能体强化学习在兵棋平台的应用还不多。MARL需要智能体与环境交互并得到大量的数据用于训练智能体,动作空间和状态空间随着算子数目的增加而指数增加,这会导致稀疏奖励问题的发生,进一步阻碍强化学习的训练、收敛。
因此,如何在兵棋环境中引导多智能体学习到较好的学习策略成为了一个亟待解决的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种基于深度强化学习模型的兵棋推演协作策略获取方法,旨在解决现有技术无法在兵棋环境中引导多智能体学习到较好的学习策略的技术问题。
为实现上述目的,本发明提供了一种基于深度强化学习模型的兵棋推演协作策略获取方法,所述方法包括:
在兵棋平台上搭建多智能体系统环境;
根据所述多智能体系统环境结合预设元组进行建模,生成决策模型;
根据专家先验知识设计子目标,将所述子目标用于奖励塑造;
选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法;
通过QMIX算法对所述决策模型进行求解以获取兵棋推演协作策略。
可选地,所述根据所述多智能体系统环境结合预设元组进行建模,生成决策模型的步骤,包括:
使用改进的元组G=<S,U,P,r,Z,O,n,γ>对所述多智能体系统环境进行决策模型的建模,其中s∈S描述红方对训练环境全局态势的观测,在每一个时间步,每个智能体n在可选动作集Un中选取一个动作,所有智能体选择的动作组成联合动作u∈U≡Un,联合动作推动环境上的状态转移,状态转移定义如下P(s'|s,u):S×U×S→[0,1],所有智能体共享同一个奖励函数r(s,u):S×U→γ并且γ∈[0,1)。
可选地,所述根据专家先验知识设计子目标,将所述子目标用于奖励塑造的步骤,包括:
根据专家先验知识确定子目标序列;
确定强化学习所学习的抽象状态,并在所述抽象状态上构建马尔可夫决策模型;
搭建神经网络求解所述马尔可夫决策模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210270021.X/2.html,转载请声明来源钻瓜专利网。