[发明专利]基于深度强化学习模型的兵棋推演协作策略获取方法在审

申请号：	202210270021.X	申请日：	2022-03-18
公开（公告）号：	CN114722701A	公开（公告）日：	2022-07-08
发明（设计）人：	冯旸赫;梁星星;刘忠;程光权;黄金才;许乃夫;陈丽;姚晨蝶	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06F30/27	分类号：	G06F30/27;G06K9/62;G06F111/08
代理公司：	长沙国科天河知识产权代理有限公司 43225	代理人：	李杨
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习模型推演协作策略获取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习模型的兵棋推演协作策略获取方法，其特征在于，所述方法包括：

在兵棋平台上搭建多智能体系统环境；

根据所述多智能体系统环境结合预设元组进行建模，生成决策模型；

根据专家先验知识设计子目标，将所述子目标用于奖励塑造；

选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法；

通过QMIX算法对所述决策模型进行求解以获取兵棋推演协作策略。

2.如权利要求1所述的方法，其特征在于，所述根据所述多智能体系统环境结合预设元组进行建模，生成决策模型的步骤，包括：

使用改进的元组G＝＜S,U,P,r,Z,O,n,γ＞对所述多智能体系统环境进行决策模型的建模，其中s∈S描述红方对训练环境全局态势的观测，在每一个时间步，每个智能体n在可选动作集U_n中选取一个动作，所有智能体选择的动作组成联合动作u∈U≡Uⁿ，联合动作推动环境上的状态转移，状态转移定义如下P(s'|s,u):S×U×S→[0,1]，所有智能体共享同一个奖励函数r(s,u):S×U→γ并且γ∈[0,1)。

3.如权利要求1所述的方法，其特征在于，所述根据专家先验知识设计子目标，将所述子目标用于奖励塑造的步骤，包括：

根据专家先验知识确定子目标序列；

确定强化学习所学习的抽象状态，并在所述抽象状态上构建马尔可夫决策模型；

搭建神经网络求解所述马尔可夫决策模型；

对神经网络进行训练，在所述神经网络训练收敛以后使用获得的V(Z)值作为状态的势能，进行奖励塑造。

4.如权利要求3所述的方法，其特征在于，所述搭建神经网络求解所述马尔可夫决策模型的步骤，包括：

在所述神经网络中，输入空间维度为四维，当达到第一个子目标时，第一维输入是1，否则是0，第二、三、四维也是如此，经过一层维度为10维的隐藏层，选择使用均值为0，标准差为0.01的正态分布进行参数初始化，输出抽象状态函数值以求解所述马尔可夫决策模型。

5.如权利要求1所述的方法，其特征在于，所述选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法的步骤，包括：

选择分布式决策、集中式训练的多智能体强化学习架构，结合分层奖励塑造框架搭建QMIX算法，所述QMIX算法包含一组DRQN和一个混合网络，组中的每个DRQN网络对应一个分布式执行的策略，混合网络把一组DRQN网络组合输出的一组Qa以一种复杂的非线性模式加权组合，从而输出Qtot。

6.如权利要求5所述的方法，其特征在于，所述选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法的步骤之后，还包括：

将输入信息经过一层MLP网络，选择使用均值为0，标准差为1的正态分布进行参数初始化，并输出一组特征向量；

使用整流线性单元对所述特征向量进行非线性化处理；

将处理好的特征向量和上一步存储的隐藏层信息输入到RNN层中，根据时序训练的要求，将当前时间步的特征向量和上一步的隐藏层信息在RNN层融合生成新的特征向量和新的隐藏层信息；

将RNN层的输出传入最后一层MLP以获得Q值；

采取epislon-greedy的方法，当随机生成的概率小于预设概率时，使用argmax函数，选择状态动作值最大的动作并执行；

在生成的概率小于设定概率时，等概率随机抽取动作并将当前步获得的存入回放池中，等到网络更新时再取出。

7.如权利要求1至6任一项所述的方法，其特征在于，所述通过QMIX算法对所述决策模型进行求解以获取兵棋推演协作策略的步骤之前，还包括：

获取预设地址中M个智能体的Q值列表；

获取全局状态St并经过一层单独的线形层进行特征处理；

再经过一层绝对值激活函数，对特征进行非线性化处理，以生成混合网络的权重；

输出结果是四个向量＜W₁,W₂,bias₁,bias₂，这四个向量被用于对第x1个智能体到第xm个智能体的Q值列表进行加权组合；

根据所述Q值列表作为混合网络的输入，经过计算后输出Q_tot(τ,a)值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210270021.X/1.html，转载请声明来源钻瓜专利网。

上一篇：弱标签数据集的标签传播方法
下一篇：一种清洗胶原蛋白添加系统的清洗液及清洗方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习模型的兵棋推演协作策略获取方法在审

专利文献下载