[发明专利]一种基于深度强化学习的对抗仿真推演方法有效
| 申请号: | 202110655273.X | 申请日: | 2021-06-11 |
| 公开(公告)号: | CN113298260B | 公开(公告)日: | 2022-07-26 |
| 发明(设计)人: | 曾向荣;钟志伟;张政;刘衍 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N3/08;G06N3/04 |
| 代理公司: | 长沙大珂知识产权代理事务所(普通合伙) 43236 | 代理人: | 伍志祥 |
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 对抗 仿真 推演 方法 | ||
本发明公开了一种基于深度强化学习的对抗仿真推演方法,该方法在对抗终端进行人机操作和机器自主学习操作,通过人‑机对抗训练生成训练样本数据、机‑机对抗训练通过深度卷积神经网络生成大量训练样本数据,所述训练样本数据包括单智能体的奖励值;深度卷积神经网络将多个单智能体的状态和所述奖励值生成多智能体联合状态和联合奖励值,输入深度强化学习模型,所述深度强化学习模型输出联合决策行动,生成多智能体对抗决策;将所述多智能体对抗决策反馈输入深度强化学习模型,实现无监督的自我学习。本发明在对抗想定已知的情况下,通过改变多智能体编队、分组、战术配合等达到了对抗仿真推演中电子假想对抗方效能评估最优的目标。
技术领域
本发明属于对抗推演技术领域,尤其涉及一种基于深度强化学习的对抗仿真推演方法。
背景技术
兵棋推演是对现实战争的虚拟再现,计算机兵棋推演则是将兵棋推演与计算机集合在一起,利用计算机的计算能力按照兵棋的相关规则进行推演,从而模拟战争的进行。兵棋推演目的在于模拟对抗进行过程、预测对抗的发生和结果、通过评估指挥员在其中的指挥达到提高指挥艺术的效果。
多智能体系统(Muti-agent System:MAS)是在同一个环境中由多个交互智能体组成的系统,该系统常用于解决独立智能体以及单层系统难以解决的问题,其中的智能可以由方法,函数,过程,算法或强化学习来实现。多智能体系统因其较强的实用性和扩展性,在机器人合作、分布式控制、资源管理、协同决策支持系统、自主化对抗系统、数据挖掘等领域都得到了广泛的应用。
强化学习(Reinforcement Learning:RL)是机器学习的一个重要分支,其本质是描述和解决智能体在与环境的交互过程中学习策略以最大化回报或实现特定目标的问题。与监督学习不同,强化学习并不告诉智能体如何产生正确的动作,它只对动作的好坏做出评价并根据反馈信号修正动作选择和策略,所以强化学习的回报函数所需的信息量更少,也更容易设计,适合解决较为复杂的决策问题。近来,随着深度学习(Deep Learning:DL)技术的兴起及其在诸多领域取得辉煌的成就,融合深度神经网络和RL的深度强化学习(DeepReinforcement Learning:DRL)成为各方研究的热点,并在计算机视觉、机器人控制、大型即时战略游戏等领域取得了较大的突破。
发明内容
有鉴于此,本发明的目的是在对抗想定已知的情况下,通过改变多智能体编队、分组、战术配合等以达到对抗仿真推演中电子假想对抗方效能评估最优的目标。采用人-机对抗训练不断的完善对抗仿真推演的模型训练数据,为指挥员更加高级的智能化对抗推演提供依据。
因此本发明提出了一种基于深度强化学习的对抗仿真推演方法,该方法的多智能化对抗决策通过深度强化学习中训练模型获得,深度强化学习模型训练通过多智能体对抗决策反馈训练,对抗终端支持人机操作和机器自主学习操作,可实现人机对抗训练生成训练样本数据、机器与机器对抗训练生成大量的训练样本数据、机器自我学习获取对抗决策,实现无监督的自我学习。
本发明公开的一种基于深度强化学习的对抗仿真推演方法包括以下步骤:
在对抗终端进行人机操作和机器自主学习操作,通过人-机对抗训练生成训练样本数据、机-机对抗训练大量训练样本数据,通过深度卷积神经网络生成单智能体的奖励值;
深度卷积神经网络将多个单智能体的状态和所述奖励值生成多智能体联合状态和联合奖励值,输入深度强化学习模型,所述深度强化学习模型输出联合决策行动,生成多智能体人-机、机-机对抗决策;
将所述多智能体人-机、机-机对抗决策反馈输入深度强化学习模型,实现无监督的自我学习。
进一步的,所述深度强化学习模型输出联合决策行动,生成多智能体对抗决策,其具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110655273.X/2.html,转载请声明来源钻瓜专利网。





