[发明专利]一种面向非完全信息条件下军事对抗博弈的智能决策方法有效
申请号: | 202011233703.0 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112329348B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 杜金铭 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06Q10/04;G06Q50/26;G06N3/0464;G06N3/08;G06N5/04;G06F119/14 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 陈丽;李洪福 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 完全 信息 条件下 军事 对抗 博弈 智能 决策 方法 | ||
1.一种面向非完全信息条件下军事对抗博弈的智能决策方法,其特征在于,包括:
S101、构建军事对抗博弈决策动力学基础模型;
S102、基于深度学习和自我博弈,建立军事对抗博弈智能学习模型并确定模型的参数;所述军事对抗博弈智能学习模型用于替代或求解所述基础模型中的策略更新规则;
S103、利用所述基础模型、所述军事对抗博弈智能学习模型及其参数,对对抗环境下的非完全信息战场态势进行分析预测;
S104、基于分析预测结果和“决策-反馈-动态优化”的智能优化决策模式,得到不确定对抗环境中的智能优化决策;
其中,构建军事对抗博弈决策动力学基础模型,包括:
确定博弈参与方;
确定博弈参与方的策略;
根据博弈关系确定参与方在博弈中的收益,包括:
基于博弈参与者以及策略形成博弈矩阵;
基于博弈矩阵确定博弈群体的状态ξ:=[ξA ξB]T,每一个分量ξX(X=A,B)代表采取策略X的参与者在整个系统中所占的比例;
由复制动力学方程表示各个状态的变化:
rX(ξ,ψ):=ψXξ-ξTψξ
其中,ψXξ和ξTψξ分别代表策略X的期望收益和整个系统的平均收益;ξ是状态向量,ξA、ξB分别代表采用策略A、B的个体在系统中的比例,ψ是收益矩阵,rX(ξ,ψ)表示策略X的平均收益与系统平均收益的差;各个参与方基于在博弈中的收益进行策略更新;
其中,基于深度学习和自我博弈,建立军事对抗博弈智能学习模型并确定模型的参数,包括:
基于深度神经网络构建军事对抗博弈智能学习模型,所述军事对抗博弈智能学习模型的输入包括当前的军事对抗状态,所述军事对抗博弈智能学习模型的输出包括策略部分和价值部分;对于策略部分,预测当前各行动策略被采用的概率;对于价值部分,输出是当前战场局面胜负的评估值,在[-1,1]之间;深度神经网络的结构为以CNN组成的深度残差网络;
根据专家经验规则,确定蓝图策略;
基于所述蓝图策略,通过所述军事对抗博弈智能学习模型的自我博弈,产生大量战场对抗样本;以所述战场对抗样本作为训练数据训练所述军事对抗博弈智能学习模型,确定优化后的神经网络参数;
其中,利用所述基础模型、所述军事对抗博弈智能学习模型及其参数,对对抗环境下的非完全信息战场态势进行分析预测,包括:
利用蒙特卡洛树搜索方法搜索优势策略和安全策略;
对抗路径抽象归类及信息集分割,为战场环境构建模型以及对抗态势分析提供知识约束空间支撑,包括:提供敌我武器装备性能参数、作战区域位置、作战场景要素;
将作战信息,依次编码代入蒙特卡洛决策树,进行自我博弈仿真,分别得到预测结果;
根据预测结果划分信息对战场胜负与否的影响程度;
根据人工智能聚类方法,进行战场态势信息集的划分;
其中,对抗路径抽象归类及信息集分割,包括:
从数据库中提取作战信息;所述作战信息包括战斗编队规模、位置以及武器装备信息,将其映射到场景模型中,通过二进制序列编码的大小表示作战编队的规模、位置以及武器装备水平;
基于用户提供的军事对抗数据和限定规则,生成用于对抗的环境模型;
根据演化脉络进行对抗路径抽象归类与信息集分割;
其中,“决策-反馈-动态优化”的智能优化决策模式按照以下方式获得:
针对当前的对抗军事场景,实时监督与跟踪博弈对抗路径,分析对抗路径的偏离程度;
基于对抗路径偏离信息的动态反馈,重新分析与预测对抗路径信息,根据实时的战场态势以及各方的行动策略,不断更新基础模型以及智能学习模型,将每一次决策后的博弈状态反馈到模型中,加上环境的实时变化,更新博弈树,再利用更新后的学习模型优化下一步的策略决策,实现“决策-反馈-动态优化”的智能军事决策模式;
其中,基于分析预测结果和“决策-反馈-动态优化”的智能优化决策模式,得到不确定对抗环境中的智能优化决策,包括:
结合监督学习、强化学习以及模仿学习,在整个博弈过程中不断学习对手的策略,在实时决策过程中,通过反馈,不断优化自身策略,提升决策能力;
对博弈参与者的开局动作策略分布进行编码,以保留一些开局的高级策略,作为学习样本,用于模仿学习;
通过蒙特卡洛反事实后悔值最小化算法,优化所述蓝图策略;
其中,通过蒙特卡洛反事实后悔值最小化算法,优化所述蓝图策略,包括:
模拟所有参与方使用相同策略在当前状态下进行决策;
在每一次决策之后,递归地检查每个决策,并与在相同情况下可能选择的其他操作相比,评估该决策的预期结果;
通过模仿学习,将历史博弈中的人类探索方案加入到新的行动方案空间中;并通过强化学习,对于新的策略动作,利用奖励和惩罚对于新方案与原有方案的差异进行评估;
为了处理非完全信息,需要执行嵌套搜索,维护搜索树的根节点和每个参与方持有的策略的根节点的概率分布;
通过抽象归类机制,将类似的情况打包在一起,减少决策点的数量,使用蒙特卡洛反事实后悔值最小化算法,将每个行动方案映射到一个分布;
基于当前的局面,针对将类似的决策点组合在一起之后的更简单的博弈版本,进行嵌套子博弈求解,得到不确定对抗环境中的智能优化决策。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011233703.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:红腰豆罐头及其制备方法
- 下一篇:上行链路控制信息的码分复用
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置