[发明专利]一种面向非完全信息条件下军事对抗博弈的智能决策方法有效

申请号：	202011233703.0	申请日：	2020-11-06
公开（公告）号：	CN112329348B	公开（公告）日：	2023-09-15
发明（设计）人：	杜金铭	申请（专利权）人：	东北大学
主分类号：	G06F30/27	分类号：	G06F30/27;G06Q10/04;G06Q50/26;G06N3/0464;G06N3/08;G06N5/04;G06F119/14
代理公司：	大连东方专利代理有限责任公司 21212	代理人：	陈丽;李洪福
地址：	110819 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向完全信息条件下军事对抗博弈智能决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向非完全信息条件下军事对抗博弈的智能决策方法，其特征在于，包括：

S101、构建军事对抗博弈决策动力学基础模型；

S102、基于深度学习和自我博弈，建立军事对抗博弈智能学习模型并确定模型的参数；所述军事对抗博弈智能学习模型用于替代或求解所述基础模型中的策略更新规则；

S103、利用所述基础模型、所述军事对抗博弈智能学习模型及其参数，对对抗环境下的非完全信息战场态势进行分析预测；

S104、基于分析预测结果和“决策-反馈-动态优化”的智能优化决策模式，得到不确定对抗环境中的智能优化决策；

其中，构建军事对抗博弈决策动力学基础模型，包括：

确定博弈参与方；

确定博弈参与方的策略；

根据博弈关系确定参与方在博弈中的收益，包括：

基于博弈参与者以及策略形成博弈矩阵；

基于博弈矩阵确定博弈群体的状态ξ：＝[ξ_A ξ_B]^T，每一个分量ξ_X(X＝A,B)代表采取策略X的参与者在整个系统中所占的比例；

由复制动力学方程表示各个状态的变化：

r_X(ξ,ψ)：＝ψ_Xξ-ξ^Tψξ

其中，ψ_Xξ和ξ^Tψξ分别代表策略X的期望收益和整个系统的平均收益；ξ是状态向量，ξ_A、ξ_B分别代表采用策略A、B的个体在系统中的比例，ψ是收益矩阵，r_X(ξ,ψ)表示策略X的平均收益与系统平均收益的差；各个参与方基于在博弈中的收益进行策略更新；

其中，基于深度学习和自我博弈，建立军事对抗博弈智能学习模型并确定模型的参数，包括：

基于深度神经网络构建军事对抗博弈智能学习模型，所述军事对抗博弈智能学习模型的输入包括当前的军事对抗状态，所述军事对抗博弈智能学习模型的输出包括策略部分和价值部分；对于策略部分，预测当前各行动策略被采用的概率；对于价值部分，输出是当前战场局面胜负的评估值，在[-1,1]之间；深度神经网络的结构为以CNN组成的深度残差网络；

根据专家经验规则，确定蓝图策略；

基于所述蓝图策略，通过所述军事对抗博弈智能学习模型的自我博弈，产生大量战场对抗样本；以所述战场对抗样本作为训练数据训练所述军事对抗博弈智能学习模型，确定优化后的神经网络参数；

其中，利用所述基础模型、所述军事对抗博弈智能学习模型及其参数，对对抗环境下的非完全信息战场态势进行分析预测，包括：

利用蒙特卡洛树搜索方法搜索优势策略和安全策略；

对抗路径抽象归类及信息集分割，为战场环境构建模型以及对抗态势分析提供知识约束空间支撑，包括：提供敌我武器装备性能参数、作战区域位置、作战场景要素；

将作战信息，依次编码代入蒙特卡洛决策树，进行自我博弈仿真，分别得到预测结果；

根据预测结果划分信息对战场胜负与否的影响程度；

根据人工智能聚类方法，进行战场态势信息集的划分；

其中，对抗路径抽象归类及信息集分割，包括：

从数据库中提取作战信息；所述作战信息包括战斗编队规模、位置以及武器装备信息，将其映射到场景模型中，通过二进制序列编码的大小表示作战编队的规模、位置以及武器装备水平；

基于用户提供的军事对抗数据和限定规则，生成用于对抗的环境模型；

根据演化脉络进行对抗路径抽象归类与信息集分割；