[发明专利]面向限时红蓝对抗问题动作空间解耦的博弈决策方法有效

申请号：	202210079797.3	申请日：	2022-01-24
公开（公告）号：	CN114492749B	公开（公告）日：	2023-09-15
发明（设计）人：	耿虎军;孟楠;张加佳;姜岩松;张文宝;楚博策;韩长兴;高晓倩;王梅瑞;高峰	申请（专利权）人：	中国电子科技集团公司第五十四研究所
主分类号：	G06N5/04	分类号：	G06N5/04;G06N3/047;G06N3/092;G06F40/30;G06F18/23
代理公司：	河北东尚律师事务所 13124	代理人：	王文庆;曲佳颖
地址：	050081 河北省石家庄***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向限时对抗问题动作空间博弈决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向限时红蓝对抗问题动作空间解耦的博弈决策方法，其特征在于，包括以下步骤：

步骤1，搭建具有迷雾效果的红蓝对抗场景，提供各自阵营视角的红蓝双方态势语义信息,同时基于建筑物进行环境抽象，引入连通性及节点将地图离散化，并明确动作空间制定原则；

步骤2，对各自阵营视角的红蓝双方态势语义信息进行解析，构建博弈数据进行非完全信息下的蓝方信息预测模型的训练，得到预训练模型BN_r；

步骤3，将红方视角下基于迷雾的蓝方非完全态势语义信息及红方信息进行解析，送入蓝方信息预测模型BN_r，进行未知的蓝方信息的预测，得到红方视角下的蓝方完全信息；

步骤4，建立基于连通收益矩阵、辐射概率矩阵和红蓝单元分布矩阵的联合蒙特卡洛树评估体系；

步骤5，基于步骤3得到的蓝方完全信息和步骤4得到的评估体系，针对红方每个团体构建动作空间，建立蒙特卡洛树分开决策；其中，初始时刻红方每个单元定义为1个团体，在每个团体的蒙特卡洛树决策过程中，仅对当前团体进行搜索决策，其他团体静止；

步骤6，基于步骤5得到的蒙特卡洛树决策结果进行后处理，检查每个团体的蒙特卡洛树搜索结果产生的最终状态，并判断结果是否会相互影响，对于互相影响的团体则组合成新团体，返回步骤5构建联合动作空间，直至达到设定的时间阈值，输出当前决策结果；对于不存在关联关系的团体，直接输出当前决策结果；

步骤7，基于当前决策结果生成决策语义，并执行当前方案；

其中，步骤4具体包括以下步骤：

401基于邻接矩阵计算出每个节点v_i,j与其他节点v_p,q的连通性l_ij：

连通性值越高，表示节点与其他节点的连通性越好，其中M₁,N₁分别为地图的长宽，A_mn(v_ij)为矩阵A(v_ij)第m行n列的元素；

402基于节点的连通性构造连通收益矩阵

403构造博弈单元k的辐射概率矩阵博弈单元包括红方单元和蓝方单元，其中辐射概率矩阵通过下述方式计算：

①初始化博弈单元k的辐射概率矩阵

②基于博弈单元位置更新辐射概率矩阵τ^k；若博弈单元k位于v_i,j处，则v_i,j处的辐射概率值为1；其余位置v_p,q处的辐射概率值由衰减函数G(v_i,j,v_p,q)给出：

其中，α为衰减系数；C(v_i,j,v_p,q)表示节点v_i,j,v_p,q之间的最短路径长度，通过广度或深度遍历得到，当辐射深度C(v_i,j,v_p,q)到达设定阈值或者辐射概率值小于设定阈值时停止辐射；

404将博弈单元的辐射概率矩阵叠加，得到红方阵营或蓝方阵营的整体辐射概率矩阵D：

其中，n为红方单元或蓝方单元的个数，若n＝0，则令最终红方或蓝方的评估得分表示如下：

S_r＝Z·D_b

S_b＝Z·D_r

其中，S_r为红方阵营的评估得分，S_b为蓝方阵营的评估得分，·表示矩阵对应元素相乘，D_r为红方阵营的整体辐射概率矩阵，D_b为蓝方阵营的整体辐射概率矩阵。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第五十四研究所，未经中国电子科技集团公司第五十四研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210079797.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载