[发明专利]面向限时红蓝对抗问题动作空间解耦的博弈决策方法有效
申请号: | 202210079797.3 | 申请日: | 2022-01-24 |
公开(公告)号: | CN114492749B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 耿虎军;孟楠;张加佳;姜岩松;张文宝;楚博策;韩长兴;高晓倩;王梅瑞;高峰 | 申请(专利权)人: | 中国电子科技集团公司第五十四研究所 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N3/047;G06N3/092;G06F40/30;G06F18/23 |
代理公司: | 河北东尚律师事务所 13124 | 代理人: | 王文庆;曲佳颖 |
地址: | 050081 河北省石家庄*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 限时 对抗 问题 动作 空间 博弈 决策 方法 | ||
1.一种面向限时红蓝对抗问题动作空间解耦的博弈决策方法,其特征在于,包括以下步骤:
步骤1,搭建具有迷雾效果的红蓝对抗场景,提供各自阵营视角的红蓝双方态势语义信息,同时基于建筑物进行环境抽象,引入连通性及节点将地图离散化,并明确动作空间制定原则;
步骤2,对各自阵营视角的红蓝双方态势语义信息进行解析,构建博弈数据进行非完全信息下的蓝方信息预测模型的训练,得到预训练模型BNr;
步骤3,将红方视角下基于迷雾的蓝方非完全态势语义信息及红方信息进行解析,送入蓝方信息预测模型BNr,进行未知的蓝方信息的预测,得到红方视角下的蓝方完全信息;
步骤4,建立基于连通收益矩阵、辐射概率矩阵和红蓝单元分布矩阵的联合蒙特卡洛树评估体系;
步骤5,基于步骤3得到的蓝方完全信息和步骤4得到的评估体系,针对红方每个团体构建动作空间,建立蒙特卡洛树分开决策;其中,初始时刻红方每个单元定义为1个团体,在每个团体的蒙特卡洛树决策过程中,仅对当前团体进行搜索决策,其他团体静止;
步骤6,基于步骤5得到的蒙特卡洛树决策结果进行后处理,检查每个团体的蒙特卡洛树搜索结果产生的最终状态,并判断结果是否会相互影响,对于互相影响的团体则组合成新团体,返回步骤5构建联合动作空间,直至达到设定的时间阈值,输出当前决策结果;对于不存在关联关系的团体,直接输出当前决策结果;
步骤7,基于当前决策结果生成决策语义,并执行当前方案;
其中,步骤4具体包括以下步骤:
401基于邻接矩阵计算出每个节点vi,j与其他节点vp,q的连通性lij:
连通性值越高,表示节点与其他节点的连通性越好,其中M1,N1分别为地图的长宽,Amn(vij)为矩阵A(vij)第m行n列的元素;
402基于节点的连通性构造连通收益矩阵
403构造博弈单元k的辐射概率矩阵博弈单元包括红方单元和蓝方单元,其中辐射概率矩阵通过下述方式计算:
①初始化博弈单元k的辐射概率矩阵
②基于博弈单元位置更新辐射概率矩阵τk;若博弈单元k位于vi,j处,则vi,j处的辐射概率值为1;其余位置vp,q处的辐射概率值由衰减函数G(vi,j,vp,q)给出:
其中,α为衰减系数;C(vi,j,vp,q)表示节点vi,j,vp,q之间的最短路径长度,通过广度或深度遍历得到,当辐射深度C(vi,j,vp,q)到达设定阈值或者辐射概率值小于设定阈值时停止辐射;
404将博弈单元的辐射概率矩阵叠加,得到红方阵营或蓝方阵营的整体辐射概率矩阵D:
其中,n为红方单元或蓝方单元的个数,若n=0,则令最终红方或蓝方的评估得分表示如下:
Sr=Z·Db
Sb=Z·Dr
其中,Sr为红方阵营的评估得分,Sb为蓝方阵营的评估得分,·表示矩阵对应元素相乘,Dr为红方阵营的整体辐射概率矩阵,Db为蓝方阵营的整体辐射概率矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第五十四研究所,未经中国电子科技集团公司第五十四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210079797.3/1.html,转载请声明来源钻瓜专利网。