[发明专利]基于DQN的航空兵多平台协同智能对抗决策方法在审
申请号: | 202111244551.9 | 申请日: | 2021-10-26 |
公开(公告)号: | CN114330093A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 李妮;王泽;董力维;刘晨 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/04;G06N3/08 |
代理公司: | 北京航智知识产权代理事务所(普通合伙) 11668 | 代理人: | 陈磊;张桢 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 dqn 航空兵 平台 协同 智能 对抗 决策 方法 | ||
1.基于DQN的航空兵多平台协同智能对抗决策方法,其特征在于,包括:
S1基于DQN算法和规则集,构建集调度层、编队层、单机层的协同作战行为模型作为所述集调度层、编队层、单机层的指挥决策平台;
S2基于航空兵多平台空战特点以及影响多平台联合作战结果相关因素的重要等级,构建调度层状态空间;
S3基于航空兵体系中不同兵力编队的作战特点,构建调度层行为空间;
S4针对具体作战目标,设计所述DQN算法中的奖励函数;
S5基于DQN算法,形成航空兵多平台联合作战仿真对抗的强化学习框架,并基于所述强化学习框架进行多平台联合指挥决策的迭代学习训练,获得多平台协同作战策略。
2.根据权利要求1所述的航空兵多平台协同智能对抗决策方法,其特征在于,所述S1,具体包括:
基于DQN算法,构建调度层行为决策模型;
基于规则集,分别构建所述编队层和所述单机层作战行为模型;
基于所述调度层行为决策模型、所述编队层作战行为模型和所述单机层作战行为模型,构成协同作战行为模型。
3.根据权利要求1所述的航空兵多平台协同智能对抗决策方法,其特征在于,所述S2,具体包括:
根据航空兵多平台空战特点和影响多平台联合作战结果相关因素的重要等级,提取关键元素构建调度层DQN算法的状态空间向量,其中,关键元素包括敌我双方飞机的坐标位置、敌我双方兵力类型、敌我双方航向、我方携弹量以及敌我双方探测信息域覆盖比;
基于所述状态空间向量,对航空兵多平台联合对抗战场态势进行数学化表示,构建所述调度层状态空间。
4.根据权利要求1所述的航空兵多平台协同智能对抗决策方法,其特征在于,所述S3,具体包括:
基于航空兵体系中不同兵力编队的作战特点,形成不同兵力平台编队的可执行任务集合,基于所述可执行任务集合,构成航空兵多平台装备的所述调度层行为空间。
5.根据权利要求4所述的航空兵多平台协同智能对抗决策方法,其特征在于,所述S3,还包括:
设计所述DQN输出的动作解析算法,并基于所述DQN输出的动作解析算法建立所述DQN算法输出的单一动作序号与多平台航空兵装备动作空间的映射关系。
6.根据权利要求1所述的航空兵多平台协同智能对抗决策方法,其特征在于,所述S4,具体包括:
针对具体的作战目标,设计奖励函数的组成元素,其中,组成元素包括不同兵力实体的损失数量、我方信息探测范围与敌方信息探测范围的比值;
基于所述奖励函数的组成元素,根据不同兵力平台对最终作战目标的重要程度,确定奖励函数各组成元素的权重系数;
基于所述奖励元素和所述权重系数构建奖励函数。
7.根据权利要求6所述的航空兵多平台协同智能对抗决策方法,其特征在于,所述奖励函数,由奖励值和惩罚值两部分组成。
8.根据权利要求1所述的航空兵多平台协同智能对抗决策方法,其特征在于,所述S5,包括:
基于DQN算法,融合所述调度层状态空间、所述调度层行为空间以及所述奖励函数,构建航空兵多平台联合作战仿真对抗的强化学习框架;
基于所述强化学习框架进行多平台联合指挥决策的迭代学习训练,获得航空兵多平台协同智能对抗策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111244551.9/1.html,转载请声明来源钻瓜专利网。