[发明专利]基于深度强化学习的无人战车分队火力分配方法在审
| 申请号: | 202010715792.6 | 申请日: | 2020-07-23 |
| 公开(公告)号: | CN112364972A | 公开(公告)日: | 2021-02-12 |
| 发明(设计)人: | 王明;闫秀燕;金敬强;刘诗瑶;张耀;姜明霞;李飞;高飞;许典;习朝晖;何华伟;韩小康 | 申请(专利权)人: | 北方自动控制技术研究所 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06Q10/06 |
| 代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 王雪芬 |
| 地址: | 030006 山*** | 国省代码: | 山西;14 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 强化 学习 无人 战车 分队 火力 分配 方法 | ||
1.一种基于深度强化学习的无人战车分队火力分配方法,其特征在于,包括以下步骤:
1)建立目标威胁度模型和目标毁伤概率模型,确定火力分配准则和火力分配的约束条件;
2)基于马尔科夫决策过程MDP建立无人战车分队的火力分配模型,包括状态集和动作集;
3)设计解算火力分配模型的DQN算法;
4)基于步骤1至步骤3求解无人战车分队火力分配模型。
2.如权利要求1所述的方法,其特征在于,步骤1具体包括以下步骤:
1-1)建立所述目标威胁度模型:假设我方m个无人战车打击敌方n个目标,每个无人战车每回合只能打击一个目标,用tij表示第j个目标对第i个无人战车的战场威胁度,得到目标威胁度矩阵W,维度为m×n,敌方目标对我方第i个无人战车的威胁度Wi计算公式为:式中yj表示第j个敌方目标是否被损毁,取值为{0,1},0表示目标j被损毁,1表示目标j未被损毁;
1-2)建立所述目标毁伤概率模型:用qij表示我方第i个无人战车对第j个敌方目标的射击毁伤概率,得到毁伤概率矩阵P,维度为m×n,我方第i个无人战车对第j个敌方目标的毁伤概率Pj的计算公式为式中si表示我方第i个无人战车的状态,取值为{0,1},0表示我方第i个无人战车被损毁,1表示我方第i个无人战车未被损毁;
1-3)确定火力分配准则和约束条件:本发明中无人战车分队进攻作战的多回合火力分配准则设定主要目标为敌方全灭,次要目标为最大限度保存自身,即在确保战争胜利的前提下尽可能多地保证我方无人战车不被摧毁,最大限度保存自身的原则为:式中,si表示我方第i个无人战车的状态,取值为{0,1},0表示已被损毁,1表示未被损毁,作战过程中应满足约束条件为:且xij∈{0,1},式中,xij为我方第i个无人战车对第j个敌方目标的火力分配决策变量,当xij=1时表示第i个无人战车对第j个敌方目标实施打击,xij=0表示不打击。
3.如权利要求2所述的方法,其特征在于,步骤2具体包括以下步骤:
2-1)设置所述状态集为S={sM1,sM2,…,sMi,…,sMm,sN1,sN2,…,sNj,…,sNn},集合中的元素sMi表示我方第i个无人战车的状态,sNj表示第j个敌方目标的状态,sMi、sNj取值均为{0,1},0表示被损毁,1表示未被损毁,初始状态时所有元素的值都为1,即未被损毁;
2-2)设置所述动作集A={A1,A2,…,Ai,…,Am},其中元素Ai对应我方第i个无人战车的动作集,有Ai={1,2,…,j,…,n},即作战开始时,我方每个无人战车的可选攻击目标为第j个敌方目标到第n个敌方目标,随着作战回合的进行,当第j个敌方目标被击毁,将第j个动作从动作集A中移除,该敌方目标对应的威胁度的值变为0;当我方第i个无人战车被击毁,去掉动作集Ai,该无人战车对应的毁伤概率的值变为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方自动控制技术研究所,未经北方自动控制技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010715792.6/1.html,转载请声明来源钻瓜专利网。





