[发明专利]一种基于博弈论的无人艇集群打击位置的选取方法在审
申请号: | 202110279610.X | 申请日: | 2021-03-16 |
公开(公告)号: | CN113052289A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 符兴全;温广辉;房肖;刘照辉;栾萌 | 申请(专利权)人: | 东南大学 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06F17/18;G06F17/11;G06F16/29;G06Q10/06 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 程洁 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 博弈论 无人 集群 打击 位置 选取 方法 | ||
1.一种基于博弈论的无人艇集群打击位置的选取方法,其特征在于:包括以下步骤:
步骤1:采用栅格化的方法重新构建敌我双方无人艇集群所处的海域环境,双方均掌握对方的无人艇数量、初始位置的信息。
步骤2:通过敌我双方打击的安全距离safe_dis、打击的范围max_dis、击毁对方无人艇的概率p以及被对方无人艇的击毁的概率q构建双方关于打击位置的收益函数。
步骤3:通过初始位置和收益函数,敌我双方各自生成有限个数的策略,策略的个数为n+1。为我方策略,为敌方策略。
步骤4:利用遍历法,在纯策略意义下寻找纳什均衡点。
步骤5:若纯策略意义下的纳什均衡点不存在,则利用粒子群优化算法寻找在混合策略下的纳什均衡点。
步骤6:根据计算出的纳什均衡点,敌我双方选择各自的打击位置。
2.如权利要求1所述基于博弈论的无人艇集群打击位置的选取方法,其特征在于:关于步骤1中所述海域环境的海域坐标系包括:XA代表我方无人艇集群的位置矩阵,XA的具体形式为:
其中A代表我方,我方栅格化区域总个数为NA,i为我方第i个区域,i=1,2,...,NA;我方无人艇集群数量为MA,k为我方第k艘无人艇,k=1,2,...,MA,代表我方第k艘无人艇的横坐标值,代表我方第k艘无人艇的纵坐标值。
XB代表敌方无人艇集群的位置矩阵,XB的具体形式为:
其中B代表敌方。敌方栅格化区域总个数为NB,j为敌方第j个区域,j=1,2,...,NB,敌方无人艇集群数量为MB,l为敌方第l艘无人艇,l=1,2,...,MB,代表敌方第l艘无人艇的横坐标值,代表敌方第l艘无人艇的纵坐标值。
3.如权利要求1所述基于博弈论的无人艇集群打击位置的选取方法,其特征在于:步骤2中所述收益函数的构建方法为:
步骤2-1:计算我方无人艇处于第i个区域时击毁敌方无人艇的概率
的具体表达式为:
其中为我方无人艇处于第i个区域时击毁敌方第l艘无人艇的概率,的具体表达式为:
其中,dis(i,l)代表我方的第i个区域与敌方第l艘无人艇之间的距离。
步骤2-2:计算敌方无人艇处于第j个区域时击毁我方无人艇的概率
的具体表达式为:
其中为敌方无人艇处于第j个区域时击毁敌方第k艘无人艇的概率,的具体表达式为:
其中,dis(j,k)代表敌方的第j个区域与我方第k艘无人艇之间的距离。
步骤2-3:计算我方无人艇处于第i个区域时被敌方无人艇击毁击毁的概率的具体表达式为:
其中代表我方无人艇处于第i个区域时被敌方第k艘无人艇击毁的概率。
步骤2-4:设置我方击毁敌方无人艇的概率的权重我方无人艇被敌方击毁的概率的权重敌方击毁我方无人艇的概率的权重敌方无人艇被我方击毁的概率的权重
步骤2-5:构造出我方无人艇位于第i个区域的收益函数敌方无人艇位于第j个区域的收益函数与的具体表达式为:
。
4.如权利要求1所述基于博弈论的无人艇集群打击位置的选取方法,其特征在于:步骤3中所述我方策略和敌方策略的设计方法为:
我方根据敌方无人艇的初始位置通过计算每个区域的收益函数,得到收益最高的前MA个区域,得到一个新的位置矩阵新策略是以作为我方无人艇打击位置,敌方根据我方无人艇的初始位置通过计算每个区域的收益函数,得到收益最高的前MB个区域,得到一个新的位置矩阵新策略是以作为敌方无人艇打击位置;我方再通过敌方的新的位置矩阵生成策略敌方再通过我方的新的位置矩阵生成策略依次下去,我方生成个策略,敌方生成个策略。其中是我方以自身的初始位置作为策略,是敌方以自身的初始位置作为策略。
5.如权利要求1所述基于博弈论的无人艇集群打击位置的选取方法,其特征在于:步骤5中利用粒子群优化算法寻求在混合策略下的纳什均衡点的方法为:
粒子群优化算法的更新公式具体表达式为:
其中H代表粒子群种群数量;h代表第h个粒子,h=1,2,...,H;o代表迭代的次数,最大迭代次数为O;Vh(o)代表第h个粒子在第o次迭代时的速度;Zh(o)代表第h个粒子在第o 次迭代时候的位置;α(o)是速度的惯性权重,由最大值αmax随着迭代次数的增加衰减到最小值αmin,α(o)=αmax-o(αmax-αmin)/O;β1与β2代表学习率,r1(o)与r2(o)代表第o次迭代时候生成的(0,1)区间的随机数;LOh代表第h个粒子目前找到的局部最优解,GO代表粒子群目前找到的全局最优解。
粒子群优化算法的优化的目标函数具体表达式为:
g(x,y)=max{max{g1(x,y),0}+max{g2(x,y),0}}
其中g1(x,y)和g2(x,y)具体表达式为:
其中x={x0,x1,...,xn},xi代表我方选取策略的概率,y={y0,y1,...,yn},yj代表敌方选取策略的概率;FA代表我方的收益矩阵,FB代表敌方的收益矩阵,具体表达式为:
其中FA(i,:)代表FA矩阵中第i行元素,FB(:,j)代表FB矩阵中第j列元素,代表我方采取策略敌方采取策略时,我方每艘无人艇的收益总和。代表我方采取策略敌方采取策略时,敌方每艘无人艇的收益总和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110279610.X/1.html,转载请声明来源钻瓜专利网。