[发明专利]一种基于拟合强化学习的空战行为建模方法在审
| 申请号: | 201410665956.3 | 申请日: | 2014-11-19 |
| 公开(公告)号: | CN104484500A | 公开(公告)日: | 2015-04-01 |
| 发明(设计)人: | 马耀飞;马小乐;宋晓;龚光红 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F17/50 | 分类号: | G06F17/50 |
| 代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明提出了一种基于拟合强化学习的空战行为建模方法,解决了虚拟空战仿真中战术动作的智能决策问题。本方法包含:对飞机作战过程的轨迹进行采样;在状态空间中对效用函数进行拟合,通过贝尔曼迭代和最小二乘法拟合对效用函数进行近似计算;作战决策,通过前瞻测试,在预测过程中采用所拟合的效用函数进行动作决策,根据预测的执行结果确定最终执行的动作。本发明方法可有效提高效用函数的拟合效率以及获取效率,相对传统方法,本发明方法能更快地获取最优行动策略。 | ||
| 搜索关键词: | 一种 基于 拟合 强化 学习 空战 行为 建模 方法 | ||
【主权项】:
一种基于拟合强化学习的空战行为建模方法,用于作战的红方飞机,其特征在于,该空战行为建模方法包括如下三个步骤:步骤1:数据采样;采用轨迹采样法,对飞机作战过程的轨迹进行记录,获取采样点集合X;步骤2:效用函数拟合;首先,选取特征量描述空战状态空间,所有选取的特征量组成一个特征向量,用特征向量表示集合X中的每个状态x;然后,基于采样点集合X,使用贝尔曼迭代以及最小二乘法,进行效用函数的拟合;设效用函数拟合时的循环次数为N,在第k轮循环中执行下面(2.1)和(2.2),k=1,2,…,N;(2.1)获得蓝方飞机对于集合X决策的动作向量Ab;(2.2)获得红方飞机的动作向量Ar,以及当前循环下的优化效用![]()
![]()
![]()
![]()
其中,A为待选的红方飞机的动作向量,
表示求取使得式F的值最大的A,对应得到的最大F值为
λ为折扣因子,0<λ<1;
表示第k‑1次循环得到的效用函数,
S(X)为根据集合X得到的即时回报函数值向量;f(X,A,Ab)表示在状态X下,红方飞机动作向量为A、蓝方飞机动作向量为Ab的情况下到达的下一个状态向量;βk表示第k次循环中特征向量Φ的拟和系数;根据式(3)得到当前循环下的优化效用
第N次循环输出的
为拟合得到的效用函数;步骤3:作战决策;对当前的状态x,采用前瞻测试对红方飞机的所有待选动作的执行后果进行预测,选取预测结果最好的动作执行;所述的前瞻测试是一种虚拟执行的方法,以指定的动作开始虚拟推进作战过程,直到完成指定的回合数;前瞻测试的每个回合中红方飞机均采用步骤2得到的效用函数进行动作决策。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410665956.3/,转载请声明来源钻瓜专利网。





