[发明专利]一种基于拟合强化学习的空战行为建模方法在审

专利信息
申请号: 201410665956.3 申请日: 2014-11-19
公开(公告)号: CN104484500A 公开(公告)日: 2015-04-01
发明(设计)人: 马耀飞;马小乐;宋晓;龚光红 申请(专利权)人: 北京航空航天大学
主分类号: G06F17/50 分类号: G06F17/50
代理公司: 北京永创新实专利事务所 11121 代理人: 祗志洁
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了一种基于拟合强化学习的空战行为建模方法,解决了虚拟空战仿真中战术动作的智能决策问题。本方法包含:对飞机作战过程的轨迹进行采样;在状态空间中对效用函数进行拟合,通过贝尔曼迭代和最小二乘法拟合对效用函数进行近似计算;作战决策,通过前瞻测试,在预测过程中采用所拟合的效用函数进行动作决策,根据预测的执行结果确定最终执行的动作。本发明方法可有效提高效用函数的拟合效率以及获取效率,相对传统方法,本发明方法能更快地获取最优行动策略。
搜索关键词: 一种 基于 拟合 强化 学习 空战 行为 建模 方法
【主权项】:
一种基于拟合强化学习的空战行为建模方法,用于作战的红方飞机,其特征在于,该空战行为建模方法包括如下三个步骤:步骤1:数据采样;采用轨迹采样法,对飞机作战过程的轨迹进行记录,获取采样点集合X;步骤2:效用函数拟合;首先,选取特征量描述空战状态空间,所有选取的特征量组成一个特征向量,用特征向量表示集合X中的每个状态x;然后,基于采样点集合X,使用贝尔曼迭代以及最小二乘法,进行效用函数的拟合;设效用函数拟合时的循环次数为N,在第k轮循环中执行下面(2.1)和(2.2),k=1,2,…,N;(2.1)获得蓝方飞机对于集合X决策的动作向量Ab;(2.2)获得红方飞机的动作向量Ar,以及当前循环下的优化效用<mrow><mo>{</mo><msub><mi>A</mi><mi>r</mi></msub><mo>,</mo><msup><mover><mi>J</mi><mo>~</mo></mover><mi>k</mi></msup><mo>}</mo><mo>=</mo><mi>arg</mi><munder><mi>max</mi><mi>A</mi></munder><mo>{</mo><mi>F</mi><mo>}</mo><mo>=</mo><mi>arg</mi><munder><mi>max</mi><mi>A</mi></munder><mo>{</mo><mi>&lambda;</mi><mo>&CenterDot;</mo><msup><mover><mi>J</mi><mo>~</mo></mover><mrow><mi>k</mi><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><mi>f</mi><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>A</mi><mo>,</mo><msub><mi>A</mi><mi>b</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><mi>S</mi><mrow><mo>(</mo><mi>f</mi><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>A</mi><mo>,</mo><msub><mi>A</mi><mi>b</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><msup><mi>&beta;</mi><mi>k</mi></msup><mo>=</mo><msup><mrow><mo>(</mo><msup><mi>&Phi;</mi><mi>T</mi></msup><mi>&Phi;</mi><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><msup><mi>&Phi;</mi><mi>T</mi></msup><mo>&CenterDot;</mo><msup><mover><mi>J</mi><mo>~</mo></mover><mi>k</mi></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow><mrow><msup><mover><mi>J</mi><mo>^</mo></mover><mi>k</mi></msup><mo>=</mo><mi>&Phi;</mi><mo>&CenterDot;</mo><msup><mi>&beta;</mi><mi>k</mi></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>其中,A为待选的红方飞机的动作向量,表示求取使得式F的值最大的A,对应得到的最大F值为λ为折扣因子,0<λ<1;表示第k‑1次循环得到的效用函数,S(X)为根据集合X得到的即时回报函数值向量;f(X,A,Ab)表示在状态X下,红方飞机动作向量为A、蓝方飞机动作向量为Ab的情况下到达的下一个状态向量;βk表示第k次循环中特征向量Φ的拟和系数;根据式(3)得到当前循环下的优化效用第N次循环输出的为拟合得到的效用函数;步骤3:作战决策;对当前的状态x,采用前瞻测试对红方飞机的所有待选动作的执行后果进行预测,选取预测结果最好的动作执行;所述的前瞻测试是一种虚拟执行的方法,以指定的动作开始虚拟推进作战过程,直到完成指定的回合数;前瞻测试的每个回合中红方飞机均采用步骤2得到的效用函数进行动作决策。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410665956.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top