[发明专利]一种基于拟合强化学习的空战行为建模方法在审

申请号：	201410665956.3	申请日：	2014-11-19
公开（公告）号：	CN104484500A	公开（公告）日：	2015-04-01
发明（设计）人：	马耀飞;马小乐;宋晓;龚光红	申请（专利权）人：	北京航空航天大学
主分类号：	G06F17/50	分类号：	G06F17/50
代理公司：	北京永创新实专利事务所 11121	代理人：	祗志洁
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种基于拟合强化学习的空战行为建模方法，解决了虚拟空战仿真中战术动作的智能决策问题。本方法包含：对飞机作战过程的轨迹进行采样；在状态空间中对效用函数进行拟合，通过贝尔曼迭代和最小二乘法拟合对效用函数进行近似计算；作战决策，通过前瞻测试，在预测过程中采用所拟合的效用函数进行动作决策，根据预测的执行结果确定最终执行的动作。本发明方法可有效提高效用函数的拟合效率以及获取效率，相对传统方法，本发明方法能更快地获取最优行动策略。
搜索关键词：	一种基于拟合强化学习空战行为建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于拟合强化学习的空战行为建模方法，用于作战的红方飞机，其特征在于，该空战行为建模方法包括如下三个步骤：步骤1：数据采样；采用轨迹采样法，对飞机作战过程的轨迹进行记录，获取采样点集合X；步骤2：效用函数拟合；首先，选取特征量描述空战状态空间，所有选取的特征量组成一个特征向量，用特征向量表示集合X中的每个状态x；然后，基于采样点集合X，使用贝尔曼迭代以及最小二乘法，进行效用函数的拟合；设效用函数拟合时的循环次数为N，在第k轮循环中执行下面(2.1)和(2.2)，k＝1,2,…,N；(2.1)获得蓝方飞机对于集合X决策的动作向量A_b；(2.2)获得红方飞机的动作向量A_r，以及当前循环下的优化效用

<mrow><mo>{</mo><msub><mi>A</mi><mi>r</mi></msub><mo>,</mo><msup><mover><mi>J</mi><mo>~</mo></mover><mi>k</mi></msup><mo>}</mo><mo>=</mo><mi>arg</mi><munder><mi>max</mi><mi>A</mi></munder><mo>{</mo><mi>F</mi><mo>}</mo><mo>=</mo><mi>arg</mi><munder><mi>max</mi><mi>A</mi></munder><mo>{</mo><mi>λ</mi><mo>·</mo><msup><mover><mi>J</mi><mo>~</mo></mover><mrow><mi>k</mi><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><mi>f</mi><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>A</mi><mo>,</mo><msub><mi>A</mi><mi>b</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><mi>S</mi><mrow><mo>(</mo><mi>f</mi><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>A</mi><mo>,</mo><msub><mi>A</mi><mi>b</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>

<mrow><msup><mi>β</mi><mi>k</mi></msup><mo>=</mo><msup><mrow><mo>(</mo><msup><mi>Φ</mi><mi>T</mi></msup><mi>Φ</mi><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><msup><mi>Φ</mi><mi>T</mi></msup><mo>·</mo><msup><mover><mi>J</mi><mo>~</mo></mover><mi>k</mi></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>

<mrow><msup><mover><mi>J</mi><mo>^</mo></mover><mi>k</mi></msup><mo>=</mo><mi>Φ</mi><mo>·</mo><msup><mi>β</mi><mi>k</mi></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>

其中，A为待选的红方飞机的动作向量，表示求取使得式F的值最大的A，对应得到的最大F值为λ为折扣因子，0<λ<1；表示第k‑1次循环得到的效用函数，S(X)为根据集合X得到的即时回报函数值向量；f(X,A,A_b)表示在状态X下，红方飞机动作向量为A、蓝方飞机动作向量为A_b的情况下到达的下一个状态向量；β^k表示第k次循环中特征向量Φ的拟和系数；根据式(3)得到当前循环下的优化效用第N次循环输出的为拟合得到的效用函数；步骤3：作战决策；对当前的状态x，采用前瞻测试对红方飞机的所有待选动作的执行后果进行预测，选取预测结果最好的动作执行；所述的前瞻测试是一种虚拟执行的方法，以指定的动作开始虚拟推进作战过程，直到完成指定的回合数；前瞻测试的每个回合中红方飞机均采用步骤2得到的效用函数进行动作决策。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410665956.3/，转载请声明来源钻瓜专利网。

上一篇：一种基于PSCAD的核电机组动力、电气混合仿真平台
下一篇：一种点蚀损伤圆柱壳的四边形有限元网格自动生成方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于拟合强化学习的空战行为建模方法在审

专利文献下载