首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]基于强化学习的无人机对抗博弈训练控制方法在审

申请号：	202110464589.0	申请日：	2021-04-28
公开（公告）号：	CN113282100A	公开（公告）日：	2021-08-20
发明（设计）人：	俞扬;詹德川;周志华;郭天豪;管聪;庞竟成;罗凡明;张云天;袁雷;陈雄辉	申请（专利权）人：	南京大学
主分类号：	G05D1/10	分类号：	G05D1/10;G06N20/20
代理公司：	南京乐羽知行专利代理事务所(普通合伙) 32326	代理人：	李玉平
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习无人机对抗博弈训练控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

所述基于强化学习的无人机对抗博弈训练控制方法包括如下步骤：

使主智能体与对手池中所有对手对战并统计所述主智能体的胜率；

判断所述主智能体的胜率是否满足预设要求；

如果所述主智能体的胜率满足预设要求，则根据所述主智能体的胜率选择对抗对手；

使主智能体与所述对抗对手训练直至所述主智能体策略收敛。

2.根据权利要求1所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤：

初始化所述主智能体利用者；

使所述主智能体作为所述主智能体利用者的对手进行对抗训练至所述主智能体利用者策略收敛。

3.根据权利要求2所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤：

将所述主智能体利用者加入对手池。

4.根据权利要求3所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤：

对所述主智能体策略加扰动因子。

5.根据权利要求4所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤：

将加扰动因子的策略加入对手池。

6.根据权利要求5所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤：

收集对抗数据；

模仿学习获得初始化策略；

构建对手池。

7.根据权利要求6所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤：

初始化策略作为当前策略；

以当前策略与规则对对手进行对抗训练。

8.根据权利要求1所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤：

每间隔时间T，将当前策略加入对手池。

9.根据权利要求8所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤：

判断当前策略是否收敛，如果否，则转回至以当前策略与规则对对手进行对抗训练。

10.根据权利要求9所述的基于强化学习的无人机对抗博弈训练控制方法，其特征在于：

所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤：

判断当前策略是否收敛，如果是，则初始化所述智能体。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110464589.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种叉车智能监测装置
下一篇：基于动态生成环境的无人车行驶策略规划方法及实现装置

同类专利

专利分类

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top