[发明专利]一种在干扰条件下多智能体协同合作的训练方法及系统有效
申请号: | 202011029199.2 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112180724B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 史殿习;张耀文;武云龙;张拥军;郝峰;佘馥江;徐天齐 | 申请(专利权)人: | 中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G05B13/02;G05B19/418;G06N20/00 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100071 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 干扰 条件下 智能 体协 合作 训练 方法 系统 | ||
本发明公开了一种在干扰条件下多智能体协同合作的训练方法及系统,包括:基于构建的训练场景,在至少一个干扰智能体的信号干扰下,多个合作智能体利用各自通信功能连接通信范围内的合作智能体,构建合作智能体组;隶属于所述合作智能体组内的各合作智能体共享感知视野;基于共享的感知视野,以合作智能体组内的各智能体与环境交互的累计奖励最大为目标,利用多智能体深度确定性策略梯度MADDPG对每个智能体的行为策略进行训练,得到以阻止目标智能体到达目标区域为目的的多智能体协同合作策略。利用本发明提供的训练方法,当存在干扰时多个合作智能体利用各自通信功能连接通信范围内的合作智能体,通过共享感知视野有效阻止目标智能体到达目标区域。
技术领域
本发明涉及智能体控制技术领域,具体涉及一种在干扰条件下多智能体协同合作的训练方法及系统。
背景技术
随着人工智能和自动化技术的飞速发展,智能体开始广泛应用于工业、安全、军事、科研等各个领域。相比单个智能体,多智能体系统(MAS)通过协同能够有效提升任务的执行效率,显著增强系统的生存能力和对复杂环境的适应能力。多智能体协同往往依赖于个体间信息的共享和交互,但在以动态、多元、对抗为主要特征的复杂环境中,通信的连通性将面临严峻挑战,特别是在有主动干扰的情况下,对多智能体协同的效果造成影响,因此,对于如何求解复杂环境中的多智能体协同策略,是智能体领域面临的重要问题之一。
在多智能体系统研究中,一种直观的研究方式是为智能体预定义行为规则。在任务执行中,各智能体按照预设规则实现各种行为。但这种方式需定义大量的行为规则来应对环境中各种可能出现的情况。而在复杂环境中,很难对环境中的各种情况进行枚举,并且其它智能体的行为会使环境持续变化。因此,在复杂环境中,多智能体需通过与环境的持续交互学习新的行为,进而保证任务的执行性能。强化学习作为一种学习模式,不依赖先验知识和数据,是一种处理复杂问题的有效方法。强化学习通过使智能体与环境不断交互,进而获得奖励或惩罚信号,并用其指导行动策略的学习,该方法可使智能体在复杂动态环境中学习到更鲁棒性的行为策略,而通过与深度学习的结合,可在更高维状态空间中找到学习策略的更紧凑的表示形式。在深度强化学习中,可使用深度神经网络近似表示智能体的最优行动策略或价值函数,从而实现表示能力的泛化。因此,深度强化学习可作为求解复杂环境下智能体决策问题的有效方法。
而美国人工智能协会(AAAI 2018)上发表的论文《Counterfactual Multi-AgentPolicy Gradients》提出了一种基于该模式的反事实多智能体策略梯度算法(COMA)来解决多智能体系统决策问题;神经信息处理系统大会(NIPS 2017)上也发表了文章《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》,提出了一种多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic PolicyGradient,MADDPG)。该类算法的优势在于系统中的各智能体均具备自身独立的行动策略,可以通过智能体的交互对自身行动策略进行优化。其优势在于系统中的各智能体均具备自身独立的行动策略,可以通过智能体的交互对自身行动策略进行优化。该类算法思想对于多智能体系统而言,通过综合考虑其它智能体的行动策略,可有效提升多智能体系统对复杂环境的适应性。因此,本发明也将在MADDPG算法的基础上展开研究。
该类“集中训练—分布执行”方法的训练过程分为两个阶段:首先,各智能体依据自身的观察值和行动策略执行动作;然后,依据所有智能体的观察值和行动策略,构成以值函数为基础的评判网络,对各智能体的行动策略进行评判。由于评判过程引入了其它智能体的观察值和行动策略,因此,可视为一种集中训练过程。但是在算法执行时是没有评判过程的,可看作是分布执行的。尽管目前研究者提出了很多方法来解决多智能体协作问题(如内点法、行为树方法等),但是对于发明人提出的“电磁-地理”多域环境下的多智能体“合作-竞争”场景中,由于环境复杂且时刻变化,利用现有的方法很难求解出多智能体的协同合作策略,即当存在电磁干扰时,合作智能体不能有效阻止目标智能体到达目标区域或对目标智能体进行围捕/巡逻。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心,未经中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011029199.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种喷胶枪的均匀出胶装置
- 下一篇:自清理耐磨卸灰球阀