[发明专利]一种基于深度确定性策略梯度的异构多智能体协同决策方法在审

专利信息
申请号: 201810397866.9 申请日: 2018-04-28
公开(公告)号: CN108600379A 公开(公告)日: 2018-09-28
发明(设计)人: 李瑞英;王瑞;胡晓惠;张慧 申请(专利权)人: 中国科学院软件研究所
主分类号: H04L29/08 分类号: H04L29/08;H04L12/24
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 杨学明;顾炜
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 异构 多智能体 智能体 确定性 运动环境 协同 构建 智能 决策 策略优化 动作空间 决策领域 决策行动 实际需求 特征属性 梯度算法 系统领域 训练学习 运动状态 智能感知 状态空间 状态序列 评判 反馈 评估
【说明书】:

发明涉及一种基于深度确定性策略梯度的异构多智能体协同决策方法,属于异构智能无人系统的协同决策领域,包括以下步骤:首先,定义异构多智能体的特征属性和奖惩规则,明确智能体的状态空间和动作空间,构建多智能体进行协同决策的运动环境;然后,基于深度确定性的策略梯度算法,建立进行决策行动的actor模块和进行评判反馈的critic模块,并训练学习模型的参数;利用训练好的模型,得到智能体的状态序列;依据环境中设置的奖惩规则,对智能体的运动状态序列进行态势的评估。本发明可以根据实际需求构建合理的运动环境,通过系统中多智能体间的彼此协同,达到智能感知、策略优化的目的,对我国无人系统领域的发展具有积极的作用。

技术领域

本发明属于异构智能无人系统的协同决策领域,具体涉及一种基于深度确定性策略梯度的异构多智能体协同决策方法。

背景技术

近几年来,信息技术和智能感知技术的飞速发展,为复杂环境的感知、精准的智能决策和多机任务的协同等高级智能行为奠定了重要的基础。智能无人系统的研究,如今已经成为了人工智能发展的标志性成果,其任务的复杂性和动态环境的不确定性决定了系统必须具备很强的自适应能力和自主能力。

传统的智能蚁群(Swarm Intelligenc)[1]起始于1959年,法国生物学家PierrePaul Grasse研究发现:昆虫之间存在高度结构化的组织,能够完成远远超出个体能力的复杂任务,蚁群的工作模式就是这种智能集群的经典代表,它们通过单体之间简单的相互沟通协调,表现出大规模集群的智能行为。通过对昆虫间智能集群行为的探索,涌现出了诸多智能集群算法,如蚁群算法(Ant Colony System,ACS)[2]和粒子群优化算法(Particle Swarm Optimization,PSO)等。传统的智能无人集群系统就是基于生物集群行为,通过彼此间的感知交互和信息传递,从而在险恶的环境下低成本地协同工作,完成多样性的复杂任务。现阶段无人集群任务的分配一般是按照保证最大益损比(分配收益最大、损耗最小)和任务均衡的原则进行的,体现集群的协同作战优势,然而这些集群算法并不是十分成熟,不适用于大规模复杂任务的自主规划。

基于深度强化学习技术的态势感知学习方法,可以使智能无人系统具备自学习能力,提高对复杂多变环境的适应能力。强化学习的历史由来已久,早期的强化学习和马尔科夫决策过程(MDP)模型有很大的关系,可以简化为一个四元组,即状态s(state)、动作a(action)、奖励r(reward)和转移概率P(probability),学习的目标是寻找一个策略:在某一状态时,采取不同的动作会有不同的概率,同时会得到不同的回报。其优点是表达能力较强,具有很好的决策能力,缺点是动作和状态都是离散的。2006年,Hinton等人提出利用受限玻尔兹曼机RBM(Restricted Boltzmann Machine)来编码深层神经网络[3],将神经网络重新拉回了大家的视线;2012年,深度卷积网络[4]在ImageNet竞赛[5]的真正爆发,迎来了深度学习的蓬勃发展;2016年,将深度学习的感知能力和强化学习的决策能力相结合衍生出来的深度强化学习算法带来了AlphaGo[6]的巨大成功,为人工智能的发展奠定了新的里程碑,利用深度强化学习技术进行机器人的智能控制[7-9]成为了一个新的研究方向。

以下为所述的参考文献:

[1]Guy Theraulaz,Eric Bonabeau:A Brief History of Stimergy.ArtificialLife 5(2):97-116(1999)

[2]Marco Dorigo,Vittorio Maniezzo,Alberto Colorni:Ant system:optimization by a colony of cooperating agents.IEEE Transactions on Systems,Man,and Cybernetics,Part B 26(1):29-41(1996)

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810397866.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top