[发明专利]一种基于分布式协同深度强化学习模型的多智能体路径规划方法在审

专利信息
申请号: 202310205530.9 申请日: 2023-03-06
公开(公告)号: CN116225016A 公开(公告)日: 2023-06-06
发明(设计)人: 于尧;刘文;康潇予;杨博文 申请(专利权)人: 东北大学
主分类号: G05D1/02 分类号: G05D1/02
代理公司: 大连东方专利代理有限责任公司 21212 代理人: 姜威威;李洪福
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 分布式 协同 深度 强化 学习 模型 智能 路径 规划 方法
【权利要求书】:

1.一种基于分布式协同深度强化学习模型的多智能体路径规划方法,其特征在于:包括以下步骤:

对本发明设计的分布式协同深度强化学习模型进行训练,得到训练好的分布式协同深度强化学习模型,随机生成地图;

基于训练好的的分布式协同深度强化学习模型,实现多智能体环境下的智能体在线路径规划。

2.根据权利要求1所述的一种基于分布式协同深度强化学习模型的多智能体路径规划方法,其特征在于,对分布式协同深度强化学习模型进行训练,得到训练好的分布式协同深度强化学习模型;包括以下步骤:

S1:将多智能体路径规划问题建模为马尔科夫过程;

S2:通过每个智能体的观测空间中邻居智能体位置信息通道计算出智能体i的邻居智能体

S3:若邻居智能体为空,则转入步骤S4,否则转入S5;

S4:对智能体i的观测空间单独进行编码,提取智能体i的周围环境信息特征,进入S8;

S5:智能体i通过动态优先级规则,计算出自身优先级,并与邻居智能体中邻居通信得到邻居智能体的优先级;

S6:对智能体i及其邻居智能体的观测空间进行编码,提取特征信息,高优先级智能体根据自身观测进行编码并根据深度强化学习算法做出决策,做完决策将自身动作拼接在编码信息后,形成交互信息,未做决策的低优先级智能体首先将自身观测空间进行编码,假设低优先级智能体采取静止决策并将决策拼接在自身观测空间后形成交互信息;

S7:智能体i通过多头注意力机制与邻居智能体进行交互,融合邻居信息;

S8:根据智能体i最后得到的信息,基于深度强化学习算法进行学习,更新神经网络参数。

3.根据权利要求2所述的一种基于分布式协同深度强化学习模型的多智能体路径规划方法,其特征在于:所述对智能体i邻居智能体的观测空间的编码方式与对智能体i的观测空间单独进行编码的方式相同。

4.根据权利要求1所述的一种基于分布式协同深度强化学习模型的多智能体路径规划方法,其特征在于:所述将多智能体路径规划问题建模为马尔科夫过程如下:

S1-1:将多智能体路径规划问题从单个智能体的角度映射为马尔可夫过程:

其中,表示状态空间,表示动作空间,表示奖励函数,表示转移概率,γ∈[0,1]表示折扣因子;

马尔科夫过程中,通过智能体i与环境交互来获得智能体i的多步累计奖励:

其中,rti表示智能体i在t时刻获得的奖励值,为目标网络的参数,为智能体i在状态s下采取动作a获得的Q值;智能体i的目标是在每一时间步找到最优策略π*来最大化多步累计奖励;

S1-2:观测空间:基于一个m×m大小的部分可观测的离散网格世界,每个智能体只能观测其视野范围l×l(l<m)内的环境,l是一个奇数;

观测空间分为六个通道,第一个通道表示其视野范围内障碍物的二进制矩阵,第二个通道表示视野范围内其他智能体的二进制矩阵,后面四个通道为下文所述启发式通道;假设l=9;

通过假设每个智能体拥有固定的视野范围可将多智能体路径规划问题推广到任意大小的环境地图,智能体i采用四个启发式通道得到有关目标的信息;

具体做法如下:四个通道分别对应于四个动作向上、向下、向左、向右;

每个通道的大小与智能体的视野范围大小相同,当且仅当智能体采取与此通道相关的动作接近目标时,将视野中的该位置标记为1;

在每个时间步,智能体i会得到一个9×9×6的观测空间通道;其中,9×9表示智能体的视野范围,6表示智能体观测空间的6个通道,第一个通道表示智能体视野范围内障碍物的位置,第二个通道表示智能体视野范围内其他智能体的位置,后面四个通道是前面设计的启发式通道,启发式通道的主要作用是帮助智能体获得有关自身目标的信息;观测空间编码由八个卷积层和一个门控循环单元组成;卷积层由三个残差模块和两个独立的卷积层组成,每个残差模块包括两个卷积层;

对于智能体i的观测空间编码,首先将观测空间输入通过卷积层进行编码得到在后再拼接一维表示自身的决策,还未做决策的智能体用0当做自身此时的决策,得到将该信息与自身上一时刻的信息输入门控循环单元得到自身这一时刻的信息

S1-3:定义动作空间:

智能体i在离散栅格地图中执行离散的动作,在每个时间步,智能体i选择移动到相邻网格或者保持静止;因此每个智能体的动作均是5;每个智能体i在动作空间A内t时刻的动作定义为a=[0,1,2,3,4],分别表示向保持静止,向上,向下,向左,向右移动一格;

S1-4:定义奖励函数

其中:表示第i个智能体在t时刻的奖励,Rm表示智能体i在t时间步决策时采用移动决策获得的奖励值,Rr表示智能体i在t时间步选择静止决策获得的奖励值,Rc表示智能体i在t时间步发生碰撞得到的奖励,R表示在t时间步任务完成时(所有智能体到达自身对应目的地)智能体i获得奖励值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310205530.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top