[发明专利]一种基于分布式协同深度强化学习模型的多智能体路径规划方法在审
| 申请号: | 202310205530.9 | 申请日: | 2023-03-06 |
| 公开(公告)号: | CN116225016A | 公开(公告)日: | 2023-06-06 |
| 发明(设计)人: | 于尧;刘文;康潇予;杨博文 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜威威;李洪福 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 分布式 协同 深度 强化 学习 模型 智能 路径 规划 方法 | ||
本发明一种基于分布式协同深度强化学习模型的多智能体路径规划方法,通信领域与强化学习技术领域,包括以下步骤:对本发明设计的分布式协同深度强化学习模型进行训练,得到训练好的分布式协同深度强化学习模型,随机生成地图;基于训练好的的分布式协同深度强化学习模型,实现多智能体环境下的智能体在线路径规划。本发明的分布式协同深度强化学习方法,不同于集中式的深度强化学习方法,每个智能体只根据自身的观察做出决策,同时引入了智能体之间的通信和顺序决策,促进了智能体之间的协调。本方法从单个智能体的角度进行设计,不用考虑集体,从而避免了集中式深度强化学习的不可伸缩性问题。
技术领域
本发明属于通信领域与强化学习技术领域,涉及一种基于分布式协同深度强化学习模型的多智能体路径规划方法。
背景技术
随着低成本传感器和计算设备的快速发展,可以支持大量智能车辆的并行控制,此外现代战争越来越提倡无人化战争,可以提高作战效率,减少战场中的人员伤亡。本发明的研究内容是针对在复杂环境下的多智能体协同路径规划,主要考虑的是在军事领域当中,发现敌方目标之后,从各地派遣己方智能车辆,在复杂高障碍物密度地形环境之下,各智能车辆可以在线的做出决策,保证各车辆之间不发生冲突,能够成功到达各自目的地。本课题采用栅格地图,假设所有智能车辆随机分布在地图当中,在布置有障碍物的环境中,分别前往不同的目的地。
针对以上研究内容,若采用集中决策方案,需要提前知道所有智能体以及整个环境中的所有地形情况,在实际应用中实现难度较大,此外,集中式决策方案需要所有智能体同时做出决策,对设备的计算能力要求较高。集中式决策方案不具有扩展能力,训练出的模型只能针对特定的车辆数目,一旦车辆数目发生变化训练出的模型就不再适用。分布式决策方案可以解决集中式决策方案中对计算设备能力要求较高以及模型扩展能力不强的问题,但在分布式决策方案中,每个智能车辆的观察范围有限,只能根据自身观察做出决策,智能车辆之间的协调性不足,导致任务成功率下降。
发明内容
为了解决分布式多智能车辆路径规划方案的协调能力不足,复杂环境下任务完成成功率较低的问题,本发明提供本发明采用的技术方案是:一种基于分布式协同深度强化学习模型的多智能体路径规划方法,包括以下步骤:
对本发明设计的分布式协同深度强化学习模型进行训练,得到训练好的分布式协同深度强化学习模型,随机生成地图;
基于训练好的的分布式协同深度强化学习模型,实现多智能体环境下的智能体在线路径规划。
进一步地,对分布式协同深度强化学习模型进行训练,得到训练好的分布式协同深度强化学习模型;包括以下步骤:
S1:将多智能体路径规划问题建模为马尔科夫过程;
S2:通过每个智能体的观测空间中邻居智能体位置信息通道计算出智能体i的邻居智能体
S3:若邻居智能体为空,则转入步骤S4,否则转入S5;
S4:对智能体i的观测空间单独进行编码,提取智能体i的周围环境信息特征,进入S8;
S5:智能体i通过动态优先级规则,计算出自身优先级,并与邻居智能体中邻居通信得到邻居智能体的优先级;
S6:对智能体i及其邻居智能体的观测空间进行编码,提取特征信息,高优先级智能体根据自身观测进行编码并根据深度强化学习算法做出决策,做完决策将自身动作拼接在编码信息后,形成交互信息,未做决策的低优先级智能体首先将自身观测空间进行编码,假设低优先级智能体采取静止决策并将决策拼接在自身观测空间后形成交互信息;
S7:智能体i通过多头注意力机制与邻居智能体进行交互,融合邻居信息;
S8:根据智能体i最后得到的信息,基于深度强化学习算法进行学习,更新神经网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310205530.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种彩芯胶合板生产工艺
- 下一篇:一种磁性液体密封装置





