[发明专利]多智能体局部交互路径规划方法、装置、设备及存储介质有效
申请号: | 202110946674.0 | 申请日: | 2021-08-17 |
公开(公告)号: | CN113759902B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 田莎莎;汪红;帖军;王江晴;郑禄;张潇;徐科;谢勇 | 申请(专利权)人: | 中南民族大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 郝怀庆 |
地址: | 430074 湖北省武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 局部 交互 路径 规划 方法 装置 设备 存储 介质 | ||
本发明公开了一种多智能体局部交互路径规划方法、装置、设备及存储介质,该方法包括获取目标区域内各智能体的当前位置和目标位置;根据各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线;根据各智能体的路径规划路线控制对应的智能体移动至目标位置。由于本发明是通过各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线,根据规划路线控制对应的智能体移动到目标位置,解决了现有技术中单个智能体输入数据维度过大而无法完成多智能体实时路径规划的技术问题,提高了多智能体实时路径规划的效率。
技术领域
本发明涉及机器控制技术领域,尤其涉及一种多智能体局部交互路径规划方法、装置、设备及存储介质。
背景技术
目前,智能体的实时路径规划越来越趋向于自动控制,在现有的多智能体实时路径规划技术中,为了保证每个智能体在移动过程中不发生碰撞,环境中任意一个智能体都需要接收其他所有智能体的数据作为输入数据,造成每个智能体输入数据的维度过大,从而造成无法完成多智能体实时路径规划。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种多智能体局部交互路径规划方法、装置、设备及存储介质,旨在解决现有技术单个智能体输入数据维度过大而无法完成多智能体实时路径规划的技术问题。
为实现上述目的,本发明提供了一种多智能体局部交互路径规划方法,所述方法包括以下步骤:
获取目标区域内各智能体的当前位置和目标位置;
根据各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线;
根据各智能体的路径规划路线控制对应的智能体移动至所述目标位置。
可选地,所述获取目标区域内各智能体的当前位置和目标位置的步骤之前,所述方法还包括:
根据当前动作策略和预设探索噪声通过各智能体对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型控制设定区域内的各智能体移动;
实时获取各智能体移动过程中的经验信息,并将所述经验信息添加至对应的经验缓冲池;
根据四阶梯采样机制实时控制各智能体从对应的经验缓冲池中采集训练经验信息;
根据所述训练经验信息训练对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型,并在满足预设条件时,获得各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型。
可选地,所述经验缓冲池包括静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池;
所述根据四阶梯采样机制实时控制各智能体从对应的经验缓冲池中采集训练经验信息,包括:
获取各智能体移动过程中预设次数的平均奖励,并根据所述平均奖励确定各智能体的训练阶段判断指标;
根据前后步进关系奖励机制确定各智能体在移动过程中获得的当前奖励;
根据所述各智能体的训练阶段判断指标、所述当前奖励和预设指标阈值判断各智能体处于的训练阶段,并根据所述训练阶段确定对应智能体在各经验缓冲池的采样比例;
根据所述各智能体在各经验缓冲池的采样比例从各智能体对应的静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池中采集训练经验信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南民族大学,未经中南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110946674.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:业务数据查询方法、装置和电子设备
- 下一篇:一种电子产品用线束定长截断去皮机