[发明专利]一种基于深度强化学习的多智能体导航算法有效

申请号：	202110533403.2	申请日：	2021-05-17
公开（公告）号：	CN113218400B	公开（公告）日：	2022-04-19
发明（设计）人：	张春美;白维松;郭红戈;邵杨;郑康智;张京	申请（专利权）人：	太原科技大学
主分类号：	G01C21/20	分类号：	G01C21/20;G06Q10/04;G06N3/00;G06N3/04;G06N3/08
代理公司：	太原中正和专利代理事务所(普通合伙) 14116	代理人：	焦进宇
地址：	030024 山***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习智能导航算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于多智能体强化学习技术领域，具体技术方案为：一种基于深度强化学习的多智能体导航算法：一、建模：将智能体速度和角速度均进行限定，定义智能体当前时刻的速度信息、低维环境特征；二、重要性采样，确定最终目标函数；三、置入奖惩函数，通过奖惩函数指导智能体所选择行为好坏的评价标准；该算法将A*算法融合到PPO算法中，利用设计的奖惩函数实现两种算法的深度融合，智能体通过输入传感器原始图像数据，决策规划出最佳行动路径，到达目标点，本算法在不同场景中的成功率、耗时、距离和平均速度等方面均很优秀，并且通过改变场景、增加智能体数量等方式证明了该算法具有良好的迁移能力，通过迁移到更复杂的场景下满足不同的需求。

技术领域

本发明属于多智能体强化学习技术领域，具体涉及一种基于深度强化学习的多智能体导航算法。

背景技术

随着科学技术的不断发展进步，多智能体在协同导航领域的应用范围越来越大。如在自动化分拣仓库中，通过多AGV调度与路径规划，不但可以使工作高效方便管理，而且可以节省人力节省成本。面对这种高强度重复性的工作，智能体可以利用它的优势，代替人类进行工作，而在多智能体系统中，每个智能体都是环境中的一部分，单个智能体相对于其他智能体既是协作伙伴，也是移动的障碍物，如何使多个智能体协同避障达到目标点成为当前需要解决的一个重要问题。当前的一些多智能体导航算法，随着智能体数量增加而造成更加凸显的维数灾难和更复杂的计算，且在成功率等方面并不理想。

发明内容

为解决现有技术存在的技术问题，本发明提供了一种多智能体导航算法，混合A*近端策略优化(A-Star Proximal Policy Optimization，ASPPO)算法，该算法将A*算法与近端策略优化(Proximal Policy Optimization，PPO)算法结合，使智能体解决端到端的未知环境下的导航问题。

为实现上述目的，本发明所采用的技术方案为：一种基于深度强化学习的多智能体导航算法：

一、建模

将智能体速度和角速度均进行限定，智能体当前时刻的速度信息v_t定义为：

v_t＝f(c_t,g_t,v_t-1) (1)

c_t为环境信息，g_t为目标信息，v_t-1为上一时刻的速度；

将扫描仪得到的图像信息进行特征提取，通过卷积神经网络训练得到低维环境特征x_t，x_t定义为：

x_t＝g(c_t) (2)

v_t＝f'(x_t,g_t,v_t-1) (3)

二、重要性采样：

x～p时，称为重要性权重，f(x)的数学期望看作的数学期望，从p分布中采样数据变成从q分布中采样数据；

E_x～p[f(x)]代表从分布p中取样本x送入f(x)并求期望：

Var_x～p[f(x)]＝E_x～p[f(x)²]-(E_x～p[f(x)])² (5)