[发明专利]一种基于深度强化学习的多机器人协同导航方法有效
| 申请号: | 202010544077.0 | 申请日: | 2020-06-15 |
| 公开(公告)号: | CN111781922B | 公开(公告)日: | 2021-10-26 |
| 发明(设计)人: | 杨旭韵;成慧 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 王晓玲 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 机器人 协同 导航 方法 | ||
1.一种基于深度强化学习的多机器人协同导航方法,其特征在于,在深度强化学习方法的环境和机器人队伍交互的框架基础上,结合有监督的深度学习方法,训练得到机器人队伍的综合策略;所述的综合策略包括控制策略πc和辅助策略πa,所述的控制策略根据观测值o计算得到机器人队伍的控制量a,用于控制机器人队伍完成避障导航主任务;所述的辅助策略根据观测值o计算得到辅助任务的结果u,并使u值不断逼近辅助任务的真实值y;其中,定义辅助任务为状态属性判断任务,即在机器人队伍导航过程中,判断机器人的局部感知范围内是否存在动态障碍物;所述的控制策略πc和辅助策略πa均由前端的表示信息提取模块和后端的输出模块构成,控制策略πc和辅助策略πa共享同一个表示信息提取模块,表示信息提取模块根据输入的观测值o计算得到表示信息F(o),作为后续输出模块的共同输入;其中,采用基于深度强化学习方法训练控制策略πc,采用基于有监督深度学习的方法训练辅助策略πa,据此,定义综合策略的损失函数,其中θ为该策略模型的参数,包含了控制策略πc的损失函数和辅助策略πa的损失函数,其数学形式如下:
L(θ)=L(πc(o;θc))+L(πa(o;θa);ya)
其中,L(πc(o;θc))是深度强化学习相关的控制策略πc的损失函数,θc是控制策略的参数,包括了表示信息提取模块的参数θr和输出模块的参数θco,即θc={θr;θco};L(πa(o;θa);ya)是有监督深度学习相关的辅助策略πa的损失函数,θa是辅助策略的参数,包括了表示信息提取模块的参数θr和输出模块的参数θao,即θa={θr;θao};ya是通过有监督深度学习方法学习的辅助任务的标签,即辅助任务的真实值。
2.根据权利要求1所述的基于深度强化学习的多机器人协同导航方法,其特征在于,在训练过程中,所述的综合策略的损失函数共同作用于共享的表示信息提取模块的参数θr,选择和主任务相关的任务作为辅助任务,在有监督深度学习中利用标签来提供额外的激励信号,引导表示信息提取模块学习提取更多有效的特征信息。
3.根据权利要求2所述的基于深度强化学习的多机器人协同导航方法,其特征在于,所述的状态属性判断任务具体包括:当机器人在连续两个及以上的时刻内观测到场景中任意同一个动态障碍物,则表示机器人感测到动态障碍物,标记为类别1;反之,则表示机器人没有感测到动态障碍物,标记为类别0。
4.根据权利要求3所述的基于深度强化学习的多机器人协同导航方法,其特征在于,采用分布式控制的方式控制机器人队伍完成导航任务和状态属性判断任务,各个机器人使用共享的个体控制策略和个体辅助策略。
5.根据权利要求4所述的基于深度强化学习的多机器人协同导航方法,其特征在于,对于第i个机器人,1≤i≤N,N表示机器人队伍的个体数量,通过控制策略和辅助策略,在t时刻根据自身的局部感知数据分别计算输出个体的控制量和状态属性概率结果其中局部感知数据包括对环境的感知信息即二维激光雷达的点云数据,自身的当前速度其余机器人的位置以及目标点的位置
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010544077.0/1.html,转载请声明来源钻瓜专利网。





