[发明专利]一种多机器人协同导航与避障的方法有效
| 申请号: | 202111175194.5 | 申请日: | 2021-10-09 |
| 公开(公告)号: | CN113821041B | 公开(公告)日: | 2023-05-23 |
| 发明(设计)人: | 彭键清;陈诺;陈畅 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 深圳市创富知识产权代理有限公司 44367 | 代理人: | 高冰 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 机器人 协同 导航 方法 | ||
1.一种多机器人协同导航与避障的方法,具有多个用于系统工作的机器人,其特征在于,所方法包括
基于部分可观察马尔科夫决策过程,建立了对未知环境的决策过程模型;
根据移动机器人动作空间为连续值的特点,设计深度确定性策略梯度算法的算法网络,在输入端加入卷积层,提取图像的深层特征输入到算法网络中;具有优先经验回放机制;
利用长短时记忆网络,记忆环境信息,通过跳帧机制避免机器人快速移动导致的视觉图像运动模糊;
根据长短时记忆网络具有时序记忆性,利用随机更新策略,使网络学习有前后关联的样本;还包括采用跳跃更新的策略,且只采用轨迹后半部分的损失值进行梯度更新。
2.根据权利要求1所述的多机器人协同导航与避障的方法,其特征在于,部分可观察马尔可夫决策过程根据环境部分观察信息来推断机器人状态的分布,用一个六元组进行描述(S,A,T,R,Z,O),其中S表示环境部分可观测的状态空间,A表示动作空间,T:S×A→π(S)表示状态转移函数,R:S×A→π(S)表示奖励函数,Z表示观测值集合,O:S×A→π(Z)是根据状态和所做动作给出的观测函数。
3.根据权利要求1所述的多机器人协同导航与避障的方法,其特征在于,通过获取机器人的摄像头数据Simage以及目的地相对于机器人当前位置的距离和方向角信息Starget,作为机器人每一步观测到的数据,作为机器人的状态空间:
S=(Simage,Starget)
其中,Simage是机器人从摄像头数据中提取出的信息,用于训练避障;Starget=(ρ,θ),ρ表示机器人与目的地之间的距离,表达式为其中target.x和target.y分别代表目的地位置的横坐标与纵坐标,robot.x和robot.y分别代表机器人位置的横坐标与纵坐标;θ表示目的地与机器人的距离和方向角,表达式为用于训练导航;目的地位置在每次导航任务重新初始化时随机选取。
4.根据权利要求1所述的多机器人协同导航与避障的方法,其特征在于,通过设置机器人的线速度和角速度,初始化机器人的动作空间:
A=(alinear,aangular)
其中,alinear是机器人的线速度,aangular是机器人的角速度,可在取值范围内连续变化。
5.根据权利要求1所述的多机器人协同导航与避障的方法,其特征在于,通过设置机器人在不同情况下的奖励函数,分别对应发生碰撞、到达目的地、其他情况,其中其他情况由三部分组成:目的地与机器人的距离、机器人朝向与到目的地的方位角的差距、循环转圈,对好的情况设置奖励,坏的情况设置惩罚,使机器人学会正确的行驶方式,表达式为:
其中,rc是发生碰撞时给予的惩罚,rg是到达目的地时给予的奖励,rd是机器人与目的地距离的负值,表达式为:
rd=-ρ
ry是机器人的朝向yaw与机器人与目的地的方位角θ的差,表达式为:
ry=yaw-θ
rl表示过去50次运动中,如果有95%的运动都朝同一方向移动,则判定为机器人在转圈,此时需要给机器人一个惩罚,以避免循环转圈,表达式为:
rl=-100,if loop。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111175194.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于轻量化建材加工用的脱模机械手结构
- 下一篇:一种水平床用支架及其加工工艺





