[发明专利]一种基于强化学习的室内移动机器人避障方法及系统在审
申请号: | 202310448569.3 | 申请日: | 2023-04-24 |
公开(公告)号: | CN116520836A | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 黄成;郭湉阳;王力立 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 薛云燕 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 室内 移动 机器人 方法 系统 | ||
1.一种基于强化学习的室内移动机器人避障方法,其特征在于,包括以下步骤:
步骤1、构建室内移动机器人系统的数学模型;
步骤2、设计强化学习算法的回报函数;
步骤3、使用基于RE3探索策略的TD3算法,在仿真环境中对室内移动机器人系统的数学模型进行强化学习训练;
步骤4、将训练完成后的数学模型移植到现实环境中,实现室内移动机器人避障。
2.根据权利要求1所述的基于强化学习的室内移动机器人避障方法,其特征在于,步骤1中,构建室内移动机器人系统的数学模型,具体为:
构建以机器人为原点,x轴指向目标位置的局部坐标系,机器人的状态srobot与周围第i个障碍物的状态为:
式中,vx是机器人或障碍物沿x轴的速度,vy是机器人或障碍物沿y轴的速度;dg是机器人与目标位置的距离,θ是机器人速度与x轴的角度,rrobot是机器人的半径;是周围第i个障碍物的状态,px是第i个障碍物在x轴的位置,py是第i个障碍物在y轴的位置,是第i个障碍物的半径,di是机器人与第i个障碍物的距离;
假设机器人的最大速度为vmax,转向角为机器人的动作空间为:
假设系统中有n个障碍物,系统的状态空间s为:
3.根据权利要求1所述的基于强化学习的室内移动机器人避障方法,其特征在于,步骤2中,强化学习算法的回报函数设计为:
式(4)中,r(st,at)是回报函数,st是环境在t时刻的状态,at是机器人在在t时刻执行的动作,表示的是在t时刻机器人与障碍物之间的最短距离;
是机器人的速度大小,机器人与障碍物之间相距小于阈值时,给予负的回报,同时根据速度的大小给予相应的惩罚;
当时,代表发生了碰撞,给予负的回报,当机器人到达目标位置时,给予正的回报;
是t时刻机器人与目标位置的距离,是在t-1时刻机器人与目标位置的距离;为了引导机器人朝向目标位置前进,若机器人与目标位置的距离减小,将给予正回报。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310448569.3/1.html,转载请声明来源钻瓜专利网。