[发明专利]一种基于双智能体竞争强化学习的机器人路径探索方法在审
| 申请号: | 202111637946.5 | 申请日: | 2021-12-29 | 
| 公开(公告)号: | CN114372520A | 公开(公告)日: | 2022-04-19 | 
| 发明(设计)人: | 刘成菊;陈启军;张浩 | 申请(专利权)人: | 同济大学 | 
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/02 | 
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 | 
| 地址: | 200092 *** | 国省代码: | 上海;31 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 智能 竞争 强化 学习 机器人 路径 探索 方法 | ||
本发明涉及一种基于双智能体竞争强化学习的机器人路径探索方法,包括以下步骤:S1、构建马尔科夫决策模型,初始化智能体和经验池;S2、记录智能体Agent1当前状态st,探索k步记录当前轨迹序列至经验池Buffer1;S3、将智能体Agent2置于状态st处,智能体Agent2探索k步,记录当前轨迹序列至经验池Buffer2;S4、以探索轨迹之间的相似度作为智能体Agent1的额外奖励,相反数作为智能体Agent2的额外奖励;S5、当经验池中数据数数目满足要求,更新智能体Agent1与Agent2的策略;S6、重复执行步骤S2‑S5,直到智能体Agent1到达目标状态或超出设定时间tlimit;S7、重复执行步骤S1‑S6直到完成设定训练剧集数。与现有技术相比,本发明使智能体能够更有效的探索,加快训练速度,提升样本的利用效率,同时能够有效消除随机噪声,更具有鲁棒性。
技术领域
本发明涉及机器人轨迹规划领域,尤其是涉及一种基于双智能体竞争强化学习的机器人路径探索方法。
背景技术
强化学习技术在机器人控制领域取得了显著的成就,但是强化学习是基于奖励机制的,即智能体的目标是为了获得累计最大化的奖励,而对于现有大部分的机器人路径探索的强化学习应用场景均是稀疏奖励的环境,即智能体只有在达到最终目标时会获得正向奖励,其余情况下均无奖励,而得不到反馈的智能体则会缺乏有效的机制更新自己的策略,无法收敛到理想策略。
目前对于稀疏奖励解决方法如下:
1、硬性手工编码奖励函数,通过引入大量的相关领域知识来构造奖励函数,来引导智能体按照理想轨迹去进行探索与学习,但该方法需要实现对领域知识有充足了解,且难以在较为复杂的环境下设计出理想的奖励函数。
2、模仿学习,即对专家策略进行学习,通过引入专家样本来直接进行行为克隆或者构造奖励函数来引导智能体策略贴近专家策略,从而获得理想策略,但该方法需要事先获得一定数目的专家样本,这在某些环境是无法做到的。
3、以好奇心为代表的内在奖励驱动算法,通过当前状态动作对来估计下一时刻的状态,将其差值(好奇心)视为内在奖励,使用内在奖励鼓励智能体探索更陌生的状态,同时利用相邻状态来拟合动作,用以特征筛选,增强鲁棒性。但该方法存在模型约束,且容易受到随机噪声的影响。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于双智能体竞争强化学习的机器人路径探索方法。
本发明的目的可以通过以下技术方案来实现:
一种基于双智能体竞争强化学习的机器人路径探索方法,该方法包括以下步骤:
S1、构建马尔科夫决策模型,初始化智能体Agent1与智能体Agent2,并初始化经验池Buffer1与Buffer2;
S2、记录智能体Agent1当前状态st,智能体Agent1依照现有策略探索k步,记录当前轨迹序列至经验池Buffer1;
S3、将智能体Agent2置于状态st处,智能体Agent2依照其策略探索k步,记录当前轨迹序列至经验池Buffer2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111637946.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种设备保护装置
 - 下一篇:一种基于AR眼镜的标准工作流程引导方法及装置
 





