[发明专利]一种基于双智能体竞争强化学习的机器人路径探索方法在审

申请号：	202111637946.5	申请日：	2021-12-29
公开（公告）号：	CN114372520A	公开（公告）日：	2022-04-19
发明（设计）人：	刘成菊;陈启军;张浩	申请（专利权）人：	同济大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/02
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	杨宏泰
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于智能竞争强化学习机器人路径探索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于双智能体竞争强化学习的机器人路径探索方法，包括以下步骤：S1、构建马尔科夫决策模型，初始化智能体和经验池；S2、记录智能体Agent₁当前状态s_t，探索k步记录当前轨迹序列至经验池Buffer₁；S3、将智能体Agent₂置于状态s_t处，智能体Agent₂探索k步，记录当前轨迹序列至经验池Buffer₂；S4、以探索轨迹之间的相似度作为智能体Agent₁的额外奖励，相反数作为智能体Agent₂的额外奖励；S5、当经验池中数据数数目满足要求，更新智能体Agent₁与Agent₂的策略；S6、重复执行步骤S2‑S5，直到智能体Agent₁到达目标状态或超出设定时间t_limit；S7、重复执行步骤S1‑S6直到完成设定训练剧集数。与现有技术相比，本发明使智能体能够更有效的探索，加快训练速度，提升样本的利用效率，同时能够有效消除随机噪声，更具有鲁棒性。

技术领域

本发明涉及机器人轨迹规划领域，尤其是涉及一种基于双智能体竞争强化学习的机器人路径探索方法。

背景技术

强化学习技术在机器人控制领域取得了显著的成就，但是强化学习是基于奖励机制的，即智能体的目标是为了获得累计最大化的奖励，而对于现有大部分的机器人路径探索的强化学习应用场景均是稀疏奖励的环境，即智能体只有在达到最终目标时会获得正向奖励，其余情况下均无奖励，而得不到反馈的智能体则会缺乏有效的机制更新自己的策略，无法收敛到理想策略。

目前对于稀疏奖励解决方法如下：

1、硬性手工编码奖励函数，通过引入大量的相关领域知识来构造奖励函数，来引导智能体按照理想轨迹去进行探索与学习，但该方法需要实现对领域知识有充足了解，且难以在较为复杂的环境下设计出理想的奖励函数。

2、模仿学习，即对专家策略进行学习，通过引入专家样本来直接进行行为克隆或者构造奖励函数来引导智能体策略贴近专家策略，从而获得理想策略，但该方法需要事先获得一定数目的专家样本，这在某些环境是无法做到的。

3、以好奇心为代表的内在奖励驱动算法，通过当前状态动作对来估计下一时刻的状态，将其差值(好奇心)视为内在奖励，使用内在奖励鼓励智能体探索更陌生的状态，同时利用相邻状态来拟合动作，用以特征筛选，增强鲁棒性。但该方法存在模型约束，且容易受到随机噪声的影响。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于双智能体竞争强化学习的机器人路径探索方法。

本发明的目的可以通过以下技术方案来实现：

一种基于双智能体竞争强化学习的机器人路径探索方法，该方法包括以下步骤：

S1、构建马尔科夫决策模型，初始化智能体Agent₁与智能体Agent₂，并初始化经验池Buffer₁与Buffer₂；

S2、记录智能体Agent₁当前状态s_t，智能体Agent₁依照现有策略探索k步，记录当前轨迹序列至经验池Buffer₁；

S3、将智能体Agent₂置于状态s_t处，智能体Agent₂依照其策略探索k步，记录当前轨迹序列至经验池Buffer₂；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于同济大学，未经同济大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111637946.5/2.html，转载请声明来源钻瓜专利网。

上一篇：一种设备保护装置
下一篇：一种基于AR眼镜的标准工作流程引导方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于双智能体竞争强化学习的机器人路径探索方法在审

专利文献下载