[发明专利]一种基于模型学习的清洁机器人最优目标路径规划方法有效

申请号：	201610171859.8	申请日：	2016-03-24
公开（公告）号：	CN105740644B	公开（公告）日：	2018-04-13
发明（设计）人：	刘全;周谊成;朱斐	申请（专利权）人：	苏州大学
主分类号：	G06F19/00	分类号：	G06F19/00
代理公司：	苏州市新苏专利事务所有限公司32221	代理人：	朱亦倩
地址：	215000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于模型学习清洁机器人最优目标路径规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种涉及机器学习中的强化学习方法，具体涉及一种基于模型学习的清洁机器人最优目标路径规划方法。

背景技术

强化学习(Reinforcement Learning,RL)是一种学习环境状态到动作映射的机器学习方法。Agent选择动作作用于环境，改变环境的状态，迁移到新的环境状态，并得到环境的反馈信号。这个反馈信号通常称为奖赏或强化信号，Agent利用它通过一定的算法强化自己已经学习到的经验，它的目标是最大化累计期望奖赏。

传统的强化学习方法利用Agent与环境交互得到的信息进行学习，不断更新值函数使之趋近最优解，例如动态规划(Dynamic Programming,DP)，蒙特卡洛(Monte Carlo,MC)，和时间差分(Temporal Difference,TD)。这些方法是强化学习的基本方法，许多算法都由它们衍生而来。

模型学习方法的出现使强化学习的算法效率提高了一个台阶，它在近年来已成为强化学习中的一个研究热点。

模型学习的最初思想(Dyna-Q算法)是将采集到的历史样本保存下来，在随后的更新步骤中，除了更新当前时间步的样本外，还从历史样本中抽取一些样本进行更新。这样，样本的利用率得到增加，提高了值函数收敛的效率。在这样的思想下之后进一步演化为对模型的构建，即利用当前得到的样本构建一个环境的模型。在对真实环境的不断探索中，构建的模型会越来越精确和完整，这个模型就可以代替真实环境被充分地利用，节省与真实环境交互的开销。

那么，模型学习的效率就取决于模型构建的速度，模型构建得越快，算法从模型中得到的信息就越有价值。显然，交互获得的样本广度直接影响到模型构建的速度。Dyna-H使用了一种启发式的规划方法，通过预测做出动作后到达的下一个状态与终点之间的欧式距离，来使Agent尽量远离终点，这样就可以使Agent在一个情节中尽可能多地探索环境，避免过早到达终点。

然而，Dyna-H算法是有局限性的。在有障碍物的情况下，两点间的欧式距离并不能很好的反映它们之间的真实距离。可能由于一墙之隔，位于墙一侧的Agent可能需要绕一个大弯才能到达墙另一侧的终点，而欧式距离则显示它们离得很近。另外，Dyna-H保留了Dyna-Q中取历史样本的方法，而没有去为环境建立真正的模型。基于此，算法的性能还可以进一步提高。

在模型学习的方法中，R-MAX是一种高效探索的方法，它的核心思想是假设所有未知的状态-动作所获得的奖赏为最大奖赏R_max，并转移到终止状态。这样，当选择值最大的动作时，就会选择这个未知动作，从而隐式地达到了探索的目的。当状态-动作对被访问到m次时，则标记该状态-动作对为已知，将来不再探索。这样，所有状态-动作对都能被快速均匀地探索，从而学习到较为精确的模型。

针对Dyna-H中计算状态间距离的局限性，本发明采用更为精确的自模拟度量的方法。首先介绍自模拟关系：若两个状态满足自模拟关系，则它们拥有相同的最优值函数和最优动作。Ferns等人在在自模拟关系的基础之上，利用Kantorovich距离衡量两个概率分布之间的距离，提出了一种可用于衡量两个状态之间远近关系的自模拟度量方法(Bisimulation Metric)。相比于欧式距离，自模拟度量引入了奖赏函数，状态转移函数等要素，能更精确地表示状态之间的距离。

发明内容

本发明目的是：提供一种基于模型学习的清洁机器人最优目标路径规划方法，通过将自模拟度量和R-MAX相结合来改进搜索方式，提高模型学习的效率，从而最终提高值函数的搜索效率，效率的提高使得机器人能够快速地建立环境模型，从而优先选择垃圾最多的地点，并计算出达到该地点的最优路径。

本发明的技术方案是：一种基于模型学习的清洁机器人最优目标路径规划方法，其特征在于，包括如下步骤：

步骤1)初始化模型，设置R(x,u)＝R_max，f(x,u,x′)＝1，其中R(x,u)为奖赏函数，f(x,u,x′)为状态转移函数，R_max为最大奖赏值，x、u为状态动作对，x′为执行x、u后转移到的下一个状态；

步骤2)初始化环境，设置机器人的起始位置；

步骤3)判断当前的探索完全度η，若达到阈值I，转入步骤4)，否则转入步骤(5)；

步骤4)使用自模拟度量方法，计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离，选择使距离最大的动作，转入步骤(6)；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州大学，未经苏州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610171859.8/2.html，转载请声明来源钻瓜专利网。