[发明专利]一种基于模型学习的清洁机器人最优目标路径规划方法有效
申请号: | 201610171859.8 | 申请日: | 2016-03-24 |
公开(公告)号: | CN105740644B | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 刘全;周谊成;朱斐 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 苏州市新苏专利事务所有限公司32221 | 代理人: | 朱亦倩 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 学习 清洁 机器人 最优 目标 路径 规划 方法 | ||
技术领域
本发明涉及一种涉及机器学习中的强化学习方法,具体涉及一种基于模型学习的清洁机器人最优目标路径规划方法。
背景技术
强化学习(Reinforcement Learning,RL)是一种学习环境状态到动作映射的机器学习方法。Agent选择动作作用于环境,改变环境的状态,迁移到新的环境状态,并得到环境的反馈信号。这个反馈信号通常称为奖赏或强化信号,Agent利用它通过一定的算法强化自己已经学习到的经验,它的目标是最大化累计期望奖赏。
传统的强化学习方法利用Agent与环境交互得到的信息进行学习,不断更新值函数使之趋近最优解,例如动态规划(Dynamic Programming,DP),蒙特卡洛(Monte Carlo,MC),和时间差分(Temporal Difference,TD)。这些方法是强化学习的基本方法,许多算法都由它们衍生而来。
模型学习方法的出现使强化学习的算法效率提高了一个台阶,它在近年来已成为强化学习中的一个研究热点。
模型学习的最初思想(Dyna-Q算法)是将采集到的历史样本保存下来,在随后的更新步骤中,除了更新当前时间步的样本外,还从历史样本中抽取一些样本进行更新。这样,样本的利用率得到增加,提高了值函数收敛的效率。在这样的思想下之后进一步演化为对模型的构建,即利用当前得到的样本构建一个环境的模型。在对真实环境的不断探索中,构建的模型会越来越精确和完整,这个模型就可以代替真实环境被充分地利用,节省与真实环境交互的开销。
那么,模型学习的效率就取决于模型构建的速度,模型构建得越快,算法从模型中得到的信息就越有价值。显然,交互获得的样本广度直接影响到模型构建的速度。Dyna-H使用了一种启发式的规划方法,通过预测做出动作后到达的下一个状态与终点之间的欧式距离,来使Agent尽量远离终点,这样就可以使Agent在一个情节中尽可能多地探索环境,避免过早到达终点。
然而,Dyna-H算法是有局限性的。在有障碍物的情况下,两点间的欧式距离并不能很好的反映它们之间的真实距离。可能由于一墙之隔,位于墙一侧的Agent可能需要绕一个大弯才能到达墙另一侧的终点,而欧式距离则显示它们离得很近。另外,Dyna-H保留了Dyna-Q中取历史样本的方法,而没有去为环境建立真正的模型。基于此,算法的性能还可以进一步提高。
在模型学习的方法中,R-MAX是一种高效探索的方法,它的核心思想是假设所有未知的状态-动作所获得的奖赏为最大奖赏Rmax,并转移到终止状态。这样,当选择值最大的动作时,就会选择这个未知动作,从而隐式地达到了探索的目的。当状态-动作对被访问到m次时,则标记该状态-动作对为已知,将来不再探索。这样,所有状态-动作对都能被快速均匀地探索,从而学习到较为精确的模型。
针对Dyna-H中计算状态间距离的局限性,本发明采用更为精确的自模拟度量的方法。首先介绍自模拟关系:若两个状态满足自模拟关系,则它们拥有相同的最优值函数和最优动作。Ferns等人在在自模拟关系的基础之上,利用Kantorovich距离衡量两个概率分布之间的距离,提出了一种可用于衡量两个状态之间远近关系的自模拟度量方法(Bisimulation Metric)。相比于欧式距离,自模拟度量引入了奖赏函数,状态转移函数等要素,能更精确地表示状态之间的距离。
发明内容
本发明目的是:提供一种基于模型学习的清洁机器人最优目标路径规划方法,通过将自模拟度量和R-MAX相结合来改进搜索方式,提高模型学习的效率,从而最终提高值函数的搜索效率,效率的提高使得机器人能够快速地建立环境模型,从而优先选择垃圾最多的地点,并计算出达到该地点的最优路径。
本发明的技术方案是:一种基于模型学习的清洁机器人最优目标路径规划方法,其特征在于,包括如下步骤:
步骤1)初始化模型,设置R(x,u)=Rmax,f(x,u,x′)=1,其中R(x,u)为奖赏函数,f(x,u,x′)为状态转移函数,Rmax为最大奖赏值,x、u为状态动作对,x′为执行x、u后转移到的下一个状态;
步骤2)初始化环境,设置机器人的起始位置;
步骤3)判断当前的探索完全度η,若达到阈值I,转入步骤4),否则转入步骤(5);
步骤4)使用自模拟度量方法,计算当前机器人可做的所有动作所到达的地点与最多垃圾堆的距离,选择使距离最大的动作,转入步骤(6);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610171859.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:移位寄存器及液晶显示装置
- 下一篇:属相星座组合工艺品的制作方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用