[发明专利]一种基于强化学习的时序逻辑任务规划方法有效
申请号: | 201910327921.1 | 申请日: | 2019-04-23 |
公开(公告)号: | CN110014428B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 方浩;宇文涛;陈杰;杨庆凯;曾宪琳 | 申请(专利权)人: | 北京理工大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 温子云 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 时序 逻辑 任务 规划 方法 | ||
本发明提出了一种基于强化学习的时序逻辑任务规划方法。首先使用线性时序逻辑语言和非确定性Büchi自动机对任务进行建模,并使用有限状态转移系统FTS对环境进行描述,然后利用FTS和Büchi自动机产生生成式Büchi自动机;利用Q‑Learning方法对生成式Büchi自动机进行任务规划训练;在迭代训练训练过程中,当组合状态进入可接受状态或者死区状态时,结束本轮迭代,跳转进入下一次迭代过程;同时,更新状态‑动作值所使用的奖励函数包含当组合状态进入可接受状态或者死区状态时给予奖励值或者惩罚值的设定。本发明能够有效、安全、高速的对时序逻辑任务进行任务规划。
技术领域
本发明属于人工智能领域,具体涉及一种基于强化学习的时序逻辑任务规划方法。
背景技术
在实际任务中,很多任务不仅要求简单的并行协作,而且需要去执行更为复杂的串行协作任务,即机器人根据任务进行的阶段不同需要执行不同的任务。这种在环境、时间和执行顺序都有要求的任务称为时序逻辑任务。任务规划(task planning)问题是在给定任务下,找到一系列将系统从初始状态更改为目标状态的操作。解决过程类似于人类审议,通过预测其结果来选择和组织行动。任务规划可以应用在多个领域:人工智能,机器人系统,军事指挥等。所以,任务规划这一领域的研究吸引着越来越多的研究人员投入其中。
针对实际中具有时序逻辑特性的任务,任务规划的解决方案有:
方案1:文献(Meng G,Zavlanos M M.Probabilistic Motion Planning underTemporal Tasks and Soft Constraints[J].IEEE Transactions on AutomaticControl,2017.)针对时序逻辑任务规划问题,首先对任务使用确定性Rabin自动机进行建模,并将运动过程转换成马尔科夫决策过程,最后使用Dijkstra算法得出任务规划结果。
方案2:文献(A.Krizhevsky,I.Sutskever,and G.E.Hinton.Imagenetclassification with deep convolutional neural networks[J].Advances in neuralinformation processing systems.2012:1097–1105.)利用深度卷积神经网络进行任务规划,机器人可以从以前的例子中收集数据或观察人类演示,通过反复试验找出解决方案。
上述方案1在使用过程中需要进行计算,实时性不好;方案2不能处理训练数据中没有的新任务,有效性不足,而且规划结果不具有安全性,可能违背给定的任务时序逻辑。
发明内容
有鉴于此,本发明提供了一种基于强化学习的时序逻辑任务规划方法,能够提高时序逻辑任务规划的实时性、有效性和安全性。
为了解决上述技术问题,本发明是这样实现的:
基于强化学习的时序逻辑任务规划方法,包括:
步骤1、采用线性时序逻辑语言给定任务,并转换成Büchi自动机利用有限状态转移系统FTS将环境建模为多元组Tc;利用和Tc产生生成式Büchi自动机Ap;
所述生成式Büchi自动机Ap由六元组组成:Ap=(Q',δ',Q0',F',Wp,D')
其中,Q'是生成式Büchi自动机中的组合状态的集合,组合状态是生成式Büchi自动机状态图中的顶点,它是Büchi自动机状态与FTS中栅格区域的组合;s=π,q表示组合状态;π为FTS中的栅格区域,q为Büchi自动机中的状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910327921.1/2.html,转载请声明来源钻瓜专利网。