[发明专利]基于求解的内省来增强强化学习智能体的训练以对机器人和自主载具进行控制和规划在审
| 申请号: | 201980082774.4 | 申请日: | 2019-11-21 |
| 公开(公告)号: | CN113196308A | 公开(公告)日: | 2021-07-30 |
| 发明(设计)人: | M·A·沃伦;C·塞拉诺 | 申请(专利权)人: | 赫尔实验室有限公司 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N5/00;G06N3/00;G06N3/04 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 师玮;王小东 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 求解 内省 增强 强化 学习 智能 训练 机器 人和 自主 进行 控制 规划 | ||
描述了一种用于控制移动平台的系统。基于移动平台的当前状态,训练在移动平台上运行的神经网络。周期性地查询能够对非线性激活函数进行推理的可满足性模理论(SMT)解算器,以获得满足移动平台的指定约束的状态示例。然后在所述状态示例上训练神经网络。在所述状态示例上训练之后,神经网络选择要由移动平台在其环境中执行的动作。最后,系统使移动平台在其环境中执行所选择的动作。
相关申请的交叉引用
这是2019年1月14日在美国提交的名称为“Solving Based Introspection toAugment the Training of Reinforcement Learning Agents for Control andPlanning on Robots and Autonomous Vehicles”的美国临时申请No.62/792,352的非临时申请,其全部内容通过引用并入本文。
发明背景
(1)技术领域
本发明涉及一种用于控制机器人和自主载具的系统,并且更具体地涉及以下用于控制机器人和自主载具的系统:该系统允许学习智能体(learning agent)改进其学习结果,而不将其暴露于潜在危险经历(potentially dangerous experience)中。
(2)现有技术描述
线性规划是一种类型的求解技术。在强化学习中,线性规划的现有使用已经集中于对智能体策略的探索空间进行约束,以提高收敛速度和策略所收敛到的质量两者,或者作为Q-Learning中更传统的动态规划方法的替代,以解决零和多智能体马尔可夫游戏马尔可夫决策过程(MDP)中的平衡策略,如在所并入的参考文献列表中的参考文献1、2和3所述。先前的工作也已经在合并二次程序解算器(Quadratic Program solver)上进行,以通过约束神经网络策略的输出来将智能体探索限制到“安全”轨迹上(参见参考文献4和5)。
虽然在现有技术中使用的线性规划是应用数学和工程中的公知技术,但是在计算机科学的“形式化方法”领域之外,可满足性模理论(SMT:Satisfiability ModuloTheories)求解鲜为人知。此外,来自形式化方法团体的许多人并不熟悉强化学习。最后,即使对于熟悉SMT求解的人来说,为了能够对神经网络的状态进行内省(introspect),也需要具有能够有效处理非线性激活函数的SMT求解技术的专业知识。
因此,持续需要一种系统,该系统能够通过收集状态数据来改进其学习结果而无需智能体实际经历所收集的状态,以便控制移动平台。
发明内容
本发明涉及一种用于控制机器人和自主载具的系统,并且更具体地涉及以下用于控制机器人和自主载具的系统:该系统允许学习智能体改进其学习结果,而不将其暴露于潜在危险经历中。该系统包括:移动平台;以及非暂时性计算机可读介质和一个或更多个处理器,所述非暂时性计算机可读介质上编码有可执行指令,使得所述可执行指令在被执行时,所述一个或更多个处理器执行多个操作。系统基于所述移动平台的当前状态,训练在所述移动平台上运行的神经网络π。周期性地查询能够对非线性激活函数进行推理的可满足性模理论(SMT)解算器,以获得满足所述移动平台的指定约束的多个状态示例(examplesof states)。在所述多个状态示例上训练所述神经网络π。在所述多个状态示例上训练之后,系统选择要由所述移动平台在该移动平台的环境中执行的动作;并且使所述移动平台在该移动平台的环境中执行所选择的动作。
在另一方面,所述SMT解算器是根据查询调度(query schedule)来查询的。
在另一方面,系统通过执行状态空间量化算法,利用所述SMT解算器(solver)生成所述多个状态示例。
在另一方面,系统在生成所述多个状态示例时,应用至少一个查询约束(queryconstraint)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赫尔实验室有限公司,未经赫尔实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980082774.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:测试条指示器确定系统、终端设备和方法
- 下一篇:用于活检的组织样本收集器





