[发明专利]使用网格代码执行导航任务在审
申请号: | 201980020693.1 | 申请日: | 2019-05-09 |
公开(公告)号: | CN112106073A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | A.巴尼诺;S.库马兰;R.T.哈德塞尔;B.尤里亚马蒂内兹 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 网格 代码 执行 导航 任务 | ||
方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于选择要由与环境交互的智能体执行的动作。在一个方面,一种系统包括网格单元神经网络和动作选择神经网络。网格单元网络被配置为:接收包括表征智能体的速度的数据的输入;处理输入以生成网格单元表示;以及处理网格单元表示以生成对智能体在环境中的位置的估计;动作选择神经网络被配置为:接收包括网格单元表示和表征环境的状态的观察的输入;以及处理输入以生成动作选择网络输出。
背景技术
本说明书涉及强化学习。
在强化学习系统中,智能体通过执行由强化学习系统响应于接收到表征环境的当前状态的观察而选择的动作来与环境交互。
一些强化学习系统根据神经网络的输出,响应于接收到给定观察,选择要由智能体执行的动作。
神经网络是机器学习模型,所述机器学习模型使用非线性单元的一个层或多个层来为接收的输入预测输出。一些神经网络是深度神经网络,所述深度神经网络除了输出层外,还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即下一个隐藏层或输出层)的输入。网络的每一层根据相应参数集合的当前值从接收的输入生成输出。
发明内容
本说明书描述了一种被实现为一个或多个位置的一个或多个计算机上的计算机程序的动作选择系统,其可以通过选择要由智能体执行的、使智能体解决涉及导航通过环境的任务的动作来控制智能体。
根据第一方面,提供了一种用于选择要由与环境交互的智能体执行的动作的系统。所述系统包括一个或多个计算机以及一个或多个存储设备,所述一个或多个存储设备存储指令,当所述指令由一个或多个计算机执行时,使所述一个或多个计算机实现网格单元神经网络。网格单元神经网络可以被配置为:接收包括表征智能体的速度的数据的输入;处理输入以生成网格单元表示;以及处理网格单元表示以生成对智能体在环境中的位置的估计。一个或多个计算机还可以实现动作选择神经网络。动作选择神经网络可以被配置为:接收包括网格单元表示和表征环境的状态的观察的输入;以及处理输入以生成动作选择网络输出。一个或多个计算机还可以实现子系统,所述子系统被配置为:接收表征智能体的当前速度的数据;将表征智能体的当前速度的数据作为输入提供给网格单元神经网络,以获得当前网格单元表示;接收表征环境的当前状态的当前观察;将当前网格单元表示和当前观察作为输入提供给动作选择神经网络,以获得动作选择网络输出;以及使用动作选择网络输出,选择响应于当前观察要由智能体执行的动作。
稍后描述这种系统的一些优点。例如,在动作被用于在例如二维环境中例如朝向目标导航的情况下,这种导航可能更快,更高效,并且能够适应陌生或不断改变的环境。因此,智能体可以是机械智能体,诸如在环境中导航的机器人或车辆,并且动作可以控制智能体的移动。
在一些实现方式中,动作空间可以是离散的,但是可以给予细粒度的马达控制,例如,可以控制旋转、移动(例如,前进/后退/侧向)或在移动时影响旋转加速度的动作。
在一些实现方式中,动作选择网络输出包括在可能动作的集合中的动作上的得分分布。然后,选择要由智能体执行的动作可以包括:根据在可能动作的集合中的动作上的得分分布,对可能动作的集合中的动作进行采样。动作选择神经网络可以包括循环(recurrent)神经网络。
在一些实现方式中,网格单元神经网络包括循环神经网络。处理输入以生成网格单元表示可以包括:由循环神经网络层处理输入以生成循环层输出,以及由线性神经网络层处理循环层输出以生成网格单元表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980020693.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:内皮细胞因子及其方法
- 下一篇:用于呼吸回路的医用管