[发明专利]使用网格代码执行导航任务在审
申请号: | 201980020693.1 | 申请日: | 2019-05-09 |
公开(公告)号: | CN112106073A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | A.巴尼诺;S.库马兰;R.T.哈德塞尔;B.尤里亚马蒂内兹 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 网格 代码 执行 导航 任务 | ||
1.一种用于选择要由与环境交互的智能体执行的动作的系统,所述系统包括一个或多个计算机以及一个或多个存储设备,所述一个或多个存储设备存储指令,当所述指令由所述一个或多个计算机执行时,使所述一个或多个计算机实现:
网格单元神经网络,被配置为:
接收包括表征智能体的速度的数据的输入;
处理输入以生成网格单元表示;以及
处理网格单元表示以生成对智能体在环境中的位置的估计;
动作选择神经网络,被配置为:
接收包括网格单元表示和表征环境的状态的观察的输入;以及
处理输入以生成动作选择网络输出;
子系统,被配置为:
接收表征智能体的当前速度的数据;
将表征智能体的当前速度的数据作为输入提供给网格单元神经网络,以获得当前网格单元表示;
接收表征环境的当前状态的当前观察;
将当前网格单元表示和当前观察作为输入提供给动作选择神经网络,以获得动作选择网络输出;
使用动作选择网络输出,选择响应于当前观察要由智能体执行的动作。
2.根据权利要求1所述的系统,其中:
动作选择网络输出包括在可能动作的集合中的动作上的得分分布,以及
选择要由智能体执行的动作包括:根据在可能动作的集合中的动作上的得分分布对可能动作的集合中的动作进行采样。
3.根据权利要求1至2中的任一项所述的系统,其中,网格单元神经网络是循环神经网络。
4.根据权利要求1至3中的任一项所述的系统,其中,动作选择神经网络是循环神经网络。
5.根据权利要求1至4中的任一项所述的系统,其中,表征智能体的速度的数据包括表征智能体的平移速度的数据和表征智能体的角速度的数据。
6.根据权利要求1至5中的任一项所述的系统,其中,对智能体在环境中的位置的估计包括智能体的定位和智能体的前进方向。
7.根据权利要求1至6中的任一项所述的系统,其中:
所述指令还使所述一个或多个计算机实现视觉神经网络,所述视觉神经网络被配置为:
接收包括表征环境的状态的观察的输入;以及
处理输入以生成对智能体在环境中的位置的估计;以及
其中,网格单元神经网络被配置为接收输入,所述输入进一步包括对智能体在环境中的位置的估计。
8.根据权利要求7所述的系统,其中,子系统还被配置为将由视觉神经网络生成的、对智能体在环境中的位置的估计作为输入提供给网格单元神经网络。
9.根据权利要求7所述的系统,其中,子系统还被配置为:
以第一概率将由视觉神经网络生成的、对智能体在环境中的位置的估计作为输入提供给网格单元神经网络;
以第二概率通过掩蔽层处理由视觉神经网络生成的、对智能体在环境中的位置的估计,所述掩蔽层将对智能体在环境中的位置的估计归零以生成对智能体的位置的掩蔽估计,并且将对智能体的位置的掩蔽估计作为输入提供给网格单元神经网络。
10.根据权利要求7至9中的任一项所述的系统,其中,视觉神经网络是卷积神经网络。
11.根据权利要求1至10中的任一项所述的系统,其中,处理输入以生成网格单元表示包括:
由循环神经网络层处理输入以生成循环层输出;以及
由线性神经网络层处理循环层输出以生成网格单元表示。
12.根据权利要求11所述的系统,其中,将丢弃应用于线性神经网络层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980020693.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:内皮细胞因子及其方法
- 下一篇:用于呼吸回路的医用管