[发明专利]生成指令序列以控制执行任务的代理的生成神经网络系统在审

申请号：	201980008613.0	申请日：	2019-02-11
公开（公告）号：	CN111602144A	公开（公告）日：	2020-08-28
发明（设计）人：	I.加宁;T.D.库尔卡尼;O.文雅尔斯;S.M.埃斯拉米	申请（专利权）人：	渊慧科技有限公司
主分类号：	G06N3/00	分类号：	G06N3/00;G06N3/04;G06N3/08
代理公司：	北京市柳沈律师事务所 11105	代理人：	金玉洁
地址：	英国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	生成指令序列控制执行任务代理神经网络系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种生成对抗神经网络系统，所述系统提供执行通过训练数据定义的任务的动作序列，所述系统包括：

生成器子系统，包括与模拟器耦合的强化学习神经网络子系统，

强化学习神经网络子系统，包括：

策略循环神经网络，在时间步序列中的每个处，根据动作选择策略选择要执行的一个或多个动作，并且将所选择的一个或多个动作提供给所述模拟器，以及其中

模拟器被配置为实施针对时间步所选择的一个或多个动作以生成模拟器输出；

鉴别器神经网络，被配置为在模拟器输出和训练数据之间进行鉴别，并且提供鉴别器输出；以及

训练子系统，被配置为：i)根据从鉴别器输出确定的奖励信号、使用强化学习过程来更新所述策略循环神经网络的参数，以及ii)根据模拟器输出与训练数据之间的差异来更新所述鉴别器神经网络的参数。

2.根据权利要求1所述的系统，其中，所述模拟器是不可微分的模拟器。

3.根据权利要求1或2所述的系统，其中，所述策略循环神经网络具有内部状态，其中，所述强化学习神经网络子系统是动作器-评判系统，所述强化学习神经网络子系统还包括价值函数神经网络以根据所述策略循环神经网络的内部状态来确定估计回报，以及其中，所述训练子系统被配置为使用估计回报来更新策略循环神经网络的参数。

4.根据权利要求1、2或3所述的系统，包括：多个动作器，每个动作器包括耦合到相应模拟器以生成多个模拟器输出的策略循环神经网络的副本；经验缓冲器，存储来自模拟器输出的轨迹，每个轨迹包括一个或多个动作的序列以及相对应的模拟器输出；以及其中，训练子系统被配置为使用所存储的轨迹来更新所述策略循环神经网络的参数。

5.根据权利要求1至4中的任一项所述的系统，还包括：重放缓冲器，存储所述模拟器输出，以及其中，所述鉴别器神经网络被配置为从所述重放缓冲器采样以提供所述鉴别器输出。

6.根据权利要求1至5中的任一项所述的系统，其中，所述训练子系统被配置为更新所述鉴别器神经网络的参数，使得所述鉴别器输出依赖于所述模拟器输出与训练数据之间的第一Wasserstein距离。

7.根据权利要求1至6中的任一项所述的系统，其中，所述奖励信号还包括依赖于所选择的一个或多个动作的辅助奖励。

8.根据权利要求1至7中的任一项所述的系统，其中，所述策略循环神经网络具有输入以接收定义用于所述模拟器输出的目标的目标向量，并且其中，以所述目标向量为条件来选择所述一个或多个动作。

9.根据权利要求8所述的系统，所述系统被配置为提供所述目标向量作为所述鉴别器神经网络的训练数据。

10.根据权利要求1至9中的任一项所述的系统，其中，所述模拟器包括可编程信号生成器，并且其中，针对时间步序列所选择的一个或多个动作包括编程动作，以控制所述可编程信号生成器来提供包括根据编程动作生成的信号的模拟器输出。

11.根据权利要求1至9中的任一项所述的系统，其中，所述任务是音频波形或图像的生成，其中，所述模拟器包括被配置为生成音频波形或图像的计算机程序，并且其中，所述动作包括用于所述计算机程序的控制命令。

12.根据权利要求1至9中的任一项所述的系统，其中，所述任务是对机械代理或机电代理的控制，其中，所述模拟器包括被配置为模拟对机械代理或机电代理的控制的计算机程序，并且其中，所述动作包括用于计算机程序的控制命令。

13.根据权利要求1至9中的任一项所述的系统，其中，所述任务是分子的组装，其中，所述模拟器包括被配置为模拟分子的组装的计算机程序，并且其中，所述动作包括用于所述计算机程序的控制命令。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司，未经渊慧科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201980008613.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]生成指令序列以控制执行任务的代理的生成神经网络系统在审

专利文献下载