[发明专利]生成指令序列以控制执行任务的代理的生成神经网络系统在审
申请号: | 201980008613.0 | 申请日: | 2019-02-11 |
公开(公告)号: | CN111602144A | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | I.加宁;T.D.库尔卡尼;O.文雅尔斯;S.M.埃斯拉米 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 指令 序列 控制 执行 任务 代理 神经网络 系统 | ||
生成对抗神经网络系统,提供执行任务的动作序列。系统包括耦合到模拟器的强化学习神经网络子系统和鉴别器神经网络。强化学习神经网络子系统包括策略循环神经网络,以在时间步序列中的每个处,根据动作选择策略选择要执行的一个或多个动作,每个动作包括一个或多个模拟器的控制命令。模拟器被配置为执行时间步的控制命令以生成模拟器输出。鉴别器神经网络被配置为在模拟器输出和训练数据之间进行鉴别,以提供用于强化学习的奖励信号。模拟器可以是不可微分的模拟器,例如用于产生图像或音频波形的计算机程序或用于控制机器人或车辆的程序。
背景技术
本说明书涉及生成数据项的神经网络系统。
神经网络是采用一个或多个非线性单元层来预测针对所接收的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应的参数集的当前值从所接收的输入生成输出。
一些神经网络是循环神经网络。循环神经网络是接收输入序列并且从输入序列生成输出序列的神经网络。具体地,循环神经网络可以在计算当前时间步(time step)处的输出时,使用来自先前时间步的网络的内部状态的部分或全部。循环神经网络的示例是包括一个或多个长短期(long short term,LSTM)记忆块(memory block)的长短期(LSTM)神经网络。每个LSTM记忆块可以包括一个或多个单元(cell),每个单元包括输入门、忘记门和输出门,其允许该单元存储该单元的先前状态,例如,用于生成当前激活或提供到LSTM神经网络的其他组件。
发明内容
本说明书描述了实施为在一个或多个位置中的一个或多个计算机上的计算机程序的系统,其生成动作序列,具体地,构成用于执行任务的程序形式的控制命令或指令。在实施方式中,指令序列用于控制代理(即模拟器),诸如用于生成图像的图形软件或者用于生成诸如语音的声音的音频软件,或者配置为模拟机械代理或机电代理的操作的模拟器。一旦受过训练,系统就可以被用于提供指令序列来控制相同或另一代理以执行例如现实世界中的任务。
根据第一方面,生成对抗神经网络系统——具体地用于提供执行通过训练数据定义的任务的动作序列——包括生成器子系统,该生成器子系统包括耦合至模拟器的强化学习神经网络子系统。强化学习神经网络子系统可以包括策略循环神经网络,用于在时间步序列中的每个处,根据动作选择策略来选择要执行的一个或多个动作,并且将所选择的一个或多个动作提供给模拟器例如,提供给模拟器的一个或多个控制输入。这样的控制输入可以包括数据输入、和/或电或光信号输入、和/或机械控制输入。模拟器可以被配置为实施针对时间步所选择的一个或多个动作,以生成模拟器输出。
生成对抗神经网络系统可以进一步包括鉴别器神经网络,该鉴别器神经网络被配置为在模拟器输出与系统的训练数据之间进行鉴别并且提供鉴别器输出。训练子系统可以被配置为根据从鉴别器输出确定的奖励信号、使用强化学习过程来更新策略循环神经网络的参数。训练子系统还可以被配置为根据模拟器输出与训练数据之间的差异来更新鉴别器神经网络的参数。
在一些实施方式中,这样的系统允许将不可微分的(non-differentiable)模拟器用作生成器的部分。在这里,不可微分意味着不可能将梯度从模拟器输出反向传播到模拟器控制输入。
模拟器可以是能够从控制动作序列中产生数据项或信号的任何系统,例如,用于产生图像的CAD(计算机辅助设计)程序。训练数据可以具有与模拟器输出(例如CAD程序尝试再现的图像)相同的类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980008613.0/2.html,转载请声明来源钻瓜专利网。