[发明专利]神经网络优化器搜索在审
| 申请号: | 201880034697.0 | 申请日: | 2018-04-30 |
| 公开(公告)号: | CN110663049A | 公开(公告)日: | 2020-01-07 |
| 发明(设计)人: | 伊万·贝洛;巴雷特·佐福;维贾伊·瓦苏德万;国·V·勒 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
| 代理公司: | 11219 中原信达知识产权代理有限责任公司 | 代理人: | 李佳;邓聪惠 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 神经网络 输出序列 更新规则 控制器神经网络 性能度量 计算机存储介质 训练神经网络 计算机程序 控制器参数 系统和设备 评估 | ||
1.一种方法,包括:
接收确定更新规则的请求,所述更新规则用于在训练第一神经网络执行特定神经网络任务期间更新所述第一神经网络的参数的值;以及
确定所述更新规则,包括:
使用具有多个控制器参数的控制器神经网络并且根据所述控制器参数的当前值,生成多个输出序列,每个生成的输出序列限定相应的候选更新规则;
对于每个生成的输出序列:
根据由所述生成的输出序列限定的所述候选更新规则,通过更新子神经网络的实例的参数的值,来训练所述子神经网络的相应实例执行所述特定神经网络任务,以及
评估所述子神经网络的经训练的实例对所述特定神经网络任务的性能,以确定所述子神经网络的所述经训练的实例对所述特定神经网络任务的性能度量;以及
使用所述子神经网络的所述经训练的实例的所述性能度量来调节所述控制器神经网络的所述控制器参数的所述当前值。
2.根据权利要求1所述的方法,其中,所述子神经网络具有与所述第一神经网络相同的架构。
3.根据权利要求1所述的方法,其中,所述子神经网络是被配置成执行所述特定神经网络任务但具有比所述第一神经网络更少的参数的神经网络。
4.根据权利要求1所述的方法,其中,使用所述子神经网络的所述经训练的实例的所述性能度量来调节所述控制器神经网络的所述控制器参数的所述当前值包括:
使用强化学习技术来训练所述控制器神经网络生成输出序列,所述输出序列导致子神经网络具有增加的性能度量。
5.根据权利要求4所述的方法,其中,所述强化学习技术是策略梯度技术。
6.根据权利要求5所述的方法,其中,所述强化学习技术是REINFORCE技术。
7.根据权利要求5所述的方法,其中,所述强化学习技术是信任区域策略优化技术。
8.根据权利要求7所述的方法,其中,所述信任区域策略优化技术使用先前奖励的指数移动平均数作为基线函数。
9.根据权利要求1至8中任一项所述的方法,其中,每个输出序列将所述候选更新规则的公式表示成域专用语言的字符串。
10.根据权利要求9所述的方法,其中,所述字符串用所述域专用语言描述了多个操作数和应用到所述多个操作数的一个或多个函数。
11.根据权利要求10所述的方法,其中,所述操作数选自输入基元的集合,以及其中,所述输入基元的集合包括取决于相对于训练期间所确定的参数的梯度的一个或多个基元。
12.根据权利要求9至11中任一项所述的方法,其中,所述函数中至少一个函数采用所述函数中另一函数的输出作为输入。
13.根据权利要求9至12中任一项所述的方法,其中,所述字符串包括处于多个时间步中的每个时间步处的相应字符,以及其中,处于每个时间步处的所述字符是根据所述域专用语言限定的语法而从针对所述时间步的可能字符的集合中选择的。
14.根据权利要求13所述的方法,其中,所述控制器神经网络是递归神经网络,所述递归神经网络包括:
一个或多个递归神经网络层,被配置成针对给定输出序列并且在每个时间步处:
接收在所述给定输出序列中处于在前时间步处的所述字符作为输入,并且处理所述输入以更新所述递归神经网络的当前隐藏状态;以及
针对每个时间步的相应输出层,其中,每个输出层被配置成针对所述给定输出序列:
接收包括在所述时间步处的经更新的隐藏状态的输出层输入,并且生成针对所述时间步的输出,所述输出限定在针对所述时间步的可能字符之间的分数分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880034697.0/1.html,转载请声明来源钻瓜专利网。





