[发明专利]使用变分信息瓶颈来训练神经网络在审
| 申请号: | 201780066234.8 | 申请日: | 2017-11-03 |
| 公开(公告)号: | CN109923560A | 公开(公告)日: | 2019-06-21 |
| 发明(设计)人: | 亚历山大·埃米尔·阿勒米 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;周亚荣 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 训练神经网络 神经网络 输入生成 信息瓶颈 训练数据 网络输出 互信息 网络 计算机存储介质 计算机程序 目标输出 输入转换 配置 | ||
一种用于训练神经网络的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。所述方法中的一种包括:接收训练数据;在所述训练数据上训练神经网络,其中,所述神经网络被配置成:接收网络输入,将所述网络输入转换成所述网络输入的潜在表示,并且处理所述潜在表示以从所述网络输入生成网络输出,并且其中,在所述训练数据上训练所述神经网络包括在变分信息瓶颈目标上训练所述神经网络,所述变分信息瓶颈目标对于每个训练输入鼓励针对所述训练输入生成的所述潜在表示与所述训练输入具有低的互信息,同时针对所述训练输入生成的所述网络输出与针对所述训练输入的所述目标输出具有高的互信息。
技术领域
本说明书涉及训练神经网络。
背景技术
神经网络是采用非线性单元的一个或多个层来针对接收到的输入预测输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一个层(即,下一个隐藏层或输出层)的输入。网络的每个层依照相应组的参数的当前值从接收到的输入生成输出。
一些神经网络是递归神经网络。递归神经网络是接收输入序列并且从该输入序列生成输出序列的神经网络。特别地,递归神经网络可在当前时间步计算输出时使用网络从前一个时间步起的内部状态中的一些或全部。递归神经网络的示例是包括一个或多个LSTM记忆块的长短期(LSTM)神经网络。每个LSTM记忆块可包括一个或多个细胞(cell),所述一个或多个细胞各自包括输入门、遗忘门和输出门,这些门允许细胞存储该细胞的先前状态,例如,以用于在生成当前激活时使用或者被提供给LSTM神经网络的其它组件。
发明内容
本说明书一般地描述作为一个或多个位置中的一个或多个计算机实现的系统,所述系统在训练数据上训练神经网络,所述训练数据包括一组训练输入以及针对每个训练输入的相应的目标输出。
神经网络是被配置成接收网络输入、将网络输入转换成网络输入的潜在表示并且处理潜在表示以从网络输入生成网络输出的神经网络。
特别地,系统在变分信息瓶颈目标上训练神经网络,所述变分信息瓶颈目标对于每个训练输入鼓励针对训练输入生成的潜在表示与训练输入具有低的互信息,同时针对训练输入生成的网络输出与针对训练输入的目标输出具有高的互信息。
因此在一个方面中,方法包括:接收训练数据,所述训练数据包括多个训练输入以及针对每个训练输入的相应的目标输出;在训练数据上训练神经网络,其中,神经网络被配置成:接收网络输入,将网络输入转换成网络输入的潜在表示,并且处理潜在表示以从网络输入生成网络输出,并且其中,在训练数据上训练神经网络包括在变分信息瓶颈目标上训练神经网络,所述变分信息瓶颈目标对于每个训练输入鼓励针对训练输入生成的潜在表示与训练输入具有低的互信息,同时针对训练输入生成的网络输出与针对训练输入的目标输出具有高的互信息。
可选地,系统然后可提供指定经训练的神经网络的数据以用于在处理新网络输入时使用。
可实现本说明书中描述的主题的特定实施例以便实现以下优点中的一个或多个。通过在上述目标上训练神经网络,经训练的神经网络可在推广到新输入时超过在不同目标上训练的神经网络的性能,并且,如在下面更详细地讨论的,对对抗性攻击更加鲁棒。附加地,由经训练的神经网络生成的预测分布将比在不同目标上训练网络情况下被更好地校准。特别地,对神经网络的训练比在常规目标上训练相同网络被更好地规则化。因此,通过以本说明书中描述的方式训练神经网络,结果得到的训练后的神经网络将是高性能的,同时还抵抗对抗性攻击而不会在训练数据上过拟合。
在下面的附图和描述中阐述本说明书中描述的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将根据说明书、附图和权利要求书变得显而易见。
附图说明
图1示出示例神经网络训练系统。
图2是用于训练神经网络的示例过程的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780066234.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:准循环神经网络
- 下一篇:使用相关元启发法的分区





