[发明专利]训练神经网络的方法、系统及存储介质有效
申请号: | 201680060065.2 | 申请日: | 2016-11-04 |
公开(公告)号: | CN108140143B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | S.约夫 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06V10/44;G06V10/764;G06V10/774;G06V10/82;G06K9/62 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 神经网络 方法 系统 存储 介质 | ||
用于训练神经网络的、包括编码在计算机存储介质上的计算机程序的方法、系统和装置,所述神经网络被配置为接收输入数据项并处理输入数据项以生成相应分数。该方法包括以下动作:获得包括多个训练项的训练数据的集合,其中每个训练项与来自预定的多个标签的集合中的相应标签相关联;以及修改训练数据以生成正则化训练数据,包括:对于每个训练项,确定是否修改与训练项相关联的标签,并且将与训练项相关联的标签改变为来自预定标签的集合的不同的标签,并在正则化数据上训练神经网络。本公开的各方面具有通过减少过度拟合来改善训练的神经网络的性能的技术效果。
相关申请的交叉引用
本申请要求于2015年11月6日提交的标题为“Regularizing Machine LearningModels”的美国临时申请第62/252,374号的权益,其在此通过引用全文并入。
技术领域
本说明书涉及训练神经网络。
背景技术
神经网络是机器学习模型,其采用一层或多层模型来为接收的输入生成输出,例如分类。一些神经网络除了输出层外还包含一个或多个隐藏层。每个隐藏层的输出被用作下一层的输入,所述下一层即下一个隐藏层或网络的输出层。网络的每层根据相应的参数的集合的当前值从接收的输入生成输出。
神经网络可能过度拟合(overfit)训练数据。过度拟合可被描述为神经网络由于特定的训练数据的集合变得过于自信。当神经网络被过度拟合时,关于不在训练数据中的项,它可能开始做出不好的概括。
发明内容
本公开的方面具有通过减少过度拟合来改善训练的神经网络的性能的技术效果。
根据本公开的一个创新方面,描述了一种训练神经网络的方法,其中所述神经网络被配置为接收输入数据项并且处理所述输入数据项以对预定的多个标签的集合中的每个标签生成相应分数。所述方法可以包括以下动作:获得包括多个训练项的训练数据的集合,其中每个训练项与来自所述预定的多个标签的集合的相应标签相关联;以及修改所述训练数据以生成正则化(regularize)所述神经网络的训练的正则化训练数据。所述修改的动作可包括:对于每个训练项,确定是否修改与训练项相关联的标签;以及响应于确定修改与训练项相关联的标签,将与所述训练项相关联的标签改变为来自所述预定的标签的集合的不同的标签;以及在正则化数据上训练神经网络。
根据本公开的各种创新方面,可以通过使用正则化数据集合来训练神经网络以减少过度拟合,从而改善训练的神经网络的性能。正则化数据集合可以通过将预定量的噪声引入训练数据集合的标签中来生成,例如通过修改与训练数据集合中的训练数据项相关联的一个或多个标签来生成。训练数据项可以包括训练图像。
其他方面包括用于执行编码在计算机存储设备上的方法的动作的对应系统、装置和计算机程序。对于将被配置为执行特定操作或动作的一个或多个计算机的系统,意味着系统已经在其上安装了软件、固件、硬件或它们的组合,这些软件、固件、硬件或其组合在操作中使系统执行所述操作或动作。对于将被配置为执行特定操作或动作的一个或多个计算机程序,意味着一个或多个程序包括在由数据处理装置执行时使装置执行所述操作或动作的指令。
这些和其他方面可以可选地包括以下特征中的一个或多个。例如,在一些实现方式中,将与所述训练项相关联的标签改变为来自所述预定的标签的集合的不同的标签包括:将标签从正确地描述训练项的标签改变为不正确地描述训练项的标签。在一些实现方式中,所述不同的标签是从所述预定的标签的集合中随机地选择的。
在一些实现方式中,标签可包括训练标签分布,所述训练标签分布包括对与训练图像的集合相关联的预定标签的集合中的每个标签的所述训练项的分数。在这样的实现方式中,将与所述训练项相关联的标签改变为来自所述预定的标签的集合的不同的标签可包括:将训练数据项的训练标签分布中的分数的分布从代表正确标签的分数的分布改变为代表不正确标签的分数的分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680060065.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:选择性反向传播
- 下一篇:一种对神经网络模型进行训练的方法、装置及电子设备