[发明专利]使用聚类损失训练神经网络有效
申请号: | 201780070400.1 | 申请日: | 2017-11-15 |
公开(公告)号: | CN109983480B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 宋贤吴 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06V10/764;G06V10/82;G06F18/23 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李宝泉;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 损失 训练 神经网络 | ||
用于训练神经网络的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。方法之一包括:获得一批次的训练项目和真实分配;使用神经网络处理批次中的训练项目以为每个训练项目生成相应的嵌入;并且,通过执行神经网络训练过程的迭代来调整网络参数的当前值以优化目标函数,该目标函数惩罚用于生成针对除所述真实分配之外的每个可能聚类分配不导致所述oracle聚类分值比所述可能聚类分配的聚类分值高至少在所述可能聚类分配和所述真实分配之间的结构化差额的嵌入的神经网络。
技术领域
本说明书涉及训练神经网络。
背景技术
神经网络是使用非线性单元的一个或多个层来针对所接收的输入预测输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即,下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入生成输出。
一些神经网络是递归神经网络。递归神经网络是接收输入序列并从输入序列生成输出序列的神经网络。特别地,递归神经网络可以使用来自前一个时间步长的网络的一些或全部内部状态来在当前时间步长计算输出。递归神经网络的示例是包括一个或多个LSTM存储器块的长短期(LSTM)神经网络。每个LSTM存储器块可以包括一个或多个细胞,每个细胞包括输入门、遗忘门和输出门,它们允许细胞存储该细胞的先前状态,例如,以用于生成当前激活或被提供到LSTM神经网络的其他组件。
发明内容
该说明书描述了在一个或多个位置上的一个或多个计算机上实现为计算机程序的系统,该系统训练神经网络,所述神经网络具有网络参数并且被配置为接收输入数据项目并根据网络参数处理输入数据项目以生成输入数据项目的嵌入。在一些特定的非限制性示例中,以本文描述的方式训练的神经网络可以用于图像分类。
可以实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。通过训练在本说明书中描述的神经网络,即,通过训练神经网络以优化所描述的目标,训练的神经网络可以生成更准确地反映网络输入之间的相似性的嵌入。特别地,通过如本说明书中描述训练神经网络,由训练的神经网络生成的嵌入可以有效地用作用于各种任务的网络输入的特征或表示,包括基于特征的检索、聚类、近似重复检测、验证、特征匹配、域适应和基于视频的弱监督学习等。
在一些特定示例中,根据本文描述的训练方法训练的神经网络可以用于图像分类。更具体地,在这些示例中,通过以这种方式训练神经网络,由神经网络生成的嵌入可以有效地用于大规模分类任务,即,其中类的数量非常大并且每个类的示例的数量变得稀缺的任务。在此设置中,任何直接分类或回归方法由于可能数量大的类而变得不切实际。然而,所描述的训练技术允许例如通过用相应的中心点表示每个类并确定最接近网络输入的嵌入的中心点来使用由训练的神经网络生成的嵌入来将网络输入精确地分类为类之一。
另外,用于训练神经网络以生成嵌入的许多传统方法在训练数据可用于训练神经网络之前需要对训练数据进行计算密集的预处理。例如,许多现有技术需要单独的数据准备阶段,其中,必须首先成对地准备训练数据,即,每对包括三元组的正和负示例,即每个三元组在训练数据可用于训练之前包括锚示例、正示例和负示例,或者是n对元组格式。该过程具有非常昂贵的时间和空间成本,因为它通常需要复制训练数据并且需要重复访问磁盘以确定如何格式化训练示例。相比之下,本说明书中描述的训练技术在训练中使用一批次的训练项目之前几乎不需要或根本不需要预处理,在仍然如上所述训练网络以有效地生成嵌入的同时,减少了训练神经网络所需的计算成本和时间。
在附图和以下描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据说明书、附图和权利要求,本主题的其他特征、方面和优点将变得显而易见。
附图说明
图1示出了示例神经网络训练系统。
图2是使用聚类损失训练神经网络的示例过程的流程图。
图3是用于确定对神经网络的参数的当前值的更新的示例过程的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780070400.1/2.html,转载请声明来源钻瓜专利网。