[发明专利]训练图像分类模型的系统及方法和对图像进行分类的方法在审

申请号：	202010518225.1	申请日：	2020-06-09
公开（公告）号：	CN112651420A	公开（公告）日：	2021-04-13
发明（设计）人：	李宝普;程治宇;包英泽	申请（专利权）人：	百度（美国）有限责任公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	马晓亚;王艳春
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	训练图像分类模型系统方法进行
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了用于训练图像分类模型的计算机实现的方法、用于训练图像分类模型的系统以及用于对图像进行分类的计算机实现的方法。在一个或多个实施例中，紧凑的深度学习模型包括更少的层，这需要更少的浮点运算(FLOP)。本文还提供了新的学习率函数的实施例，其可以在两个线性函数之间自适应地改变学习率。在一个或多个实施例中，在训练过程中，半精度浮点格式训练与更大批量大小的组合也可用于帮助训练过程。

技术领域

本公开总体上涉及用于计算机学习的系统和方法，其可以提供改进的计算机性能、特征和使用。更具体地，本公开涉及用于改进的深度学习模型和改进深度学习网络的训练的系统和方法。

背景技术

深度学习(DL)在诸如计算机视觉、自然语言处理、医学图像处理等的许多不同领域得到了广泛的应用。逐渐地，深度学习已经成为近来人工智能/机器学习(AI/ML)革命的基础，这对众多产业产生了影响并产生了更多的产业。在大多数情况下，DL任务的训练过程非常长，甚至在现代高级图形处理单元(GPU)机器(诸如，由加利福尼亚桑尼维尔的Nvidia制造的V100 Tensor Core，或由加利福尼亚山景城的Google制造的Tensor处理单元(TPU))上也是如此。非常需要设计新的模型和方法来加速DL模型的训练过程，以提高效率和节约成本。

作为示例，考虑深度学习文本到语音(TTS)系统。由于它们的复杂性，开发TTS系统可能是非常劳动密集型的和困难的。最近关于神经TTS系统的工作已经证明了令人印象深刻的结果，产生了具有稍微简单的特征、更少的分量和更高质量的合成语音的流程。关于TTS 的最优神经网络架构还没有共识。对于解决不同领域的深度学习系统的其它应用也存在类似的问题。

因此，需要用于改进的深度学习模型和用于改进的深度学习模型的训练的系统和方法。

发明内容

本公开的一方面提供了一种用于训练图像分类模型的计算机实现的方法，所述方法包括：形成一个或多个批次，所述一个或多个批次包括图像及与所述图像对应的标签，所述图像及与所述图像对应的标签选自一个或多个训练数据集，其中，每个图像具有对应的标签；对于每个训练循环重复一组步骤，直到达到停止条件为止。所述一组步骤包括：将批次输入到所述图像分类模型中；在给出所述批次的预测输出的情况下，确定所述图像分类模型的损失；以及利用所述损失更新所述图像分类模型的一个或多个参数，其中，所述图像分类模型包括：卷积模块，包括具有一组滤波器的卷积、批次归一化操作和激活操作；第一残差模块，包括由最大池化层分开的至少两个卷积模块，其中，每个卷积模块具有其自己的滤波器组；第二残差模块，包括由最大池化层分开的至少两个卷积模块，其中，每个卷积模块具有其自己的滤波器组；以及全连接层，接收从所述第二残差模块的输出获得的输入。

本公开的另一方面提供了一种用于训练图像分类模型的系统，所述系统包括：一个或多个处理器；以及非暂时性计算机可读介质，包括一组或多组指令的，所述一组或多组指令在由所述一个或多个处理器中的至少一个执行时使得执行以下步骤：形成一个或多个批次，所述一个或多个批次包括图像及与所述图像对应的标签，所述图像及与所述图像对应的标签选自一个或多个训练数据集，其中，每个图像具有对应的标签；对于每个训练循环重复一组步骤，直到达到停止条件为止，所述一组步骤包括：将批次输入到所述图像分类模型中；在给出所述批次的预测输出的情况下，确定所述图像分类模型的损失；以及利用所述损失更新所述图像分类模型的一个或多个参数，其中，所述图像分类模型包括：卷积模块，包括具有一组滤波器的卷积、批次归一化操作和激活操作；第一残差模块，包括由最大池化层分开的至少两个卷积模块，其中，每个卷积模块具有其自己的滤波器组；第二残差模块，包括由最大池化层分开的至少两个卷积模块，其中，每个卷积模块具有其自己的滤波器组；以及全连接层，接收从所述第二残差模块的输出获得的输入。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于百度（美国）有限责任公司，未经百度（美国）有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010518225.1/2.html，转载请声明来源钻瓜专利网。

上一篇：保护神经网络模型的方法
下一篇：数据处理加速器及由数据处理加速器执行的计算机实现的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]训练图像分类模型的系统及方法和对图像进行分类的方法在审

专利文献下载