[发明专利]训练图像分类模型的系统及方法和对图像进行分类的方法在审
| 申请号: | 202010518225.1 | 申请日: | 2020-06-09 |
| 公开(公告)号: | CN112651420A | 公开(公告)日: | 2021-04-13 |
| 发明(设计)人: | 李宝普;程治宇;包英泽 | 申请(专利权)人: | 百度(美国)有限责任公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 马晓亚;王艳春 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 训练 图像 分类 模型 系统 方法 进行 | ||
本申请公开了用于训练图像分类模型的计算机实现的方法、用于训练图像分类模型的系统以及用于对图像进行分类的计算机实现的方法。在一个或多个实施例中,紧凑的深度学习模型包括更少的层,这需要更少的浮点运算(FLOP)。本文还提供了新的学习率函数的实施例,其可以在两个线性函数之间自适应地改变学习率。在一个或多个实施例中,在训练过程中,半精度浮点格式训练与更大批量大小的组合也可用于帮助训练过程。
技术领域
本公开总体上涉及用于计算机学习的系统和方法,其可以提供改 进的计算机性能、特征和使用。更具体地,本公开涉及用于改进的深 度学习模型和改进深度学习网络的训练的系统和方法。
背景技术
深度学习(DL)在诸如计算机视觉、自然语言处理、医学图像处 理等的许多不同领域得到了广泛的应用。逐渐地,深度学习已经成为 近来人工智能/机器学习(AI/ML)革命的基础,这对众多产业产生了 影响并产生了更多的产业。在大多数情况下,DL任务的训练过程非常 长,甚至在现代高级图形处理单元(GPU)机器(诸如,由加利福尼 亚桑尼维尔的Nvidia制造的V100 Tensor Core,或由 加利福尼亚山景城的Google制造的Tensor处理单元(TPU))上也是 如此。非常需要设计新的模型和方法来加速DL模型的训练过程,以 提高效率和节约成本。
作为示例,考虑深度学习文本到语音(TTS)系统。由于它们的 复杂性,开发TTS系统可能是非常劳动密集型的和困难的。最近关于 神经TTS系统的工作已经证明了令人印象深刻的结果,产生了具有稍 微简单的特征、更少的分量和更高质量的合成语音的流程。关于TTS 的最优神经网络架构还没有共识。对于解决不同领域的深度学习系统 的其它应用也存在类似的问题。
因此,需要用于改进的深度学习模型和用于改进的深度学习模型 的训练的系统和方法。
发明内容
本公开的一方面提供了一种用于训练图像分类模型的计算机实现 的方法,所述方法包括:形成一个或多个批次,所述一个或多个批次 包括图像及与所述图像对应的标签,所述图像及与所述图像对应的标 签选自一个或多个训练数据集,其中,每个图像具有对应的标签;对 于每个训练循环重复一组步骤,直到达到停止条件为止。所述一组步 骤包括:将批次输入到所述图像分类模型中;在给出所述批次的预测 输出的情况下,确定所述图像分类模型的损失;以及利用所述损失更 新所述图像分类模型的一个或多个参数,其中,所述图像分类模型包 括:卷积模块,包括具有一组滤波器的卷积、批次归一化操作和激活 操作;第一残差模块,包括由最大池化层分开的至少两个卷积模块, 其中,每个卷积模块具有其自己的滤波器组;第二残差模块,包括由 最大池化层分开的至少两个卷积模块,其中,每个卷积模块具有其自 己的滤波器组;以及全连接层,接收从所述第二残差模块的输出获得 的输入。
本公开的另一方面提供了一种用于训练图像分类模型的系统,所 述系统包括:一个或多个处理器;以及非暂时性计算机可读介质,包 括一组或多组指令的,所述一组或多组指令在由所述一个或多个处理 器中的至少一个执行时使得执行以下步骤:形成一个或多个批次,所 述一个或多个批次包括图像及与所述图像对应的标签,所述图像及与 所述图像对应的标签选自一个或多个训练数据集,其中,每个图像具 有对应的标签;对于每个训练循环重复一组步骤,直到达到停止条件 为止,所述一组步骤包括:将批次输入到所述图像分类模型中;在给 出所述批次的预测输出的情况下,确定所述图像分类模型的损失;以 及利用所述损失更新所述图像分类模型的一个或多个参数,其中,所 述图像分类模型包括:卷积模块,包括具有一组滤波器的卷积、批次 归一化操作和激活操作;第一残差模块,包括由最大池化层分开的至 少两个卷积模块,其中,每个卷积模块具有其自己的滤波器组;第二 残差模块,包括由最大池化层分开的至少两个卷积模块,其中,每个 卷积模块具有其自己的滤波器组;以及全连接层,接收从所述第二残 差模块的输出获得的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010518225.1/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





