[发明专利]基于混合精度的深度学习模型训练方法、装置及系统有效

申请号：	201910313866.0	申请日：	2019-04-18
公开（公告）号：	CN110163368B	公开（公告）日：	2023-10-20
发明（设计）人：	裴建国;侯金龙;刘伟;黄俊洲	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	郭润湘;李娟
地址：	518044 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于混合精度深度学习模型训练方法装置系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于混合精度的深度学习模型训练方法、装置及系统，该方法包括：基于上次训练得到的深度学习模型对样本数据集中的样本数据进行数据处理，获得数据精度为第一数据精度的设定数量个第一权重梯度数据；根据设定数量个第一权重梯度数据和第二数据精度，确定数据精度为第二数据精度的缩放系数，第一数据精度高于第二数据精度；基于样本数据集和缩放系数，对深度学习模型进行训练以更新深度学习模型的权重参数，获得本次训练的深度学习模型，缩放系数用于在训练深度学习模型的过程中对数据精度为第二数据精度的损失值进行放大处理，以提高了训练效率和训练精度。

技术领域

本发明涉及模型训练技术领域，尤其涉及一种基于混合精度的深度学习模型训练方法、装置及系统。

背景技术

深度学习模型已经广泛应用到各个领域，如机器人、语音识别、图像识别和自然语言处理等领域。实际应用中，在深度学习模型投入到应用之前，需要利用大量的样本数据对深度学习模型进行训练，如何提高深度学习模型的训练效率、降低训练成本显得尤为重要。目前，各大硬件芯片厂商推出了在低精度数值范围内计算能力超强的AI加速芯片，以V100芯片为例，其半精度数据处理单元的计算能力是单精度数据处理单元的10倍。为了利用V100芯片强大的半精度计算能力，提出了利用半精度数据处理单元和单精度数据处理单元进行混合精度训练的方法，并通过引入用于放大损失函数输出的损失值(loss)的缩放系数，来解决训练过程中对损失值求导后得到的权重梯度数据可能会超出半精度数可表示的数值范围的问题。在此基础上，为了获得合理的缩放系数，又提出了缩放系数自动搜索方法，通过判断训练过程中的损失值是否为非法值来调整缩放系数。

然而，现有的缩放系数自动搜索方法，实际上是先设定一个缩放系数，当训练过程中发现loss为非法值时，再调整缩放系数，通过不断试错来搜索到合适的缩放系数。但是，调整缩放系数前的多次迭代计算得到的权重参数的更新结果是无效的，这浪费了模型训练过程中使用的计算资源和时间。因此，如何提高搜索缩放系数的效率是目前需要考虑的问题。

发明内容

本发明实施例提供一种基于混合精度的深度学习模型训练方法、装置、电子设备、系统及存储介质，以解决现有技术中如何提高搜索缩放系数的效率的问题。

第一方面，本发明一实施例提供了一种基于混合精度的深度学习模型训练方法，包括：

基于上次训练得到的深度学习模型对样本数据集中的样本数据进行数据处理，获得数据精度为第一数据精度的设定数量个第一权重梯度数据；

根据所述设定数量个第一权重梯度数据和第二数据精度，确定数据精度为第二数据精度的缩放系数，所述第一数据精度高于所述第二数据精度；

基于所述样本数据集和所述缩放系数，对所述深度学习模型进行训练以更新所述深度学习模型的权重参数，获得本次训练的深度学习模型，所述缩放系数用于在训练所述深度学习模型的过程中对数据精度为第二数据精度的损失值进行放大处理。

可选地，所述基于所述样本数据集和所述缩放系数，对所述深度学习模型进行训练以更新所述深度学习模型的权重参数，获得本次训练的深度学习模型，具体包括：

基于所述样本数据集和所述缩放系数，对所述深度学习模型进行训练以对所述深度学习模型的权重参数进行N次更新，所述N为每次进行模型训练时的权重参数更新次数；

当第N次对权重参数的更新完成时，获得本次训练的深度学习模型并结束本次训练。

可选地，每一次对所述深度学习模型的权重参数进行更新，具体包括：

基于所述深度学习模型，得到所述样本数据集中的一组样本数据组中每个训练数据对应的预测值，所述预设值的数据精度为第二数据精度；

基于损失函数确定所述样本数据组中每个训练数据对应的标注信息和预测值之间的损失值；