[发明专利]一种分布式训练中参数更新方法及装置有效
申请号: | 201910864527.1 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110633798B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 王洪伟;李鑫;李长亮 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 王治东 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 训练 参数 更新 方法 装置 | ||
本申请提供一种分布式训练中参数更新方法及装置,其中所述分布式训练中参数更新方法包括:接收分布式训练集群中的每个训练节点传递的梯度;根据每个训练节点传递的梯度计算训练模型的损失值并更新所述训练模型的模型参数;根据所述损失值确定模型训练的训练阶段;根据所述训练阶段对所述模型参数进行压缩,获得压缩模型参数;将所述压缩模型参数同步至所述分布式训练集群的每个训练节点,更新每个训练节点中的模型参数。本申请提供的分布式训练中参数更新方法自适应地减少了参数同步时通信量的大小,即保证了模型参数的同步效率,又保证了训练结果的精度,在进行分布式训练时,提高了模型训练的速度。
技术领域
本申请涉及计算机技术领域,特别涉及一种分布式训练中参数更新方法及装置、计算设备、计算机可读存储介质和芯片。
背景技术
目前,随着计算机技术的迅猛发展,深度学习技术也得到了快速进步,随着深度学习技术的深入,研发出越来越复杂的算法,这些算法需要大量的数据并耗费大量的时间才能有效的完成训练,因此研发出了分布式训练。
在深度学习的模型优化中,需要使用梯度下降的方法计算梯度找到最小的损失函数,以此来训练模型,加快模型的收敛。在目前的分布式训练中,需要每完成一次训练都要进行梯度信息的传递和模型参数的同步,以便于分布式训练集群快速地找到最小损失函数,完成模型训练。但是模型训练会因为模型参数数据量大,在同步过程中耗费时间长,导致模型训练时间长、跨度大,严重延缓了模型训练的速度。
因此,如何改善上述问题,就成为技术人员目前亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种分布式训练中参数更新方法及装置、计算设备、计算机可读存储介质和芯片,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种分布式训练中参数更新方法,包括:
接收分布式训练集群中的每个训练节点传递的梯度;
根据每个训练节点传递的梯度计算训练模型的损失值并更新所述训练模型的模型参数;
根据所述损失值确定模型训练的训练阶段;
根据所述训练阶段对所述模型参数进行压缩,获得压缩模型参数;
将所述压缩模型参数同步至所述分布式训练集群的每个训练节点,更新每个训练节点中的模型参数。
可选的,根据每个训练节点传递的梯度计算训练模型的损失值并更新所述训练模型的模型参数,包括:
将每个训练节点传递的梯度累加并计算均值,得到平均累积梯度;
根据所述平均累积梯度计算训练模型的损失值并更新训练模型的参数。
可选的,根据所述损失值确定模型训练的训练阶段,包括:
根据所述损失值的收敛速率确定模型训练的训练阶段。
可选的,根据所述损失值的收敛速率确定模型训练的训练阶段,包括:
在所述损失值的收敛速率大于等于第一预设阈值的情况下,确定模型训练处于第一训练阶段;
在所述损失值的收敛速率小于第一预设阈值且大于等于第二预设阈值的情况下,确定模型训练处于第二训练阶段;
在所述损失值的收敛速率小于第二预设阈值情况下,确定模型训练处于第三训练阶段。
可选的,所述参数包括若干个张量;
根据所述训练阶段对所述模型参数进行压缩,获得压缩模型参数,包括:
根据所述训练阶段对所述模型参数中的张量进行压缩,获得压缩模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910864527.1/2.html,转载请声明来源钻瓜专利网。