[发明专利]一种分布式并行训练的方法和系统有效
申请号: | 201910736410.5 | 申请日: | 2019-08-09 |
公开(公告)号: | CN110503194B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 王晓飞 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/08;G06F13/40;G06F13/42 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 并行 训练 方法 系统 | ||
1.一种分布式并行训练的方法,其特征在于,所述方法包括以下步骤:
执行多个GPU基于训练模型的训练以得到训练参数;
根据所述训练参数的传输所需带宽确定所述GPU与CPU之间的第一总线的第一GPU数量阈值,并将所述第一GPU数量阈值与所述GPU的数量进行比较;
响应于所述GPU的数量大于所述第一GPU数量阈值,将所述GPU分组并计算每组GPU的训练参数之和;
将各组的所述训练参数之和通过所述第一总线上传至CPU,并根据CPU对全部所述训练参数之和计算的梯度平均值更新各GPU的训练模型。
2.根据权利要求1所述的方法,其特征在于,所述执行多个GPU基于训练模型的训练以得到训练参数进一步包括:
所述多个GPU以基于TensorFlow的分布式数据并行训练的方式执行基于训练模型的深度学习训练。
3.根据权利要求1所述的方法,其特征在于,所述响应于所述GPU的数量大于所述第一GPU数量阈值,将所述GPU分组并计算每组GPU的训练参数之和进一步包括:
根据所述训练参数的传输所需带宽确定各GPU之间的第二总线的第二GPU数量阈值;
根据所述第二GPU数量阈值确定每组GPU的数量。
4.根据权利要求3所述的方法,其特征在于,所述响应于所述GPU的数量大于所述第一GPU数量阈值,将所述GPU分组并计算每组GPU的训练参数之和进一步包括:
在每组GPU的其中一个GPU上设置GPU参数服务器;
所述GPU参数服务器通过所述第二总线接收相应组中其它GPU发送的训练参数,计算本组训练参数之和。
5.根据权利要求4所述的方法,其特征在于,所述将各组的所述训练参数之和通过所述第一总线上传至CPU,并根据CPU对全部所述训练参数之和计算的梯度平均值更新各GPU的训练模型进一步包括:
通过CPU参数服务器对全部所述训练参数之和计算梯度平均值,并通过所述第一总线反馈至所述GPU参数服务器;
由GPU参数服务器通过所述第二总线将所述梯度平均值发送至相应组中的各GPU。
6.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
响应于所述GPU的数量不大于所述第一GPU数量阈值,GPU分别通过所述第一总线将训练参数上传至CPU,并根据CPU对所述训练参数计算的梯度平均值更新GPU的训练模型。
7.根据权利要求1所述的方法,其特征在于,所述根据所述训练参数的传输所需带宽确定所述GPU与CPU之间的第一总线的第一GPU数量阈值,并将所述第一GPU数量阈值与所述GPU的数量进行比较进一步包括:
根据所述训练参数的数据量和预设传输时间确定所述训练参数的传输所需带宽;
根据所述第一总线的第一带宽和所述训练参数的传输所需带宽的整除数确定所述第一总线的第一GPU数量阈值。
8.根据权利要求3所述的方法,其特征在于,所述根据所述训练参数的传输所需带宽确定各GPU之间的第二总线的第二GPU数量阈值进一步包括:
根据所述训练参数的数据量和预设传输时间确定所述训练参数的传输所需带宽;
根据所述第二总线的第二带宽和所述训练参数的传输所需带宽的整除数确定所述第二总线的第二GPU数量阈值。
9.根据权利要求3所述的方法,其特征在于,所述第一总线和所述第二总线为PCIe总线。
10.一种分布式并行训练的系统,其特征在于,包括处理器和存储器,所述存储器存储有处理器可执行指令,所述指令被处理器执行时实现以下步骤:
执行多个GPU基于训练模型的训练以得到训练参数;
根据所述训练参数的传输所需带宽确定所述GPU与CPU之间的第一总线的第一GPU数量阈值,并将所述第一GPU数量阈值与所述GPU的数量进行比较;
响应于所述GPU的数量大于所述第一GPU数量阈值,将所述GPU分组并计算每组GPU的训练参数之和;
将各组的所述训练参数之和通过所述第一总线上传至CPU,并根据CPU对全部所述训练参数之和计算的梯度平均值更新各GPU的训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910736410.5/1.html,转载请声明来源钻瓜专利网。