[发明专利]一种多节点集群环形通信的方法、装置、设备及可读介质有效
| 申请号: | 202110933617.9 | 申请日: | 2021-08-14 |
| 公开(公告)号: | CN113626369B | 公开(公告)日: | 2023-05-26 |
| 发明(设计)人: | 罗建刚 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06F15/163 | 分类号: | G06F15/163;G06T1/20;G06F13/40;G06F13/42;G06N3/08 |
| 代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 张涛;陈黎明 |
| 地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 节点 集群 环形 通信 方法 装置 设备 可读 介质 | ||
本发明公开了一种多节点集群环形通信的方法,包括:对当前节点内部的所有GPU进行节点内数据整合,并将整合得到的单节点数据汇总到首位和末位GPU中;将当前节点的首位GPU和上一相邻节点的末位GPU进行节点间数据整合,并将整合得到的多节点数据汇总到当前节点的首位GPU和上一相邻节点的末位GPU中;将当前节点的末位GPU和下一相邻节点的首位GPU进行节点间数据整合,并将整合得到的多节点数据汇总到当前节点的末位GPU和下一相邻节点的首位GPU中;将当前节点的首位GPU中的数据和当前节点的末位GPU中的数据广播发送给当前节点内部的其他GPU。本发明还公开了一种多节点集群环形通信的装置、计算机设备和介质。
技术领域
本发明涉及数据传输技术领域,尤其涉及一种多节点集群环形通信的方法、装置、设备及可读介质。
背景技术
逐渐成熟的机器学习算法,如深度神经网络(DNN,Deep Neural Networks)、卷积神经网络(CNN,Convolutional Neural Network)等,可以在许多实际应用中实现前所未有的性能并解决许多领域的难题,例如语音识别,文本处理以及图像识别等。但是在单GPU(Graphic Processing Unit,图形处理器)上往往需要很长时间进行训练,效率过低一定程度上制约了其应用。
减少训练时间使用最广泛的方法是执行数据并行训练,在数据并行训练中,每个GPU都具有模型参数的完整副本,并且GPU经常与参与训练的其他GPU交换参数,这导致了极大的通信成本,而且在通信缓慢时成为系统瓶颈。特别是在多节点的GPU服务器上时,通信往往通过IB(information button,既信息钮)卡进行,速度往往仅有25GB/s,甚至更低。这大大增加了深度学习模型的训练时间。在8卡的GPU内部通信速度往往能达到250GB/s。节点之间通信效率过低,也导致了其内部通信带宽的浪费。
为了解决训练时的通信瓶颈,可以从硬件和软件两个方面解决。在硬件方面,采用更先进的GPU互联技术,如PCIE、NVLINK、NVSWITCH等。在NVLINK中最高可以提供300GB/s的带宽。在软件方面,采用先进的现代通信库,例如NVIDIA的集体通信库,Uber的Horovod和百度的Ring AllReduce等。
在现有的通信方法中应用较多的是环形通信方法与Double Binary tree(二叉树)方法。其中环形通信方法可以有效的采用Pipeline技术(管道技术),使其具有良好的扩展性,在大数据量传输时应用较多。而Double Binary tree方法往往在拓扑较为复杂无法建立有效的通信环路和数据量较小时使用。
发明内容
现有的环形通信算法是GPU通信的常用方法,常在数据量较大时使用。图1示出的是现有技术环形通信算法的示意图,如图1所示,在环形通信方法中每个GPU只接收(receive)自己左邻居的数据并将数据发送(send)给右邻居,让数据在GPU形成的环内流动。
ALL_Reduce方式则是深度学习中最常用的通信方式。以ALL_Reduce的环形通信方式Ring_allreduce为例,图2示出的是现有技术Ring_allreduce算法的示意图,如图2所示,Ring_allreduce的过程分为两大步,第一步是scatter_reduce,逐步交换彼此的梯度并融合,最后每个GPU都会包含完整融合梯度的一部分;第二步是All_gather,逐步交换彼此不完整的融合梯度,最后所有GPU都会得到完整的融合梯度。第一步我们将总数据分为k部分,每次传输总数据1/k部分,并再将该数据均等的分为n块,然后指定左右邻居,然后执行n-1次规约操作,其中在第i次操作中GPUj会将自己的第(j-i)%n块数据发送给右邻居,并接收左邻据的(j-i-1)%n块数据。并将接收来的数据进行reduce操作。第二步工作则是通过环形通信的方法,将每个GPU获得reduce数据发送到每个GPU当中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110933617.9/2.html,转载请声明来源钻瓜专利网。





