[发明专利]一种多节点集群环形通信的方法、装置、设备及可读介质有效

申请号：	202110933617.9	申请日：	2021-08-14
公开（公告）号：	CN113626369B	公开（公告）日：	2023-05-26
发明（设计）人：	罗建刚	申请（专利权）人：	苏州浪潮智能科技有限公司
主分类号：	G06F15/163	分类号：	G06F15/163;G06T1/20;G06F13/40;G06F13/42;G06N3/08
代理公司：	北京连和连知识产权代理有限公司 11278	代理人：	张涛;陈黎明
地址：	215000 江苏省苏州***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种节点集群环形通信方法装置设备可读介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种多节点集群环形通信的方法，包括：对当前节点内部的所有GPU进行节点内数据整合，并将整合得到的单节点数据汇总到首位和末位GPU中；将当前节点的首位GPU和上一相邻节点的末位GPU进行节点间数据整合，并将整合得到的多节点数据汇总到当前节点的首位GPU和上一相邻节点的末位GPU中；将当前节点的末位GPU和下一相邻节点的首位GPU进行节点间数据整合，并将整合得到的多节点数据汇总到当前节点的末位GPU和下一相邻节点的首位GPU中；将当前节点的首位GPU中的数据和当前节点的末位GPU中的数据广播发送给当前节点内部的其他GPU。本发明还公开了一种多节点集群环形通信的装置、计算机设备和介质。

技术领域

本发明涉及数据传输技术领域，尤其涉及一种多节点集群环形通信的方法、装置、设备及可读介质。

背景技术

逐渐成熟的机器学习算法，如深度神经网络(DNN，Deep Neural Networks)、卷积神经网络(CNN，Convolutional Neural Network)等，可以在许多实际应用中实现前所未有的性能并解决许多领域的难题，例如语音识别，文本处理以及图像识别等。但是在单GPU(Graphic Processing Unit，图形处理器)上往往需要很长时间进行训练，效率过低一定程度上制约了其应用。

减少训练时间使用最广泛的方法是执行数据并行训练，在数据并行训练中，每个GPU都具有模型参数的完整副本，并且GPU经常与参与训练的其他GPU交换参数，这导致了极大的通信成本，而且在通信缓慢时成为系统瓶颈。特别是在多节点的GPU服务器上时，通信往往通过IB(information button，既信息钮)卡进行，速度往往仅有25GB/s，甚至更低。这大大增加了深度学习模型的训练时间。在8卡的GPU内部通信速度往往能达到250GB/s。节点之间通信效率过低，也导致了其内部通信带宽的浪费。

为了解决训练时的通信瓶颈，可以从硬件和软件两个方面解决。在硬件方面，采用更先进的GPU互联技术，如PCIE、NVLINK、NVSWITCH等。在NVLINK中最高可以提供300GB/s的带宽。在软件方面，采用先进的现代通信库，例如NVIDIA的集体通信库，Uber的Horovod和百度的Ring AllReduce等。

在现有的通信方法中应用较多的是环形通信方法与Double Binary tree(二叉树)方法。其中环形通信方法可以有效的采用Pipeline技术(管道技术)，使其具有良好的扩展性，在大数据量传输时应用较多。而Double Binary tree方法往往在拓扑较为复杂无法建立有效的通信环路和数据量较小时使用。

发明内容

现有的环形通信算法是GPU通信的常用方法，常在数据量较大时使用。图1示出的是现有技术环形通信算法的示意图，如图1所示，在环形通信方法中每个GPU只接收(receive)自己左邻居的数据并将数据发送(send)给右邻居，让数据在GPU形成的环内流动。

ALL_Reduce方式则是深度学习中最常用的通信方式。以ALL_Reduce的环形通信方式Ring_allreduce为例，图2示出的是现有技术Ring_allreduce算法的示意图，如图2所示，Ring_allreduce的过程分为两大步，第一步是scatter_reduce，逐步交换彼此的梯度并融合，最后每个GPU都会包含完整融合梯度的一部分；第二步是All_gather，逐步交换彼此不完整的融合梯度，最后所有GPU都会得到完整的融合梯度。第一步我们将总数据分为k部分，每次传输总数据1/k部分，并再将该数据均等的分为n块，然后指定左右邻居，然后执行n-1次规约操作，其中在第i次操作中GPU_j会将自己的第(j-i)％n块数据发送给右邻居，并接收左邻据的(j-i-1)％n块数据。并将接收来的数据进行reduce操作。第二步工作则是通过环形通信的方法，将每个GPU获得reduce数据发送到每个GPU当中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司，未经苏州浪潮智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110933617.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种同时检测三乌胶丸中六种成分含量的方法
下一篇：一种基于轻量级神经网络的大规模点云语义分割方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F15-00 通用数字计算机
G06F15-02 .通过键盘输入的手动操作，以及应用机内程序的计算，例如，袖珍计算器
G06F15-04 .在引入被处理的数据的同时，进行编制程序的，例如，在同一记录载体上
G06F15-08 .应用插接板编制程序的
G06F15-16 .两个或多个数字计算机的组合，其中每台至少具有一个运算器、一个程序器及一个寄存器，例如，用于数个程序的同时处理
G06F15-18 .其中，根据计算机本身在一个完整的运行期间内所取得的经验来改变程序的；学习机器

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多节点集群环形通信的方法、装置、设备及可读介质有效

专利文献下载