[发明专利]一种基于重置训练数据传输网络的分布式训练方法及系统在审
| 申请号: | 202010056054.5 | 申请日: | 2020-01-17 |
| 公开(公告)号: | CN113138832A | 公开(公告)日: | 2021-07-20 |
| 发明(设计)人: | 李杨;张曼妮;张翔宇;孙军欢 | 申请(专利权)人: | 深圳致星科技有限公司 |
| 主分类号: | G06F9/455 | 分类号: | G06F9/455;G06N20/00;H04L12/24 |
| 代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 何姣 |
| 地址: | 518000 广东省深圳市南山区粤海街道高新*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 重置 训练 数据传输 网络 分布式 方法 系统 | ||
本发明提供一种基于重置训练数据传输网络的分布式训练方法及系统。其中,首先提供一种在分布式训练过程中重置训练数据传输网络的方法,通过使所有运行着训练进程的虚拟节点构成一个逻辑环和分别从逻辑环的起始节点起向下游的正向、从终止节点起向上游的反向收集全局RDMA网络配置,以及各节点训练进程根据全局RDMA网络配置重置训练集群中的训练数据传输网络配置为RDMA网络,实现在分布式训练过程中的训练数据传输网络重置;进而在此基础上,提供一种基于高效通信网络的加速分布式训练方法以及加速分布式训练系统,实现训练过程中以高效RDMA网络进行训练数据传输的加速分布式训练。
技术领域
本发明涉及AI模型分布式训练技术领域;具体地,涉及一种基于重置训练数据传输网络的分布式训练方法及系统。
背景技术
近年来,人工智能,特别是深度学习,在图像识别,语言处理等领域取得重大突破,并且开始广泛应用于商业活动中。深度学习能够取得如此重大突破的一个关键原因是深度学习在训练过程中处理了大量样本,从样本中学习到样本之中包含的众多特征。若是仅使用单台服务器运行深度学习训练,那么其处理完大量样本过程中将耗费大量时间,严重影响工作效率。因此,既有必要将训练扩展到多台服务中进行,每台服务器处理不同的样本,加快样本处理速度,缩短深度学习训练时间,这也就是最近兴起的分布式训练。深度学习可以理解为是基于梯度的学习:深度学习训练过程中处理样本,经过一系列复杂运算,可以得到深度学习过程中一个至关重要的中间结果梯度。在分布式训练过程中的关键即每台服务器需要将其计算得到的梯度分享给其他服务器。
由于要保证各节点(例如前面述及的服务器节点)上的梯度等参数的一致性,一个用于分布式训练的服务器集群,其部署运行环境、启动训练过程中都有着大量网络配置、分布式训练配置等工作,需要运维人员和算法工程师们手动实施。如此方法配置,是一定会严重制约其部署和训练效率。
容器技术的出现,不仅能够实现容器集群的快速部署,同时它也是一种轻量化的解决方案,且能够有效整合和管理着裸机资源。Kubernetes即为一种典型的基于容器技术的用于管理多主机上的容器化的应用。以Kubernetes平台运行分布式机器学习训练任务为例,Kubernetes不仅大大简化深度学习环境部署过程,还能够实现分布式训练的快速启动,最大限度减少运维人员和算法工程师们手动操作,进而提高训练效率。
不同于在物理服务器集群上部署分布式训练,在如Kubernetes平台等的这类容器云平台部署分布式训练任务时,通常是先配置分布式训练任务,再依据其资源需求向平台申请资源和和为分布式训练任务中的各子任务创建对应的虚拟节点(即容器或容器组,例如Pod——Kubernetes平台的最小调度单位,其实质上为包含一个或者多个容器的逻辑主机),以上也即是将分布式训练任务调度到容器云平台的过程。此外,为保障训练过程中各虚拟节点上的子任务间训练参数等的一致性,还需要为之生成一系列分布式训练配置;例如,在Kubernetes平台部署分布式tensorflow任务时,即是通过Pod的环境变量TF_CONFIG实现各Pod上任务训练参数的一致性的。因为是设置分布式训练任务在前而用于训练的容器集群创建在后,所以配置中用于虚拟节点间互联通信的网络连接配置,并非虚拟节点实际的网络地址这样网络配置信息,而仅是一个连接访问服务的字符串;而上述虚拟节点间的通信,实际上是通过上述的连接访问服务字符串请求容器云平台提供的连接访问服务实现的;这其中的虚拟节点间通信,自然也包括后续的训练过程中的各虚拟节点间的互联通信。
在分布式训练过程中,每个节点中的训练进程将其计算的梯度发送给其他节点和接收其他节点发来的梯度的过程,将会产生大量网络通信,并且随着分布式训练集群规模越来越大,其中产生的网络通信成倍增加,逐渐成为制约深度学习分布式训练效率的主要因素。这主要是因为分布式训练过程中网络通信往往是基于TCP/IP协议实现的,而基于TCP/IP协议的传统网络通信,需要系统内核和网络协议栈接入,其中涉及大量不必要的数据拷贝,特别是随着样本数据集的爆炸性增长、样本数据集Batch Size的几何倍数增大,不仅是其本身通信效率低下,而且还将大量占用CPU资源。因此,传统的基于TCP/IP协议的网络通信,越来越不适用今日之分布式训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳致星科技有限公司,未经深圳致星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010056054.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:同位素分段压裂示踪技术
- 下一篇:移动设备定位系统、相关方法、装置及设备





