[发明专利]一种自适应RDMA网络的分布式机器学习系统及方法在审
申请号: | 201910731812.6 | 申请日: | 2019-08-08 |
公开(公告)号: | CN112348196A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 郭昊;张曼妮;张翔宇;孙军欢;赵来松 | 申请(专利权)人: | 深圳致星科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F13/28;H04L29/08 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 何姣 |
地址: | 518000 广东省深圳市南山区粤海街道高新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 rdma 网络 分布式 机器 学习 系统 方法 | ||
本发明提供一种的自适应RDMA网络的分布式机器学习系统及方法,在分布式训练任务被调度到训练集群后,通过检测训练集群网络环境以及根据检测自适应地选择训练集群网络用于分布式训练任务通信,尽可能为分布式任务选择其在训练过程中最优的网络环境,以使之分布式训练过程中充分使用高效的RDMA网络进行通信,以克服现有技术部署分布式训练任务存在的通信瓶颈问题,进而提高分布式训练效率。
技术领域
本发明涉及分布式机器学习领域;具体地,涉及一种自适应RDMA网络的分布式机器学习系统及方法。
背景技术
机器学习,特别是深度学习,在人工智能驱动服务中获得了广泛的成功。随着模型越来越复杂,其训练的计算成本越来越高。若要实现高效及时的训练,则需发掘分布式系统并行计算的优势。业内领军企业如微软、Facebook和Google等已经开始尝试在成百上千的服务器组成的生产集群上运行分布式机器学习训练任务。
然而,一个具备实用意义的用于分布式训练的物理集群,其从构建部署到运行维护,都是极为专业且复杂甚至是繁琐的工作。将容器云技术应用到分布式机器学习领域,无疑可大大简化其构建部署运维工作的难度。
容器云技术不仅能够实现容器集群的快速部署,同时它也是一种轻量化的解决方案,且能够有效整合和管理着裸机资源。以Kubernetes平台运行分布式机器学习训练任务为例,Kubernetes不仅为打包应用提供一致的方法,保证应用在不同设备上运行的一致性,为应用的运行环境提供资源隔离,同时其对硬件底层的复杂性和节点管理进行了抽象,并且支持GPU的调度。
但是,无论是以若干主机服务器搭建的用于训练的物理集群,还是在容器云平台部署的训练集群,计算节点间的数据传输通常是以基于TCP/IP协议(也是目前广域网和局域网通用的网络协议)网络通信实现的。上述网络通信过程需要操作系统和协议栈的介入,但随着训练集越来越大,在参数交换(parameter exchange)过程中将不可避免占用大量的CPU资源,造成较大网络延时,严重制约训练效率。
远程直接内存访问技术,即RDMA(Remote Direct Memory Access)技术,则是一种直接内存访问技术;它将数据直接从一台计算机的内存传输到另一台计算机,无需双方操作系统的介入。因此,相较于上述基于通用的TCP/IP协议的常规网络,RDMA网络通信可以避免网络传输过程中大量的CPU资源占用,同时也减小了网络延时。那么,为分布式训练任务搭建/部署具有RDMA网络的训练集群,并在训练过程中为训练数据(例如参数交换过程中的数据通信)提供RDMA网络通信,显然是一种突破参数交互网络通信瓶颈、提高分布式训练效率的有效途径。
在分布式训练过程中,通常是以环境配置参数来保障被分配到各计算节点的子任务间的依赖关系和控制子任务间的数据一致性的。具体而言,一般地,每个子任务对应的环境配置参数将包括全部子任务以及当前子任务的一些信息(如子任务编号、网络连接参数等)。在现实的部署及训练过程中,除利用环境配置参数调度分布式任务到训练集群(即将各个子任务分配到训练集群各计算节点)外,还包括在训练过程中通过环境配置参数中的网络连接参数实现运行在不同计算节点的训练应用程序间的数据通信。
因此,在实践中,以在具有RDMA网络的物理集群部署分布式训练任务为例,为实现RDMA网络环境下的高效分布式训练,一般是先行获取训练集群各计算节点的RDMA网络IP,手动/利用脚本生成包括RDMA网络IP(作为网络连接参数)的环境配置参数,进而实现任务被调度到训练集群后的高效分布式训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳致星科技有限公司,未经深圳致星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910731812.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:灰度调整电路及方法
- 下一篇:一种七叶一枝花林下原生态种植方法