[发明专利]分布式训练部署系统及其方法在审
申请号: | 202011375644.0 | 申请日: | 2020-11-30 |
公开(公告)号: | CN112486630A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 俞再亮;单海军;李倞;鲍虎军;王志伟;靳懿;李科 | 申请(专利权)人: | 之江实验室;北京一流科技有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06N3/08;H04L29/08 |
代理公司: | 北京金讯知识产权代理事务所(特殊普通合伙) 11554 | 代理人: | 黄剑飞 |
地址: | 311121 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 训练 部署 系统 及其 方法 | ||
本发明公开了一种分布式训练部署系统。所述系统包括:从容器创建组件,基于用户输入的分布式任务创建申请包含的资源清单创建从容器集,并确认所创建的从容器处于可备用状态;主容器创建组件,基于用户输入的资源清单创建主容器,并确认所创建的主容器处于可备用状态;容器IP获取组件,获取所创建的主容器和从容器的IP,并基于所获取的IP创建JS对象简谱文件,并将该JS对象简谱文件写入所有主容器和从容器的指定位置;以及免密认证组件,通过对属于同一分布式任务的主容器和从容器配置安全密钥和认证信息,建立主容器和从容器之间的网络通讯的SSH免密认证。
技术领域
本公开涉及一种数据处理技术。更具体地说,本公开涉及一种针对分布式训练进行自动部署系统及其方法。
背景技术
随着深度学习的快步发展,为了提升神经网络的精度和泛化能力,数据集和参数量都在呈指数级向上攀升。分布式并行训练成为一种解决超大规模网络性能瓶颈的发展趋势。训练深度学习模型需要大量的计算,在一台具有一个GPU的单台机器上完成一次基于ImageNet等基准数据集的训练可能要耗费多达一周的时间,而使用2048个GPU的集群却能将训练时间缩短到4分钟。对于分布式训练的算法和技术,众多现代分布式训练框架已经给出了优秀的方案,但关于如何便捷地为分布式训练提供基础的运行环境,却不像前者那么有讨论热度。为分布式训练任务提供运行环境是一项非常复杂的工作,从依赖安装到脚本分发,步骤多而且重复性高,还可能因为疏忽而引发故障。
现有算力平台在解决此问题时,往往需要很多步骤,这些步骤对用户过于复杂。以Amazon AWS为例,如果需要在两个GPU节点上运行pytorch的分布式训练任务,则必须先创建节点,使用AWS提供的指定镜像(内含CUDA,cuDNN和NCCL),挑选适合多路GPU分布式训练的计算单元,手动调整实例数,配置存储空间,设置安全组并加入节点,使节点之间可以通信。在编写训练脚本时,还必须找到并记住节点的IP地址。如果有个性化的依赖,还需要依次登录节点,才能进行安装配置。可以发现,整个部署过程常常需要用户参与,对平台的使用者也有很高的要求。使用者不但要关心分布式训练脚本,还需要了解AWS的基本架构,在讨论如何让代码运行起来之前,已经在平台的操作上耗费了多余的精力。
因此,本领域技术人员期望能够在搭建分布式训练运行环境时简化搭建的复杂度,并能够减少对不同分布式训练平台特性的依赖,并实现异构设备集群管理,实现对成规模计算节点的资源分布、任务调度、状态监控等多机协同工作降低用户的使用门槛,让用户将更多的精力放在算法上。
发明内容
为此,为解决上述技术问题之一,本公开提供了一种分布式训练部署系统,其基于容器编排引擎执行分布式训练部署,所述容器编排引擎对应用进行自动部署和管理,所述系统包括:从容器创建组件,基于用户输入的分布式任务创建申请包含的资源清单创建从容器集,并确认所创建的从容器处于可备用状态;主容器创建组件,基于用户输入的资源清单创建主容器,并确认所创建的主容器处于可备用状态;容器IP获取组件,获取所创建的主容器和从容器的IP,并基于所获取的IP创建JS对象简谱文件,并将该JS对象简谱文件写入所有主容器和从容器的指定位置;以及免密认证组件,通过对属于同一分布式任务的主容器和从容器配置安全密钥和认证信息,建立主容器和从容器之间的网络通讯的SSH免密认证。
根据本公开的分布式训练部署系统,其还包括:合法确定组件,确定用户输入的分布式任务创建申请包含的资源清单的参数是否符合容器编排引擎所确定的规则,并将符合所述规则的分布式任务创建申请确定为合法申请。
根据本公开的分布式训练部署系统,其还包括:重复拒绝组件,确定用户输入的分布式任务创建申请是否与合容器编排引擎中的已有分布式任务创建申请重复,并拒绝重复的申请。
根据本公开的分布式训练部署系统,其还包括:闭锁解除组件,当所述属于同一分布式任务的主容器和从容器都处于可备用状态并且彼此建立网络通讯的SSH免密认证时,解除主容器和从容器之间的闭锁,以便开始执行训练脚本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;北京一流科技有限公司,未经之江实验室;北京一流科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011375644.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子设备及其控制方法
- 下一篇:一种防爆型太阳能热水器