[发明专利]一种深度学习平台容器镜像获取、共享方法及系统有效

申请号：	201911398110.7	申请日：	2019-12-30
公开（公告）号：	CN111131487B	公开（公告）日：	2022-08-12
发明（设计）人：	郑玉会	申请（专利权）人：	广东浪潮大数据研究有限公司
主分类号：	H04L67/1095	分类号：	H04L67/1095;H04L67/104;H04L67/1061
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	刘新雷
地址：	510620 广东省广州市天河区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种深度学习平台容器获取共享方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种深度学习平台容器镜像获取、共享方法及系统，应用于主节点，本申请仅在全部节点未存储有与训练任务请求对应的目标容器镜像的时候，才由主节点直接从容器镜像库中获取目标容器镜像，尽可能的将目标容器镜像的下载过程转换为利用集群系统内部网络进行节点之间互传的方式提高目标容器镜像的下载过程，同时，节点之间采用点对点的传输方式传输目标容器镜像，进一步的提高节点之间容器镜像的传输速度，且原本未存储目标容器镜像的第二节点得到目标容器镜像后，可以变为第一节点一同进行目标容器镜像的传输，加快目标容器镜像的传输速度，为训练任务能够尽快执行提供了前提，提高了训练效率。

技术领域

本发明涉及集群运算领域，特别涉及一种深度学习平台容器镜像获取、共享方法及系统。

背景技术

在现有的深度学习平台中，提交一个深度学习任务的流程为：用户创建深度学习operater(应用)，利用kube-batch(调度器)创建一个job(深度学习训练任务)，并将这个job调度到多个节点，然后从Harbor仓库拉取深度学习框架到本地节点，创建容器，启动深度学习任务的训练过程。

然而，由于深度学习框架较大，拉取过程需要一定的时间，不少用户采取了预先下载镜像的方法，让各节点事先分批获取镜像，然后在创建训练任务时启动应用。这种办法在一定程度上缓解了问题，但是仍然存在从Harbor仓库分发镜像时造成访问拥堵和传输速度慢的情况。

因为，现有技术中多个节点在接收到下载任务时，会同时访问Harbor仓库下载镜像，导致Harbor仓库访问速度变慢，进而影响下载速度，同时其本身并没有提高镜像的下载速度，还是需要下载，预下载在面对有规划的训练任务时还可以发挥较大效果，但若面对临时任务时，采用上述方法就无法加快下载速度。

为此，需要一种下载镜像速度更快时效性更高的方法，提高下载效率，提高深度学习任务执行效率。

发明内容

有鉴于此，本发明的目的在于提供一种深度学习平台容器镜像获取、共享方法及系统，下载镜像速度更快，提高深度学习任务执行效率。其具体方案如下：

一种深度学习平台容器镜像获取方法，应用于主节点，包括：

接收训练任务请求；

判断是否有已存储与所述训练任务请求对应的目标容器镜像的第一节点；