[发明专利]用于处理分布式集群中的深度学习作业的方法和装置有效
| 申请号: | 201810759278.5 | 申请日: | 2018-07-11 |
| 公开(公告)号: | CN109034396B | 公开(公告)日: | 2022-12-23 |
| 发明(设计)人: | 杨金锋 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F9/50 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 处理 分布式 集群 中的 深度 学习 作业 方法 装置 | ||
1.一种用于处理分布式集群中的深度学习作业的方法,包括:
基于租户提交的深度学习任务创建深度学习训练作业,所述深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业;
判断为所述租户所在租户组分配的资源中的当前资源余量是否满足所述深度学习训练作业的资源需求,其中,每个租户组具有对应的计算资源,且不同租户组对应的计算资源相互隔离;
响应于确定为所述租户所在租户组分配的资源中的当前资源余量满足所述深度学习训练作业的资源需求,将所述深度学习训练作业添加至所述租户所在租户组对应的作业队列中;
按照所述作业队列中的作业的优先级将所述深度学习训练作业通过集群管理器适配器提交至对应的集群管理器,以供所述集群管理器基于所管理的分布式计算节点执行所述深度学习训练作业,并存储运行结果,其中,所述集群管理器用于分发作业,计算节点用于执行深度学习作业,所述集群管理器适配器用于提供针对不同集群管理器的统一入口以屏蔽不同集群管理器之间的差异;
其中,所述基于租户提交的深度学习任务创建深度学习训练作业,包括:将所述深度学习任务按照深度神经网络所包括的模块或样本数据划分成多个子任务;创建每个子任务对应的深度学习训练作业,且创建的深度学习训练作业包括逻辑上的训练作业整体对应的子任务。
2.根据权利要求1所述的方法,其中,所述方法还包括:
将待提交深度学习任务的租户划分为多个租户组,并为各租户组关联对应的集群。
3.根据权利要求2所述的方法,其中,所述判断为所述租户所在租户组分配的资源中的当前资源余量是否满足所述深度学习训练作业的资源需求,包括:
通过所述集群管理器适配器获取所述租户所在租户组关联的集群的可用资源信息;
基于所述租户所在租户组关联的集群的可用资源信息判断为所述租户所在租户组分配的资源中的当前资源余量是否满足所述深度学习训练作业的资源需求。
4.根据权利要求1-3任一项所述的方法,其中,在基于租户提交的深度学习任务创建深度学习训练作业之后、判断为所述租户所在租户组分配的资源中的当前资源余量是否满足所述深度学习训练作业的资源需求之前,所述方法还包括:
将所述深度学习训练作业同步至数据库中;以及
所述响应于确定为所述租户所在租户组分配的资源中的当前资源余量满足所述深度学习训练作业的资源需求,将所述深度学习训练作业添加至所述租户所在租户组对应的作业队列中,包括:
响应于确定为所述租户所在租户组分配的资源中的当前资源余量满足所述深度学习训练作业的资源需求,判断所述租户所在租户组对应的作业队列长度是否达到预设的最大队列长度;
若所述租户所在租户组对应的作业队列长度未达到预设的最大队列长度,将所述深度学习训练作业添加至所述租户所在租户组对应的作业队列中。
5.根据权利要求4所述的方法,其中,所述方法还包括:
响应于确定为所述租户所在租户组分配的资源中的当前资源余量不满足所述深度学习训练作业的资源需求,以预设的时间周期监测为所述租户所在租户组分配的资源中的资源余量,并在监测到为所述租户所在租户组分配的资源中的资源余量满足所述深度学习训练作业的资源需求,且所述租户所在租户组对应的作业队列长度未达到预设的最大队列长度时,将数据库中的所述深度学习训练作业添加至所述租户所在租户组对应的作业队列中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810759278.5/1.html,转载请声明来源钻瓜专利网。





