[发明专利]用于处理分布式集群中的深度学习作业的方法和装置有效
申请号: | 201810759278.5 | 申请日: | 2018-07-11 |
公开(公告)号: | CN109034396B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 杨金锋 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F9/50 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 处理 分布式 集群 中的 深度 学习 作业 方法 装置 | ||
本申请实施例公开了用于处理分布式集群中的深度学习作业的方法和装置。该方法的一具体实施方式包括:基于租户提交的深度学习任务创建深度学习训练作业,深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业;判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求;若满足,将深度学习训练作业添加至租户所在租户组对应的作业队列中;按照作业队列中的作业的优先级将深度学习训练作业通过集群管理器适配器提交至对应的集群管理器,以供集群管理器基于所管理的分布式计算节点执行深度学习训练作业,并存储运行结果。该实施方式提升了作业处理效率。
技术领域
本申请实施例涉及计算机技术领域,具体涉及深度学习技术领域,尤其涉及用于处理分布式集群中的深度学习作业的方法和装置。
背景技术
机器学习,是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。深度学习是机器学习中的一个重要研究领域。深度学习是指多层神经网络上运用各种机器学习算法解决基于图像、文本等形式数据的问题的算法集合。
在深度学习技术中,通过海量的样本数据来训练规模较大的模型可以提升模型的性能。其中,需要通过大量的神经网络的运算来训练得出神经网络的参数。对于大规模的模型,需要训练的参数的数量较多,为了提升训练速度,可以采用分布式集群来执行训练任务。
发明内容
本申请实施例提出了用于处理分布式集群中的深度学习作业的方法和装置。
第一方面,本申请实施例提供了一种用于处理分布式集群中的深度学习作业的方法,包括:基于租户提交的深度学习任务创建深度学习训练作业,深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业;判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求;响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求,将深度学习训练作业添加至租户所在租户组对应的作业队列中;按照作业队列中的作业的优先级将深度学习训练作业通过集群管理器适配器提交至对应的集群管理器,以供集群管理器基于所管理的分布式计算节点执行深度学习训练作业,并存储运行结果。
在一些实施例中,上述方法还包括:将待提交深度学习任务的租户划分为多个租户组,并为各租户组关联对应的集群。
在一些实施例中,上述判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求,包括:通过集群管理器适配器获取租户所在租户组关联的集群的可用资源信息;基于租户所在租户组关联的集群的可用资源信息判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求。
在一些实施例中,在基于租户提交的深度学习任务创建深度学习训练作业之后、判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求之前,上述方法还包括:将深度学习训练作业同步至数据库中;以及上述响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求,将深度学习训练作业添加至租户所在租户组对应的作业队列中,包括:响应于确定为租户所在租户组分配的资源中的当前资源余量满足深度学习训练作业的资源需求,判断租户所在租户组对应的作业队列长度是否达到预设的最大队列长度;若租户所在租户组对应的作业队列长度未达到预设的最大队列长度,将深度学习训练作业添加至租户所在租户组对应的作业队列中。
在一些实施例中,上述方法还包括:响应于确定为租户所在租户组分配的资源中的当前资源余量不满足深度学习训练作业的资源需求,以预设的时间周期监测为租户所在租户组分配的资源中的资源余量,并在监测到为租户所在租户组分配的资源中的资源余量满足深度学习训练作业的资源需求,且租户所在租户组对应的作业队列长度未达到预设的最大队列长度时,将数据库中的深度学习训练作业添加至租户所在租户组对应的作业队列中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810759278.5/2.html,转载请声明来源钻瓜专利网。