[发明专利]用于处理分布式集群中的深度学习作业的方法和装置有效
申请号: | 201810759278.5 | 申请日: | 2018-07-11 |
公开(公告)号: | CN109034396B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 杨金锋 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F9/50 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请实施例公开了用于处理分布式集群中的深度学习作业的方法和装置。该方法的一具体实施方式包括:基于租户提交的深度学习任务创建深度学习训练作业,深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业;判断为租户所在租户组分配的资源中的当前资源余量是否满足深度学习训练作业的资源需求;若满足,将深度学习训练作业添加至租户所在租户组对应的作业队列中;按照作业队列中的作业的优先级将深度学习训练作业通过集群管理器适配器提交至对应的集群管理器,以供集群管理器基于所管理的分布式计算节点执行深度学习训练作业,并存储运行结果。该实施方式提升了作业处理效率。 | ||
搜索关键词: | 用于 处理 分布式 集群 中的 深度 学习 作业 方法 装置 | ||
【主权项】:
1.一种用于处理分布式集群中的深度学习作业的方法,包括:基于租户提交的深度学习任务创建深度学习训练作业,所述深度学习训练作业包括深度学习运算进程的分布式训练作业以及参数服务器的分布式训练作业;判断为所述租户所在租户组分配的资源中的当前资源余量是否满足所述深度学习训练作业的资源需求;响应于确定为所述租户所在租户组分配的资源中的当前资源余量满足所述深度学习训练作业的资源需求,将所述深度学习训练作业添加至所述租户所在租户组对应的作业队列中;按照所述作业队列中的作业的优先级将所述深度学习训练作业通过集群管理器适配器提交至对应的集群管理器,以供所述集群管理器基于所管理的分布式计算节点执行所述深度学习训练作业,并存储运行结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810759278.5/,转载请声明来源钻瓜专利网。