[发明专利]任务处理方法、装置及存储介质在审
申请号: | 202210283911.4 | 申请日: | 2022-03-21 |
公开(公告)号: | CN114610465A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 尹雷;董建波 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06N3/08;G06N3/10 |
代理公司: | 北京同钧律师事务所 16037 | 代理人: | 许怀远 |
地址: | 310056 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务 处理 方法 装置 存储 介质 | ||
1.一种任务处理方法,其特征在于,应用于计算集群,所述计算集群包括多个计算节点;所述方法包括:
当目标任务在待调度队列中的排队时间大于阈值时,在所述多个计算节点中确定N个目标计算节点;所述目标任务为执行时需要多个计算节点的算力的任务,所述N为大于或等于2的整数;
在所述目标任务被调度时,利用所述N个目标计算节点执行所述目标任务。
2.根据权利要求1所述的方法,其特征在于,所述目标任务的资源清单文件包括容忍参数,所述方法还包括:
将所述N个目标计算节点添加污点标记;所述污点标记与所述容忍参数有关。
3.根据权利要求2所述的方法,其特征在于,在所述目标任务被调度时,利用所述N个目标计算节点执行所述目标任务,包括:
在所述目标任务被调度时,查找与所述容忍参数匹配的污点标记所对应的N个目标计算节点;
利用所述N个目标计算节点执行所述目标任务。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述目标任务被调度完毕时,删除所述N个目标计算节点的污点标记。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述容忍参数与所述污点标记均包括键名key、键值value和效果effect。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述待调度队列中提交时间最早且带有容忍参数的任务,得到所述目标任务。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述目标任务的资源清单文件包括任务规模;在所述多个计算节点中确定N个目标计算节点,包括:
根据所述任务规模确定需要的机柜数量M;其中,所述机柜中包括多个计算节点;
分别计算所述计算集群中任一个机柜的计算节点的图形处理器GPU资源分配率之和;
确定M个所述GPU资源分配率之和最小的机柜,得到所述M个机柜中的N个所述目标计算节点。
8.根据权利要求7所述的方法,其特征在于,所述任务规模包括执行所述目标任务所需的GPU卡数K,所述M与所述K、所述机柜中的计算节点的数量和所述机柜中的计算节点包括的GPU卡的数量有关。
9.根据权利要求1-4任一项所述的方法,其特征在于,所述目标任务的资源清单文件包括任务规模;在所述多个计算节点中确定N个目标计算节点,还包括:
根据所述任务规模在所述多个机柜中抢占N个目标计算节点。
10.一种任务处理装置,其特征在于,应用于计算集群,所述计算集群包括多个计算节点;所述装置包括:
任务调度模块,用于当目标任务在待调度队列中的排队时间大于阈值时,在所述多个计算节点中确定N个目标计算节点;所述目标任务为执行时需要多个计算节点的算力的任务,所述N为大于或等于2的整数;
任务执行模块,用于在所述目标任务被调度时,利用所述N个目标计算节点执行所述目标任务。
11.一种终端设备,其特征在于,包括:存储器和处理器;
所述存储器用于存储计算机指令;所述处理器用于运行所述存储器存储的所述计算机指令实现权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-9中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210283911.4/1.html,转载请声明来源钻瓜专利网。