[发明专利]任务处理方法、装置及存储介质在审

申请号：	202210283911.4	申请日：	2022-03-21
公开（公告）号：	CN114610465A	公开（公告）日：	2022-06-10
发明（设计）人：	尹雷;董建波	申请（专利权）人：	阿里巴巴（中国）有限公司
主分类号：	G06F9/48	分类号：	G06F9/48;G06F9/50;G06N3/08;G06N3/10
代理公司：	北京同钧律师事务所 16037	代理人：	许怀远
地址：	310056 浙江省杭州市滨江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	任务处理方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种任务处理方法、装置及存储介质，应用于大数据领域，包括：当目标任务在待调度队列中的排队时间大于阈值时，在多个计算节点中确定N个目标计算节点；在目标任务被调度时，利用N个目标计算节点执行目标任务。本申请的方法，通过判断目标任务的排队时间，确定目标任务是否需要优先调度，当目标任务需调度时，选定目标计算节点并基于目标计算节点执行目标任务，这样减少其他任务的“插队”，也减少了目标任务的排队时间。

技术领域

本申请涉及大数据领域，尤其涉及一种任务处理方法、装置及存储介质。

背景技术

随着大数据技术的发展，神经网络参数的规模越来越大，深度学习训练的周期也越来越长。在执行训练任务时，可使用多图形处理器(graphics processing unit，GPU)卡加速训练的方式以应对大数据及大模型的训练需求。

目前，Kubernetes(K8s)集群可以实现GPU卡加速训练，例如，可以在K8s集群中大规模部署GPU服务器执行深度学习任务。但是，在利用K8s集群进行任务训练时，经常出现一些训练任务异常的情况。

发明内容

本申请提供一种任务处理方法、装置及存储介质，用以解决多机多卡训练任务的待调度时，排队时间过长的问题。

第一方面，本申请提供一种任务处理方法，任务处理方法应用于计算集群，计算集群包括多个计算节点；任务处理方法包括：

当目标任务在待调度队列中的排队时间大于阈值时，在多个计算节点中确定N个目标计算节点；目标任务为执行时需要多个计算节点的算力的任务，N为大于或等于2的整数；

在目标任务被调度时，利用N个目标计算节点执行目标任务。

可选的，目标任务的资源清单文件包括容忍参数，还包括：

将N个目标计算节点添加污点标记；污点标记与容忍参数有关。