[发明专利]任务调度方法及装置在审
| 申请号: | 202210334460.2 | 申请日: | 2022-03-30 |
| 公开(公告)号: | CN114579284A | 公开(公告)日: | 2022-06-03 |
| 发明(设计)人: | 李明真;肖文聪;孙彪;赵汉宇;杨海龙;任仕儒;栾钟治;刘佚;李永;钱德沛;林伟 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
| 主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50 |
| 代理公司: | 北京同钧律师事务所 16037 | 代理人: | 柴海平;许怀远 |
| 地址: | 310056 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 任务 调度 方法 装置 | ||
本申请实施例提供任务调度方法及装置,其方法包括:获取每个任务的统计数据和当前配置,统计数据包括任务在当前配置下各类型加速芯片的吞吐量,当前配置包括加速芯片类型、各类型加速芯片数量以及在各类型加速芯片上分配的线程数量,每个任务支持弹性训练;根据每个所述任务的统计数据、所述当前配置以及获取到的每个所述任务对应的最大线程数量,确定提案信息,所述提案信息用于表示为每个所述任务申请所需资源的提案;根据所述提案信息,对目标任务内的各个线程进行资源调度。解决了在针对弹性异构的、精度无损的深度学习训练任务场景下,存在负载不均衡和性能浪费的问题,进而提高集群利用率并提高作业效率。
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种任务调度方法及装置。
背景技术
深度神经网络已经应用在很多广泛部署的系统中,横跨多个领域,包括计算机视觉、自然语言处理、语音识别,也可以包括推荐和广告等。因此,深度学习已经成为产品数据流中至关重要的一环。为了支持这种大规模的深度学习应用,一般都会构建大规模共享的加速芯片集群,用来执行多个深度学习任务。
然而,在这些共享加速芯片集群中观察发现,其实很多时候加速芯片资源仍然处于相对低的利用率状态,于此同时,有一些任务却仍在排队等待,整个集群的吞吐量并不很高。此外,由于资源共享也会导致任务的抢占。为了解决上述集群任务排队延迟长,抢占导致失败的问题,使训练任务适应弹性资源是一个很直接的方法。训练任务在支持弹性后可以尽快利用可用资源开始处理,消除因群调度而产生的强制性等待,并且在被抢占资源的时候使用剩余的资源继续训练,从而提高集群利用率,并减少任务完成时间。但是,这种弹性的方法有可能会带来难以复现的模型精度,并且任务在利用异构加速芯片时表现出不同的能力,这和加速芯片的理论计算能力不相称,并且线程的数量是离散的整数而加速芯片的计算能力是连续的实数,异构加速芯片通常没有被分配到与它们的计算能力成比例的线程数,这非常容易造成负载不均衡和性能浪费。
因此,现有技术中,在针对弹性异构的、精度无损的深度学习训练任务场景下,存在负载不均衡和性能浪费的问题,进而导致集群利用率较低且作业效率较低。
发明内容
本申请实施例提供一种任务调度方法及装置,以解决在针对弹性异构的、精度无损的深度学习训练任务场景下,存在负载不均衡和性能浪费的问题,进而提高集群利用率并提高作业效率。
第一方面,本申请实施例提供一种任务调度方法,所述方法包括:
获取多个任务中每个任务的统计数据,所述统计数据包括所述任务在当前配置下各类型加速芯片的吞吐量,所述当前配置包括加速芯片类型、各类型加速芯片数量以及在各类型加速芯片上分配的线程数量;
根据每个所述任务的统计数据、所述当前配置以及获取到的每个所述任务对应的最大线程数量,确定提案信息,所述提案信息用于表示为每个所述任务申请所需资源的提案;
根据所述提案信息,对目标任务内的各个线程进行资源调度,所述目标任务为所有所述任务中的至少一个任务。
可选的,所述根据每个所述任务的统计数据、所述当前配置以及获取到的每个所述任务对应的最大线程数量,确定提案信息,包括:
根据每个所述任务在当前配置下各类型加速芯片的吞吐量,确定每个所述任务在当前配置下各类型加速芯片的计算能力;
根据每个所述任务在当前配置下各类型加速芯片的计算能力、所述加速芯片类型、各类型加速芯片数量、各类型加速芯片上分配的线程数量以及获取到的每个所述任务对应的最大线程数量,确定提案信息。
可选的,所述根据每个所述任务在当前配置下各类型加速芯片的吞吐量,确定每个所述任务在当前配置下各类型加速芯片的计算能力,包括:
针对每个所述任务执行下述步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210334460.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:投影图像的校正方法和激光投影设备
- 下一篇:应用程序更新方法及ECU





