[发明专利]基于DCU的资源调度方法、装置和计算机设备在审

申请号：	202011381447.X	申请日：	2020-12-01
公开（公告）号：	CN112612600A	公开（公告）日：	2021-04-06
发明（设计）人：	王建敏;原帅;吕灼恒;南亚;苏垚;余彬;于洁;郭珂	申请（专利权）人：	曙光信息产业（北京）有限公司;曙光信息产业股份有限公司
主分类号：	G06F9/50	分类号：	G06F9/50
代理公司：	北京康信知识产权代理有限责任公司 11240	代理人：	贾旭
地址：	100193 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 dcu 资源调度方法装置计算机设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于DCU的资源调度方法、装置和计算机设备。其中，基于DCU的资源调度方法包括：接收多个深度学习应用作业任务，作业任务包括资源需求信息和作业任务类型；获取深度学习加速器DCU开发环境下的可用资源使用状态信息；根据资源需求信息、作业任务类型和可用资源使用状态信息，确定作业任务的执行顺序和执行节点；按照执行顺序，将作业任务调度至对应的执行节点，以使执行节点执行相应类型的作业任务。本发明实施例的基于DCU的资源调度方法、装置和计算机设备，支持DCU的资源调度，应用灵活，功能丰富。

技术领域

本发明涉及服务器技术领域，尤其涉及一种基于DCU的资源调度方法、装置和计算机设备。

背景技术

当前主流的容器编排平台，主要机制包括应用部署、规划、更新、维护四大部分。通过部署容器方式，可以实现每个容器之间互相隔离；每个容器有自己的文件系统；容器之间进程不会相互影响，能区分计算资源。调度系统结合docker容器技术，可对Caffe、TensorFlow等深度学习框架进行封装，提高了深度学习应用的效率。同时，调度系统平台还提供了训练任务提交、资源状态监控等功能，实现了对资源的调度分配。

目前，传统的调度系统仅支持NVIDIA类型GPU(Graphics Processing Unit，图形处理器)加速的Caffe、TensorFlow等深度学习框架进行训练，并不支持其他GPU类型如DCU(Deep learning Computer Unit，深度学习加速器)，扩展性差，功能单一。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种基于DCU的资源调度方法，支持DCU的资源调度，应用灵活，功能丰富。

本发明的第二个目的在于提出一种基于DCU的资源调度装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为了实现上述目的，本发明第一方面实施例提出一种基于DCU的调度方法，该方法包括：

接收多个深度学习应用任务，所述作业任务包括资源需求信息和作业任务类型；

获取深度学习加速器DCU开发环境下的可用资源使用状态信息；

根据所述资源需求信息、所述作业任务类型和所述可用资源使用状态信息，确定所述作业任务的执行顺序和执行节点；

按照所述执行顺序，将所述作业任务调度至对应的执行节点，以使所述执行节点执行相应类型的作业任务。

可选的，根据所述资源需求信息、所述作业任务类型和所述可用资源使用状态信息，确定所述作业任务的执行顺序和执行节点，包括：