[发明专利]基于DCU的资源调度方法、装置和计算机设备在审
| 申请号: | 202011381447.X | 申请日: | 2020-12-01 |
| 公开(公告)号: | CN112612600A | 公开(公告)日: | 2021-04-06 |
| 发明(设计)人: | 王建敏;原帅;吕灼恒;南亚;苏垚;余彬;于洁;郭珂 | 申请(专利权)人: | 曙光信息产业(北京)有限公司;曙光信息产业股份有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 贾旭 |
| 地址: | 100193 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 dcu 资源 调度 方法 装置 计算机 设备 | ||
本发明公开了一种基于DCU的资源调度方法、装置和计算机设备。其中,基于DCU的资源调度方法包括:接收多个深度学习应用作业任务,作业任务包括资源需求信息和作业任务类型;获取深度学习加速器DCU开发环境下的可用资源使用状态信息;根据资源需求信息、作业任务类型和可用资源使用状态信息,确定作业任务的执行顺序和执行节点;按照执行顺序,将作业任务调度至对应的执行节点,以使执行节点执行相应类型的作业任务。本发明实施例的基于DCU的资源调度方法、装置和计算机设备,支持DCU的资源调度,应用灵活,功能丰富。
技术领域
本发明涉及服务器技术领域,尤其涉及一种基于DCU的资源调度方法、装置和计算机设备。
背景技术
当前主流的容器编排平台,主要机制包括应用部署、规划、更新、维护四大部分。通过部署容器方式,可以实现每个容器之间互相隔离;每个容器有自己的文件系统;容器之间进程不会相互影响,能区分计算资源。调度系统结合docker容器技术,可对Caffe、TensorFlow等深度学习框架进行封装,提高了深度学习应用的效率。同时,调度系统平台还提供了训练任务提交、资源状态监控等功能,实现了对资源的调度分配。
目前,传统的调度系统仅支持NVIDIA类型GPU(Graphics Processing Unit,图形处理器)加速的Caffe、TensorFlow等深度学习框架进行训练,并不支持其他GPU类型如DCU(Deep learning Computer Unit,深度学习加速器),扩展性差,功能单一。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种基于DCU的资源调度方法,支持DCU的资源调度,应用灵活,功能丰富。
本发明的第二个目的在于提出一种基于DCU的资源调度装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为了实现上述目的,本发明第一方面实施例提出一种基于DCU的调度方法,该方法包括:
接收多个深度学习应用任务,所述作业任务包括资源需求信息和作业任务类型;
获取深度学习加速器DCU开发环境下的可用资源使用状态信息;
根据所述资源需求信息、所述作业任务类型和所述可用资源使用状态信息,确定所述作业任务的执行顺序和执行节点;
按照所述执行顺序,将所述作业任务调度至对应的执行节点,以使所述执行节点执行相应类型的作业任务。
可选的,根据所述资源需求信息、所述作业任务类型和所述可用资源使用状态信息,确定所述作业任务的执行顺序和执行节点,包括:
所述作业任务还包括用户作业优先级,所述作业任务类型具有相应的调度类型优先级;
根据所述用户作业优先级、所述资源需求信息、所述调度类型优先级确定所述作业任务对应的实际作业优先级;
根据所述实际作业优先级确定所述作业任务的执行顺序;以及
确定与所述作业任务类型相同的执行节点。
通过用户作业优先级、所述资源需求信息、所述调度类型优先级确定所述作业任务对应的实际作业优先级,细化了确定作业任务的执行顺序的步骤,保证最佳的资源分配。
可选的,在所述执行节点执行所述作业任务时,还包括:
创建与所述作业任务对应的资源信息,并将所述资源信息记录至资源记录表。
将资源信息记录至资源记录表,对资源进行统计,方便资源的管理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司;曙光信息产业股份有限公司,未经曙光信息产业(北京)有限公司;曙光信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011381447.X/2.html,转载请声明来源钻瓜专利网。





