[发明专利]一种基于强化学习的深度学习任务调度方法有效

申请号：	202010047640.3	申请日：	2020-01-16
公开（公告）号：	CN111258734B	公开（公告）日：	2022-09-23
发明（设计）人：	陈照云;全巍;罗磊;文梅;曹壮;沈俊忠;张春元	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06F9/48	分类号：	G06F9/48;G06F9/50;G06N20/00;G06K9/62
代理公司：	湖南省国防科技工业局专利中心 43102	代理人：	冯青
地址：	410073 ***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习深度任务调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于强化学习的深度学习任务调度方法。目的在于面向深度学习多任务调度场景，基于任务在线性能反馈，自适应学习并调整调度策略，尽可能提高任务完成效率和集群资源的利用效率。本方法基于深度学习任务在不同调度策略下的性能在线反馈进行自适应学习，并自适应更新调度决策，从而最大化任务执行效率和集群资源利用率。本发明的设计与实现均属于轻量级，不需要修改用户的编程方式和任务提交方式，同时对于运维人员友好，部署方便简洁。

技术领域

本发明涉及任务资源调度领域，具体涉及一种基于强化学习的深度学习任务调度方法。

背景技术

随着以深度学习技术为核心的产品和服务逐渐融入我们的日常生活，工业界和学术界纷纷开始投入更大规模的人力、物力和财力支持该领域的研发。各个企业开始基于主流的CPU+GPU异构集群来构建自身的深度学习研发平台，同时处理多种不同的深度学习任务，从而满足多用户的研发需求。如何能够最大程度发挥异构集群平台的计算能力，提高整个集群资源利用率和任务完成效率，同时降低运维成本，是一个极具挑战的任务。

当前数据中心的任务调度策略大多是基于启发式算法，不需要挖掘任务内在的性能特征，通常将任务当作一个黑盒子。这种调度算法虽然泛化能力较强，但是缺乏细粒度任务性能的挖掘。近年来也逐渐有一些基于预测的深度学习任务调度算法，但该类调度算法存在两个方面的不足：一方面预测精度很有限，该类算法往往基于任务自身迭代性或收敛性来进行预测，对于更加复杂的网络模型预测偏差较大；另一方面离线评估的开销过大，预测的基础在于离线评估，而离线评估需要大量的时间开销和资源占用，这都是很难满足的条件。

发明内容

鉴于基于预测的调度算法的不足，本发明提出一种基于强化学习的深度学习任务调度方法，需要解决以下几个问题：

一是能够基于强化学习的典型算法完成对深度学习任务调度的场景建模，将任务调度问题转化为一个强化学习问题，完成状态空间、动作空间、反馈函数等模块设计与实现；

二是能够基于强化学习算法来设计自适应的深度学习任务调度算法，能够在线自适应调整不同深度学习任务的任务划分和放置策略，并依据任务性能的实时反馈，在线更新并调整策略；

三是基于Tensorflow等主流框架完成插件整合，在不改变用户编程方式和任务提交方式的基础上，完成任务的放置策略的选择，同时也不影响集群管理者的现有运维方式。

技术问题：

假设当前CPU+GPU异构对称集群有N个节点，每个节点有M个GPU，在深度学习多任务调度场景下，需要为每个任务找到一个最佳的任务划分和放置策略选择。而该策略的选择需要尽可能提高任务的完成效率和整个集群的资源利用率。本发明旨在提出一种基于任务在线执行性能反馈并自适应调整的强化学习策略，来完成上述调度目标，如何完成场景建模和自适应调度算法设计是本发明要解决的核心技术问题。

技术方案：

本发明提出一种基于强化学习的深度学习任务调度策略，来提高任务完成效率和集群资源利用率，其实现机制如下：

A. 状态空间设计。在多任务调度场景下，需要记录并学习不同调度策略对每个任务性能的影响，而每个任务在不同策略下的性能通过一个Q值表进行记录。理论上应该为每个深度学习任务构建一个独立的状态，而状态空间就是所有深度学习任务集合。但是实际场景下由于用户提交的任务差异性较大，类型较复杂，如果每个任务作为一个独立状态会导致状态空间爆炸，并影响学习效率。因此本发明加入一种分组策略，来降低状态空间的维度，提高整个强化学习Q值表的效率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学，未经中国人民解放军国防科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010047640.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的深度学习任务调度方法有效

专利文献下载