[发明专利]一种支持用户QoS感知的深度学习任务调度方法在审
申请号: | 202010047652.6 | 申请日: | 2020-01-16 |
公开(公告)号: | CN111258735A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 陈照云;全巍;罗磊;文梅;曹壮;沈俊忠;张春元 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06N3/04;G06N3/08 |
代理公司: | 湖南省国防科技工业局专利中心 43102 | 代理人: | 冯青 |
地址: | 410073 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 用户 qos 感知 深度 学习 任务 调度 方法 | ||
本发明涉及一种支持用户QoS感知的深度学习任务调度方法。解决QoS资源配置之间冲突问题,提高资源利用率问题。本方法包括离线任务分析评估和在线实时任务调度两个部分。离线任务评估是对用户提交的深度学习模型进行评估和分析,通过分析任务的性能,并构建离线的性能预测模型。在线实时任务调度,基于性能预测模型,决定任务的执行顺序和放置策略,完成调度和执行的过程。本方法可以对深度学习任务进行轻量级的离线评估,在保证用户QoS的前提下,最大化提高数据中心集群的资源利用效率。
技术领域
本发明涉及任务资源调度领域,具体涉及一种支持用户QoS感知的深度学习任务调度方法。
背景技术
随着深度学习技术不断发展成熟,在越来越多的人工智能应用中发挥着重要作用。以谷歌、微软、阿里、腾讯等为首的国内外互联网公司纷纷对外公开宣布将人工智能作为下一个战略核心。而在这些公司面向用户提供大量的服务和应用背后,都是深度学习技术作为支撑。因此在各个公司内部,除了开发各自的深度学习工具之外,也需要自建的数据中心来为大量的模型训练和验证提供足够的硬件保障。为了保证多个深度学习任务的开发效率的同时,尽可能提高数据中心的利用效率对于任务调度来说是一个极大的挑战。
现有的数据中心基本上都是采用CPU+GPU的异构架构,同时采用通用调度方法来进行资源和任务管理。通用调度方法的优点是通用性强,能够适应各种大数据任务,但是缺点是忽略了任务本身的领域特征,容易导致资源的过度分配而使得资源利用效率较低。尤其是在深度学习技术和应用研发过程中,用户往往会对QoS有更加严格的要求,任务调度方法还需要尽可能满足多个用户任务的QoS要求,减少资源分配之间的冲突。因此为了能够满足上述目标,本发明提出一种支持用户QoS感知的深度学习任务调度方法,需要解决以下几个问题:
一是能够支持现有的以Tensorflow为代表的主流深度学习开发工具以及多种不同的集群环境。一方面方便开发者不需要修改代码,直接提交深度学习任务,另一方面也方便系统管理者不需要对集群环境做出调整来适应任务调度方法。
二是能够实现深度学习任务的自动分析和优化配置选择。通过用户提交的网络模型,通过离线评估自动分析网络模型特征,并对不同的网络模型设计最优的任务划分策略和参数设置,将用户从繁琐的参数配置选择中解放出来。
三是能够基于数据中心集群的现有资源状况进行在线的最优任务调度,实现用户QoS满意度和集群资源利用率的平衡。任务调度器在线接收任务提交,针对当前系统资源的负载情况,结合用户的QoS目标,设计最优的任务放置策略,实现系统资源的利用率最大化。
发明内容
为解决QoS资源配置之间冲突问题,提高资源利用率,本发明提出了一种支持用户QoS感知的深度学习任务调度方法,以实现在满足用户QoS的同时,最大化数据中心集群的资源利用率的目标。
本发明包括离线任务分析评估和在线实时任务调度两个部分。离线任务评估是对用户提交的深度学习模型进行评估和分析,通过不同的应用参数配置、任务划分方法和任务放置策略来分析任务的性能,并构建离线的性能预测模型。在线实时任务调度,基于上述的性能预测模型,并实时监控系统当前的负载情况,结合用户提交的任务QoS,决定任务的执行顺序和放置策略,完成调度和执行的过程。
具体的实现方案如下:
A.与现有深度学习开发工具的兼容。用户保留现有的深度学习工具提交任务的形式不变,提交网络模型文件以及相关应用参数信息,由任务调度器进行分析和识别。计算出最优放置策略之后,由调度器直接将任务调度到指定节点和加速器上进行执行,不需要进行人工干预。
B.离线评估与性能预测模型构建。对于第一次提交的深度网络模型,分别测试不同应用参数(批次大小、迭代次数等)和不同的划分放置策略(单卡、单机多卡、多机多卡)下的任务执行性能,并基于最小二乘法构建多项式拟合的性能预测模型。对于之前离线评估过的模型,可直接从已有的模型数据库中调用构建好的性能预测模型,不需要再进行离线过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010047652.6/2.html,转载请声明来源钻瓜专利网。