[发明专利]一种面向分布式深度学习训练任务的高效资源分配系统有效
申请号: | 202110487973.2 | 申请日: | 2021-05-06 |
公开(公告)号: | CN113190351B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 李方舒;赵来平;曲雯毓 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 天津市三利专利商标代理有限公司 12107 | 代理人: | 张义 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 分布式 深度 学习 训练 任务 高效 资源 分配 系统 | ||
本发明公开了一种面向分布式深度学习训练任务的高效资源分配系统,包括:初始资源配置模块;LAS队列;二分类器;性能模型;多级反馈队列MLFQ,首先将分布式深度学习作业分为可预测作业和不可预测作业,并对两类作业设置不同的作业优先级和资源调整方案。针对于可预测作业,资源调整的收益往往是可以预测的,因此每次调整都可以给集群带来收益。而不可预测作业,其收益往往不可知。此外,可预测作业和不可预测作业的优先级计算方式不同,可预测作业综合考虑资源调整和剩余作业完成时间来计算优先级,而不可预测作业通过已接受服务数来计算优先级。为了统一两类作业在集群中的统一调度,我们采用波达计数法来解决该问题。
技术领域
本发明属于云计算技术领域,特别涉及大型云计算集群下分布式训练任务的预测、调度和资源分配,具体涉及一种面向分布式深度学习训练任务的高效资源分配系统。
背景技术
近几年来,深度学习模型的参数规模和复杂度迅速增长。例如,GPT-2、Turing NLG和GPT-3等自然语言处理模型的参数数量分别从1.5亿个参数增加到了17亿和175亿个参数。此外,Facebook的模型参数复杂度在过去的两年中也增加了两倍。这些超大规模的模型数量将会导致较高的训练费用。例如使用Tesla V100云实例训练一次GPT-3的成本超过460万美元,如此高的成本严重限制了研究进展。因此,如何提高云计算集群的训练效益和资源利用率,是资源管理面临的一个重要挑战。
现有的工作对训练效益的提升方法主要分为两类:动态优先级调度和动态资源分配。动态作业优先级调度为每个作业分配一个随时间变化的优先级,并按照作业当前的优先级来调度作业。该方法类似于最少获得服务数(LAS)算法的调度算法,它可以保证短作业具有较高优先级,优先被调度。但是,由于作业的运行时资源是固定的,该方法反而降低了集群资源利用率。动态资源分配方法不改变作业的优先级,而是根据作业运行时的资源需求和集群变化的资源可用性来调整超参数或资源分配。一旦资源配置发生了变化,这些作业往往依赖于一个预测模型来预测作业的训练效益。然而,较差的预测精度,特别是对非收敛模型,会导致整体训练性能的降低。
发明内容
本发明的目的是提供一种面向分布式深度学习训练任务的高效资源分配系统,旨在解决大型分布式深度学习集群下的资源利用低效问题,通过对分布式深度学习任务的预测、调度和资源调整,最小化平均作业完成时间和提升集群资源利用率。
为实现本发明的目的,本发明提供的一种面向分布式深度学习训练任务的高效资源分配系统,包括:
初始资源配置模块,其用于为训练作业分配一个初始资源配置;
LAS队列,其用于将作业按照获得服务数升序排序;
二分类器,其用于识别LAS队列单元内的不可预测作业是否转变为可预测作业;
性能模型,其用于该模型可以估计作业的作业完成时间JCT;
正效益队列和负效益队列,其用于分别放置JCT增加或减少的作业;
多级反馈队列MLFQ,其用于针对可预测LAS队列、不可预测LAS队列、正效益队列和负效益队列,基于波达计数的队列融合策略,将这四个队列结合起来,生成一个综合考虑多个因素的多级反馈队列;
资源分配调整单元,其用于根据MLFQ队列调整对所有作业的资源分配。
其中,
以每个作业的5个指标作为输入来设计二分类器,其中5个指标包括最大完工时间、精度、损失值、吞吐量和是否重新提交,二分类器采用机器学习算法来识别可预测作业。
其中,
所述二分类器使用K邻近、逻辑回归、随机森林回归、支持向量机、多层感知机MLP时的准确率结果。
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110487973.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于纸张均匀化脱酸的保护方法
- 下一篇:一种养老院智能床监控系统