[发明专利]一种面向分布式深度学习训练任务的高效资源分配系统有效
申请号: | 202110487973.2 | 申请日: | 2021-05-06 |
公开(公告)号: | CN113190351B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 李方舒;赵来平;曲雯毓 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 天津市三利专利商标代理有限公司 12107 | 代理人: | 张义 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 分布式 深度 学习 训练 任务 高效 资源 分配 系统 | ||
1.一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,包括:
初始资源配置模块,其用于为训练作业分配一个初始资源配置;
LAS队列,其用于将作业按照获得服务数升序排序;
二分类器,其用于识别LAS队列单元内的不可预测作业是否转变为可预测作业;
性能模型,其用于估计作业的作业完成时间JCT;
正效益队列和负效益队列,其用于分别放置JCT增加或减少的作业;
多级反馈队列MLFQ,其用于针对可预测LAS队列、不可预测LAS队列、正效益队列和负效益队列,基于波达计数的队列融合策略,将这四个队列结合起来,生成一个综合考虑多个因素的多级反馈队列;
资源分配调整单元,其用于根据MLFQ队列调整对所有作业的资源分配。
2.根据权利要求1所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,以每个作业的5个指标作为输入来设计二分类器,其中5个指标包括最大完工时间、精度、损失值、吞吐量和是否重新提交,二分类器采用机器学习算法来识别可预测作业。
3.根据权利要求1所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
所述二分类器使用K邻近、逻辑回归、随机森林回归、支持向量机、多层感知机MLP时的准确率结果。
4.根据权利要求3所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
采用组合子模型策略来预测作业的剩余步骤数目si和步骤处理速度qi,使用ci表示作业的完成时间,上述三个因子具有以下函数关系:
其中si和qi分别代表作业i的剩余训练步骤数和单个步骤的处理速度。
5.根据权利要求4所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
所述组合子模型包括用于在参数服务器系统中,对一批输入数据的进行处理,包括前向传播、后向传播、数据传输、模型更新、数据拉取的速度模型。
6.根据权利要求5所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
所述组合子模型包括用于来描述每个可预测作业的收敛速度的步数模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110487973.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于纸张均匀化脱酸的保护方法
- 下一篇:一种养老院智能床监控系统