[发明专利]资源调度方法及装置有效
| 申请号: | 201910837021.1 | 申请日: | 2019-09-05 |
| 公开(公告)号: | CN110688218B | 公开(公告)日: | 2022-11-04 |
| 发明(设计)人: | 房体盈 | 申请(专利权)人: | 广东浪潮大数据研究有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/455 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟 |
| 地址: | 510620 广东省广州市天河区*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 资源 调度 方法 装置 | ||
1.一种资源调度方法,其特征在于,包括:
当接收到用户发送的资源调度请求时,确定与所述资源调度请求对应的调度请求条件,所述调度请求条件包括图形处理器GPU资源的目标GPU个数,及每个所述GPU资源对应的目标显存大小;
获取预先设置的集群资源缓存装置中预先缓存的每个计算节点的节点信息,并依据各个所述节点信息,选取满足所述调度请求条件的目标计算节点;
所述依据各个所述节点信息,选取满足所述调度请求条件的目标计算节点,包括:
获取每个所述节点信息中的GPU信息,每个所述GPU信息包括与其对应的计算节点中各个空闲GPU资源的空闲GPU个数,及每个所述空闲GPU资源对应的剩余显存大小;
依据每个所述GPU信息中每个所述空闲GPU资源的剩余显存大小,确定每个所述计算节点中的总剩余显存大小,并依据所述调度请求条件计算与所述资源调度请求对应的总目标显存大小;
依据每个所述计算节点对应的空闲GPU个数及总剩余显存大小,从各个所述计算节点中,确定空闲GPU个数不小于所述目标GPU个数,且总剩余显存大小不小于所述总目标显存大小的第一候选计算节点;
获取每个所述第一候选计算节点的节点信息中包含的各个空闲GPU资源的绑定信息;
依据每个所述第一候选计算节点对应的绑定信息,从各个所述第一候选计算节点中,选取各个所述空闲GPU资源未绑定在同一物理卡上的第二候选计算节点;
将每个所述第二候选计算节点按照与其对应的空闲GPU个数,及总剩余显存大小由小至大进行排序,并依次选取每个所述第二候选计算节点,判断每个所述第二候选计算节点中每个所述空闲GPU资源对应的剩余显存大小,是否满足所述调度请求条件中每个所述GPU资源对应的目标显存大小;
若当前选取的第二候选计算节点中每个所述空闲GPU资源对应的剩余显存大小,满足所述调度请求条件中每个所述GPU资源对应的目标显存大小,则确定所述当前选取的第二候选计算节点为目标计算节点;
在所述目标计算节点中创建与所述资源调度请求对应的容器docker,将所述目标计算节点与所述docker进行绑定,并将所述目标计算节点中的各个空闲GPU资源挂载至所述docker中,以使所述docker在所述目标计算节点中调用各个所述空闲GPU资源,完成与所述资源调度请求对应的资源调度任务;
所述将所述目标计算节点与所述docker进行绑定后,还包括:获取所述目标计算节点对应的学习训练模型,并将所述目标计算节点中的docker及各个所述空闲GPU资源输入所述学习训练模型,以使所述学习训练模型依据所述docker及各个所述空闲GPU资源进行学习训练。
2.根据权利要求1所述的方法,其特征在于,所述集群资源缓存装置缓存每个计算节点的节点信息的过程,包括:
设置与各个所述计算节点对应的监控周期,并调用预先设置的各个资源上报装置依据所述监控周期分别监控各个所述计算节点,获得每个所述资源上报装置反馈的每个所述计算节点的节点信息;
将各个所述节点信息发送至所述集群资源缓存装置,触发所述集群资源缓存装置缓存每个所述计算节点的节点信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东浪潮大数据研究有限公司,未经广东浪潮大数据研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910837021.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:资源释放方法及装置
- 下一篇:基于反向混沌布谷鸟搜索的自适应权重负载均衡算法





