[发明专利]分配集群计算资源的方法、装置、电子设备和存储介质在审
申请号: | 202110268227.4 | 申请日: | 2021-03-12 |
公开(公告)号: | CN112860440A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 吕冬冬;刘青松;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司;深圳云知声信息技术有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06T1/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分配 集群 计算 资源 方法 装置 电子设备 存储 介质 | ||
本发明涉及一种分配集群计算资源的方法、装置、电子设备和存储介质,该方法包括:通过获取第一时间段内集群的任务相关事件;基于所述第一时间段内集群的任务相关事件确定第一时间段内集群的计算资源使用信息;基于所述集群计算资源使用信息确定预设时间段内需要的计算资源,分配所述计算资源。本申请实施例中计算资源的分配情况是根据第一时间段内的使用情况预测出来的,能够自适应用户的任务,预设时间段内灵活自动配额,减少了管理员的工作,并且能够驱动用户本身去提高自己计算资源的使用情况,从而有效的提高了整个集群的资源利用率。
技术领域
本发明涉及计算资源分配技术领域,具体涉及一种分配集群计算资源的方法、装置、电子设备和存储介质。
背景技术
目前,大部分集群的计算资源的管理都是按固定的数量分配给每个人,无法根据实际的使用情况变化,用户在任务训练不多的情况下就存在计算资源的浪费现象;用户训练任务的时候没有充分利用计算资源,例如虽然用了多卡训练但是每张卡的利用率都很低,造成了整个集群的资源浪费。
发明内容
本发明提供一种分配集群计算资源的方法、装置、电子设备和存储介质,能够解决上述集群的资源浪费的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明实施例提供了一种分配集群计算资源的方法,包括:
获取第一时间段内集群的任务相关事件;
基于所述第一时间段内集群的任务相关事件确定第一时间段内集群的计算资源使用信息;
基于所述第一时间段内集群计算资源使用信息确定预设时间段内需要的计算资源,分配所述计算资源。
在一些实施例中,上述任务相关事件至少包括:事件的时间戳,任务提交者的命名空间以及任务的用户身份证明信息;
所述计算资源使用信息至少包括:每个用户在预设时间内提交任务的数量,使用的图形处理器GPU总量,以及第一时间段内任务的图形处理器GPU利用率。
在一些实施例中,基于第一时间段内集群计算资源使用信息确定预设时间段内需要的计算资源,分配所述计算资源,包括:
根据算法确定分配所述计算资源,Ci为T时间段内用户第i个任务的所有图形处理器GPU利用率的总量,ti为第i个任务的耗时,N为用户第一时间段为用户分配的图形处理器GPU总量,T为第一时间段,
当X大于第一预设阈值时,确定需要增加的图形处理器GPU总量,预设时间段内增加分配图形处理器GPU总量;
当X大于第二预设阈值小于第一预设阈值时,预设时间段内分配的图形处理器GPU总量与第一时间段内的图形处理器GPU总量相等;
当X小于第二预设阈值时,确定需要减少的图形处理器GPU总量,预设时间段内减少分配图形处理器GPU总量。
在一些实施例中,上述方法还包括:
获取集群中所有的用户以及每个用户预设时间段内的图形处理器GPU总量,
自动设置每个用户预设时间段内的图形处理器GPU总量。
在一些实施例中,上述方法还包括:
接收到查询操作时,显示所述第一时间段内集群计算资源使用信息。
第二方面,本发明实施例提供了一种分配集群计算资源的装置,包括:
获取模块:获取第一时间段内集群的任务相关事件;
第一确定模块:用于基于所述第一时间段内集群的任务相关事件确定集群第一时间段内的计算资源使用信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;深圳云知声信息技术有限公司,未经云知声智能科技股份有限公司;深圳云知声信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110268227.4/2.html,转载请声明来源钻瓜专利网。