[发明专利]基于容器的资源调度方法、装置及容器集群管理装置有效
申请号: | 202010014982.5 | 申请日: | 2020-01-07 |
公开(公告)号: | CN113157428B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 车漾;张凯;徐晓舟 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/455 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 唐博;刘铁生 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 容器 资源 调度 方法 装置 集群 管理 | ||
本发明实施例提供一种基于容器的资源调度方法、装置及容器集群管理装置,该方法包括:接收资源申请信息,所述资源申请信息用于请求分配用于运行第一应用的资源;基于所述资源申请信息调用资源管理组件;通过所述资源管理组件控制所述第一应用的资源使用量小于或等于所述第一应用可使用的资源上限值。本发明实施例用于解决多个应用容器共享资源时超出资源使用上限导致无法正常运行的问题。
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于容器的资源调度方法、装置及容器集群管理装置。
背景技术
目前主流的容器集群都支持图形处理器(Graphics Processing Unit,GPU)调度,但是由于部分GPU不支持显存级别的限制和隔离,所以容器集群调度器对于GPU的调度模式都是以GPU为单位调度的独享模式。虽然以GPU为单位调度可以保证应用的高可用性,但很多场景中单个容器对GPU的显存使用量并不大,单个容器无需单独占用整个GPU,因此容器集群对容器共享GPU的需求非常强烈。
当前有的方案支持在调度时刻根据应用申请的显存将多个容器调度到同一个GPU上,但由于各个应用实际使用的显存可能会大于申请的显存,因此当容器集群管理系统将多个容器调度到同一个GPU运行时,调度到同一GPU的容器要使用的显存的总量可以能会大于GPU的显存总量,导致内存溢出(OutOfMemory)而无法正常运行。
发明内容
有鉴于此,本发明实施例提供一种基于容器的资源调度方法、装置及容器集群管理装置,用于解决多个应用容器共享资源时超出资源使用上限导致无法正常运行的问题。
为了实现上述目的,本发明实施例提供技术方案如下:
第一方面,本发明实施例提供一种基于容器的资源调度方法,包括:
接收资源申请信息,所述资源申请信息用于请求分配用于运行第一应用的资源;
基于所述资源申请信息调用资源管理组件;
通过所述资源管理组件控制所述第一应用的资源使用量小于或等于所述第一应用可使用的资源上限值。
作为本发明实施例一种可选的实施方式,所述通过所述资源管理组件控制所述第一应用的资源使用量小于或等于所述第一应用可使用的资源上限值,包括:
通过所述资源管理组件获取所述第一应用依赖的深度学习框架;
根据所述深度学习框架,确定所述第一应用的资源控制方式;
基于所述资源控制方式,控制所述第一应用的资源使用量小于或等于所述第一应用可使用的资源上限值。
作为本发明实施例一种可选的实施方式,所述基于所述资源控制方式,控制所述第一应用的资源使用量小于或等于所述第一应用可使用的资源上限值,包括:
在所述资源控制方式的环境变量中引入可分配用于运行所述第一应用的资源总量和所述第一应用可使用的资源上限值;
根据所述资源控制方式控制所述第一应用的资源使用量与所述资源总量的比值小于或等于所述第一应用可使用的资源上限值与所述资源总量的比值。
作为本发明实施例一种可选的实施方式,所述方法还包括:
根据所述资源申请信息中携带的资源申请量,配置所述第一应用可使用的资源上限值。
作为本发明实施例一种可选的实施方式,所述资源申请信息用于请求分配用于运行第一应用的第一处理器的资源;
其中,所述第一处理器用于部署所述第一应用对应的第一应用容器和至少一个第二应用对应的第二应用容器。
作为本发明实施例一种可选的实施方式,在基于所述资源申请信息调用资源管理组件之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010014982.5/2.html,转载请声明来源钻瓜专利网。