[发明专利]一种基于共享式GPU的分布式容器调度方法及其系统在审
| 申请号: | 202110264399.4 | 申请日: | 2021-03-11 |
| 公开(公告)号: | CN112925611A | 公开(公告)日: | 2021-06-08 |
| 发明(设计)人: | 张登银;李俊江;刘子捷;程义;寇英杰;朱虹;严伟丹 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06F9/455 | 分类号: | G06F9/455;G06F9/50 |
| 代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 210012 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 共享 gpu 分布式 容器 调度 方法 及其 系统 | ||
本发明公开了一种基于共享式GPU的分布式容器调度方法及其系统,旨在解决多样化的云计算业务中容器调度不合理、GPU资源利用率低下的技术问题。所述方法包括:实时监听并校验对新的容器:利用校验成功的容器更新容器调度队列;按顺序从容器调度队列中读取待调度容器,并根据容器的GPU标签从集群中选出待调度容器对应的最佳节点;将待调度容器调度到最佳节点上,完成分布式容器调度。本发明能够针对待调度容器的需求选择最适配的节点进行容器调度,保证集群内部节点的负载均衡,提高集群的资源利用率。
技术领域
本发明涉及一种基于共享式GPU的分布式容器调度方法及其系统,属于云计算技术领域。
背景技术
由于云计算的发展,采用Kubernetes(管理云平台中多个主机上的容器化的应用)可以极大的提升服务器集群中资源利用率。然而随着云计算业务的多样化、复杂化,同时使用容器搭配GPU以提升业务和工作流的性能和效率已经成为了边缘计算和大型分布式机器学习的计算搭配主力,而现有的分布式容器调度器大部分仅仅能基于CPU和内存指标调度容器任务,或者只能简单检测GPU数量而不能检测显卡细颗粒的性能指标来实现GPU共享,现有的分布式容器调度器无法适配各种复杂场景的计算需求,导致有特定GPU需求的容器被调度在非适配节点上运行,使得整个分布式集群的GPU资源利用率低下,影响整个分布式集群性能。
在云计算领域,应用GPU的业务和工作流逐渐多样化,如云游戏、机器学习训练,这将会给针对GPU资源的调度带来更多的挑战,分布式集群的容器调度需要基于当前集群内的GPU指标状态合理调度容器,否则会导致整个分布式集群内部任务分配不均衡,影响GPU资源调度结果,间接造成分布式集群运算效率的低下。
发明内容
为了解决多样化的云计算业务中容器调度不合理、GPU资源利用率低下的问题,本发明提出了一种基于共享式GPU的分布式容器调度方法及其系统,实现对容器创建事件的监听、容器调度队列生成和容器调度,本发明能够针对待调度容器的需求选择最适配的节点进行容器调度,保证集群内部节点的负载均衡,提高集群的资源利用率。
为解决上述技术问题,本发明采用了如下技术手段:
第一方面,本发明提出了一种基于共享式GPU的分布式容器调度方法,包括如下步骤:
实时监听Kubernetes API-Server中的容器创建事件,并在监测到新的容器创建事件后,对创建的容器进行校验;
利用校验成功的容器更新容器调度队列;
当容器调度队列不为空时,按顺序从容器调度队列中读取待调度容器,并从Kubernetes集群中选出待调度容器对应的最佳节点,生成容器调度二元组;
根据容器调度二元组将待调度容器调度到最佳节点上,完成分布式容器调度。
结合第一方面,进一步的,对创建的容器进行校验的方法为:
根据创建的容器的字段信息进行GPU标签校验:判断容器是否包含GPU标签,当容器不包含GPU标签,则GPU标签校验失败,将校验失败时间和对应的错误信息写入Kubernetes事件日志,否则GPU标签校验成功,其中,所述GPU标签包括GPU数量标签、GPU显存标签、GPU时钟频率标签;
当GPU标签校验成功,根据创建的容器的字段信息进行调度器名称校验:判断容器的调度器字段是否为系统调度器名称,当调度器字段不是系统调度器名称,则调度器名称校验失败,将校验失败时间和对应的错误信息写入Kubernetes事件日志,否则,调度器名称校验成功,完成容器校验。
结合第一方面,进一步的,利用校验成功的容器更新容器调度队列的方法为:
将校验成功的容器从队尾送入容器调度队列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110264399.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于多尺度选择反馈网络的真实图像去噪方法
- 下一篇:一种移动喷灌吊具





