[发明专利]一种容器云平台GPU资源调度方法、装置及应用在审
| 申请号: | 202211128753.1 | 申请日: | 2022-09-16 |
| 公开(公告)号: | CN115454636A | 公开(公告)日: | 2022-12-09 |
| 发明(设计)人: | 毛云青;来佳飞;彭大蒙;田雨 | 申请(专利权)人: | 城云科技(中国)有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50 |
| 代理公司: | 杭州汇和信专利代理有限公司 33475 | 代理人: | 吴琰 |
| 地址: | 310052 浙江省杭州市滨江区长*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 容器 平台 gpu 资源 调度 方法 装置 应用 | ||
本申请提出了一种算法容器云平台GPU资源调度方法、装置及应用,包括以下步骤:构建一个容器云平台,使用GPU服务端对物理机中所有的GPU资源进行虚拟切割,得到GPU资源列表;当容器云平台收到资源调度请求后,生成调度列表,GPU客户端组件根据所述调度列表进行配置,配置完成后对所述容器云平台发起回应,所述容器云平台根据回应在单独的容器中部署GPU代理组件来管理每一工作服务器的GPU资源;在GPU服务端上为每一工作服务器部署监测代理组件对所述工作服务器进行监测,检测到所述工作服务器越权行为时,由对应的GPU客户端对工作服务器进行隔离。本方案可以基于整个物理机的GPU资源进行安全、统一的调度,避免了被攻击了风险。
技术领域
本申请涉及资源调度技术领域,特别是涉及一种容器云平台GPU资源调度方法、装置及应用。
背景技术
近年来随着云计算技术与容器相关技术的发展,Doker和Kubernetes技术已经成为众多企业应用交付的标准,在原生的Kubernetes容器云平台中,算法应用主要用GPU显存来运行,Nvidia官方提供了相应的GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器,无法支持复杂资源的分配。
由于Navidia关于GPU内核目前大部分处于未开源的状态,对于GPU资源共享的方式往往是通过CUDA本地劫持来实现的,CUDA本地劫持通过调用CUDA API,进而调用GPU硬件进行并行计算,libcuda.so是用户态下最终会被调用的Driver API库,它的接口公开但是实现细节闭源,通过实现一个例如libvendot-cuda.so的动态库劫持了应用程序对CUDADriver API的调用,并且把调用转发给真实的GPU原厂的libcuda.so,在转发过程中,绝大部分的API可以直接透传,而通过对少量API进行流控和修改,做到将不同的容器绑定到同一张GPU卡上,并进行相应的显存控制。综上所述,上述方案基本都是在保留官方功能的基础上,通过device-plugin插件对业务容器内注入vGPU配置参数,实现对GPU的显存和计算单元进行限制的目的,从而在一个物理GPU上模拟出多张小的vGPU卡,而且此类本地劫持CUDA方案的左、中、右三层处在同一个容器内部,而且访问权限一致,由于处在同一容器,用户完全有可能绕过中间的限制,去直接触达原生CUDA,存在被隐秘信道攻坚、侧信道攻击和内存溢出攻击的风险,同时导致容器与GPU、Nvidia插件、服务器绑定,失去了容器自动迁移,故障自愈的优越性。
而在Kubernetes集群中,采用扩展调度器(Scheduler)对这些切分后的vGPU进行调度,使不同的容器可以共享同一张物理GPU,提高GPU的利用率。
综上所述,目前现有技术实现GPU资源调度存在以下问题:1.算法容器与服务器高度绑定,仅支持单机虚拟化GPU卡,失去了容器自动迁移,故障自愈的优越性;2.存在安全问题,GPU、cuda驱动、容器在同一层,存在隐秘信道攻击、侧信道攻击和内存溢出攻击的风险。
发明内容
本申请实施例提供了一种容器云平台GPU资源调度方法、装置及应用,可以对容器云平台中的GPU资源进行合理的调度,且安全性大大提高。
第一方面,本申请实施例提供了一种容器云平台GPU资源调度方法,所述方法包括:
构建容器云平台,所述容器云平台包括信息互通的GPU控制中心、GPU客户端、GPU服务端和若干个工作服务器,所述GPU服务端获取物理机中所有的GPU资源,并对每一GPU资源进行两个资源维度的虚拟切割,得到GPU资源列表信息,所述GPU资源列表信息存储在容器云平台中,所述GPU客户端以GPU客户端组件的形式挂载在每一工作服务器上;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于城云科技(中国)有限公司,未经城云科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211128753.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能钢管压槽装置及压槽方法
- 下一篇:基于序列编解码的抗体人源化方法





