[发明专利]一种适用于多租户场景的并行计算管理方法及系统在审
| 申请号: | 202010922040.7 | 申请日: | 2020-09-04 |
| 公开(公告)号: | CN111966481A | 公开(公告)日: | 2020-11-20 |
| 发明(设计)人: | 刘畅 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50 |
| 代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 李舜江 |
| 地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 适用于 租户 场景 并行 计算 管理 方法 系统 | ||
本发明提供一种适用于多租户场景的并行计算管理方法及系统,该方法包括如下步骤:S1:接收到用户提交的任务M后,解析任务M所需的硬件资源;S2:判断当前集群计算节点资源是否满足任务M所需的硬件资源;S3:判断当前内存空间是否存在优先级低于任务M的优先级的任务;S4:将当前内存空间内优先级低于任务M的优先级的任务进行迁移或挂起;执行步骤S5;S5:在各计算节点内存空间中开辟内存分区,下发并行任务M;执行步骤S6;S6:任务M结束后,判断是否立即回收内存;若是,回收内存;S7:将任务M放入等待队列,设定时间后,执行步骤S2。实现大批量任务的灵活调度,在任务结束后能够快速的资源清理与回收。
技术领域
本发明涉及计算集群管理技术领域,具体涉及一种适用于多租户场景的并行计算管理方法及系统。
背景技术
目前主流的并行计算管理系统,如Slurm,已经集成了针对用户进行计量管理的功能,具备了不同用户不同管理策略的雏形。但是,这种功能相对简单,主要实现方式是根据并行计算系统中,管理节点所在操作系统登陆的用户名,来判断能够使用的物理计算集群,以限制其能够使用的物理资源(通常以单台设备为最小单位)。
但是,在云计算与云服务飞速发展的今天,并行计算已经不仅仅局限在特定的超算中心,而是应该可以通过服务的方式向多租户同时提供服务,在这种场景下,并行计算管理系统需要做出很多改变。例如:1)计算任务不能再仅仅是传统的独占方式(在运行结束前,无法停止或者迁移),而是应该能够进行灵活的调度与迁移。2)对于不再使用服务的用户,其之前使用的物理资源应该能够得到快速的释放与清理,以迅速提供给其他用户使用。
发明内容
针对现有的并行计算管理系统中存在计算任务在运行结束前,无法停止或者迁移以及使用完成后不能即使释放清理的问题,本发明提供一种适用于多租户场景的并行计算管理方法及系统。
本发明的技术方案是:
一方面,本发明技术方案提供一种适用于多租户场景的并行计算管理方法,包括如下步骤:
S1:接收到用户提交的任务M后,解析任务M所需的硬件资源;
S2:判断当前集群计算节点资源是否满足任务M所需的硬件资源;若是,执行步骤S5;若否,执行步骤S3;
S3:判断当前内存空间是否存在优先级低于任务M的优先级的任务,若是,执行步骤S4;若否,执行步骤S7;
S4:将当前内存空间内优先级低于任务M的优先级的任务进行迁移或挂起;执行步骤S5;
S5:在各计算节点内存空间中开辟内存分区,下发并行任务M;执行步骤S6;
S6:任务M结束后,判断是否立即回收内存,若是,回收内存,若否,结束;
S7:将任务M放入等待队列,设定时间后,执行步骤S2。
进一步的,步骤S4中,将当前内存空间内优先级低于任务M的优先级的任务进行迁移或挂起的步骤包括:
S41:将当前内存空间内优先级低于任务M的优先级的任务进行迁移或挂起;多租户场景下,出现资源紧张,或者租户任务优先级不同的情况时,可能对现有任务进行迁移或者挂起,以满足更高优先级任务的执行;
S42:任务进行迁移或挂起后,获取当前集群节点资源;
S43:判断当前集群节点资源是否满足任务M所需的硬件资源,若是,执行步骤S5;若否,执行步骤S7。
进一步的,步骤S6中,任务M结束后,判断是否立即回收内存的步骤包括:
S61:任务M结束后,获取已结束任务在各个计算节点中的内存占用情况;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010922040.7/2.html,转载请声明来源钻瓜专利网。





