[发明专利]一种集群GPU资源调度系统在审
申请号: | 202110233043.4 | 申请日: | 2021-02-23 |
公开(公告)号: | CN113076191A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 李健 | 申请(专利权)人: | 北京蓝耘科技股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 集群 gpu 资源 调度 系统 | ||
1.一种集群GPU资源调度系统,包括GPU主节点以及若干个GPU子节点,其特征在于,所述GPU主节点包括;
任务接收模块,用于接收用户输入的任务;
任务划分模块,用于将任务接收模块接收到的所述任务划分为若干个子任务;
资源监视模块,用于实时监视所有GPU子节点的空闲率,将所述空闲率满足要求的所述GPU子节点作为可用GPU子节点,并测量所述可用GPU子节点与所述GPU主节点之间的路径长度和通信速率,使所述路径长度以及所述通信速率满足要求的所有所述可用GPU子节点形成GPU调度子集合;以及
资源调度模块,用于将若干个子任务分配到所述GPU调度子集合中的若干个所述可用GPU子节点上,以供所述可用GPU子节点执行所述子任务。
2.根据权利要求1所述的集群GPU资源调度系统,其特征在于,所述GPU主节点还包括集群初始化模块,用于对所述GPU主节点以及所述GPU子节点进行初始化。
3.根据权利要求1所述的集群GPU资源调度系统,其特征在于,所述资源调度模块还用于评估各所述子任务的优先级以及所述GPU调度子集合中各所述可用GPU子节点的计算能力,并根据所述优先级为各所述子任务指定对应计算能力的所述可用GPU子节点。
4.根据权利要求3所述的集群GPU资源调度系统,其特征在于,所述GPU子节点包括:
子任务接收模块,用于接收所述资源调度模块分配的所述子任务;
子任务执行模块,用于对所述子任务接收模块接收的所述子任务进一步细分,为所述GPU子节点的每个流处理器分配子任务细块,并行执行各所述子任务细块;
结果返回模块,用于将所述GPU子节点的子任务计算结果返回给所述GPU主节点;
信息发送模块,用于向所述资源调度模块发送所述GPU子节点的ID号和计算能力。
5.根据权利要求4所述的集群GPU资源调度系统,其特征在于,所述GPU主节点还包括:
结果处理模块,用于接收处理各所述GPU子节点返回的所述子任务计算结果;
资源回收模块,用于根据所述结果处理模块返回的任务执行结果,回收已完成所述子任务的GPU子节点。
6.根据权利要求1所述的集群GPU资源调度系统,其特征在于,所述资源监视模块包括:
空闲率监视模块,用于实时监视所有所述GPU子节点的空闲率;
路径测量模块,用于测量所述可用GPU子节点与所述GPU主节点之间的路径长度;
速率测量模块,用于测量所述可用GPU子节点与所述GPU主节点之间的通信速率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京蓝耘科技股份有限公司,未经北京蓝耘科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110233043.4/1.html,转载请声明来源钻瓜专利网。