[发明专利]一种集群GPU资源调度系统在审
申请号: | 202110233043.4 | 申请日: | 2021-02-23 |
公开(公告)号: | CN113076191A | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 李健 | 申请(专利权)人: | 北京蓝耘科技股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 集群 gpu 资源 调度 系统 | ||
本发明公开了一种集群GPU资源调度系统,包括GPU主节点以及若干个GPU子节点,GPU主节点包括:任务接收模块,用于接收用户输入的任务;任务划分模块,用于将任务接收模块接收到的任务划分为若干个子任务;资源监视模块,用于实时监视所有GPU子节点的空闲率,将空闲率满足要求的GPU子节点作为可用GPU子节点,并测量可用GPU子节点与GPU主节点之间的路径长度和通信速率,使路径长度以及通信速率满足要求的所有可用GPU子节点形成GPU调度子集合;以及资源调度模块,用于将若干个子任务分配到GPU调度子集合中的若干个可用GPU子节点上,以供可用GPU子节点执行子任务。充分利用了GPU资源的并行计算能力,能够完成大型的复杂任务的快速并行处理。
技术领域
本发明涉及云计算的技术领域,具体来说,涉及一种集群GPU资源调度系统。
背景技术
近年来,图形处理器(GPU)在硬件架构上已取得持续的高速发展,已经演变为拥有强大的计算能力的高度并行、多线程及多处理核心的处理器,它采用不同于中央处理器的单指令多线程体系结构,增加了编程的灵活性。GPU专用于解决可表示为数据并行计算的问题,即绝大部分数据元素具有相同的数据路径,而具有极高的计算密度,这样可隐藏存储器访问延迟。凭借其强大的计算能力,GPU并行技术对传统的CPU应用发起了强有力的冲击,其已被广泛运用于视频转码、物理模拟、地球表层测绘以及网络安全等热门研究领域。
如何充分利用GPU的并行计算能力来解决复杂运算的问题,已经成为当今GPU技术的研究热点之一。然而在实际应用中,单个GPU往往无法承载复杂的计算任务,因此需要将多个GPU组成一个GPU集群,以完成复杂的计算任务,现有技术中通常采用基于单主机多GPU卡的调度方式对资源进行调度以完成复杂的计算任务,但是该方式存在计算能力有限且扩展性差等缺点。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种集群GPU资源调度系统,可解决上述现有技术中的不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种集群GPU资源调度系统,包括GPU主节点以及若干个GPU子节点,所述GPU主节点包括:
任务接收模块,用于接收用户输入的任务;
任务划分模块,用于将任务接收模块接收到的所述任务划分为若干个子任务;
资源监视模块,用于实时监视所有GPU子节点的空闲率,将所述空闲率满足要求的所述GPU子节点作为可用GPU子节点,并测量所述可用GPU子节点与所述GPU主节点之间的路径长度和通信速率,使所述路径长度以及所述通信速率满足要求的所有所述可用GPU子节点形成GPU调度子集合;以及
资源调度模块,用于将若干个子任务分配到所述GPU调度子集合中的若干个所述可用GPU子节点上,以供所述可用GPU子节点执行所述子任务。
进一步地,所述GPU主节点还包括集群初始化模块,用于对所述GPU主节点以及所述GPU子节点进行初始化。
进一步地,所述资源调度模块还用于评估各所述子任务的优先级以及所述GPU调度子集合中各所述可用GPU子节点的计算能力,并根据所述优先级为各所述子任务指定对应计算能力的所述可用GPU子节点。
进一步地,所述GPU子节点包括:
子任务接收模块,用于接收所述资源调度模块分配的所述子任务;
子任务执行模块,用于对所述子任务接收模块接收的所述子任务进一步细分,为所述GPU子节点的每个流处理器分配子任务细块,并行执行各所述子任务细块;
结果返回模块,用于将所述GPU子节点的子任务计算结果返回给所述GPU主节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京蓝耘科技股份有限公司,未经北京蓝耘科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110233043.4/2.html,转载请声明来源钻瓜专利网。