[发明专利]GPU集群调度策略模拟方法及GPU集群模拟器在审

申请号：	202110690973.2	申请日：	2021-06-22
公开（公告）号：	CN113504966A	公开（公告）日：	2021-10-15
发明（设计）人：	周悦媛;章家维;杨康;邵恩;谭光明	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F9/455	分类号：	G06F9/455
代理公司：	北京律诚同业知识产权代理有限公司 11006	代理人：	祁建国
地址：	100080 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	gpu 集群调度策略模拟方法模拟器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种GPU集群调度策略模拟方法，包括：获取模拟GPU集群的集群参数、拟执行的工作负载及对应的调度策略；基于该调度策略，获取该工作负载完成无故障运行的预测时间；根据该集群参数和该预测时间，设定该模拟GPU集群的模拟故障参数；以该调度策略及该模拟故障参数进行该工作负载的故障工作模拟，获取该工作负载在故障工作状态时的运行数据。本发明还提出一种GPU集群模拟器，及一种实现GPU集群调度策略模拟数据处理装置。

技术领域

本发明涉及并行计算技术领域，特别是涉及一种GPU集群调度策略模拟方法及GPU集群模拟器。

背景技术

近年来，以深度学习为代表的AI技术取得了突破性的进展，在计算机视觉、机器学习、自然语言处理、机器人技术方面取得了巨大的进步，深刻改变了我们的生活。从1956年达特茅斯会议提出AI开始，其研究热度经历了多次的浮沉，才到现如今的大力发展，这主要得益于硬件设备的进步。AI中最重要的是深度学习技术，该技术通常分为训练和推理两个阶段。训练阶段是利用大量数据作为学习样本，送入神经网络供其学习；推理阶段是指训练完成之后的使用阶段。不论是在训练阶段还是推理阶段都是在特定设备上进行的。通常训练阶段会耗费大量的时间和硬件资源，因此在分布式GPU集群中完成训练是目前工业界最常用的方式，其中GPU是用于计算加速的专用设备。而推理阶段虽然单次运行时间短且对硬件资源的要求没有训练过程高，但推理阶段往往是具有长时效应的持续性工作，目前最常见的推理是运行在云服务商提供的云计算服上，而云计算服务通常也是由GPU服务器集群构成的。可见，AI技术的运用离不开GPU集群。

GPU集群作为一个应AI而生的新型集群，许多技术都是从CPU集群中迁移或借鉴而来的。其中，当前主流的GPU集群调度策略也是基于或直接沿用CPU集群的调度策略，如负载均衡策略。但是GPU集群的作业调度和CPU集群的作业调度策略根据优化指标的不同还是有一定差别的。CPU调度中最主要的是把作业分成两类，一类是需要快速响应的交互式作业，另一类是耗时较长的计算作业。因此在对CPU调度时着重考虑的是优化交互式作业的响应时间和计算作业的最大完成时间。而GPU作业的分类方式有所不同：在训练阶段，作业耗时长因而所有作业的响应时间都不会被作为最主要的优化指标；在推理阶段，作业的响应时间通常是最重要的指标，甚至实时应用中还会有最大响应时间的限制。因此直接沿用CPU集群的调度算法对GPU集群中作业的响应时间、完成时间、集群的资源利用率等方面都不一定能用户需求，专门针对GPU集群的调度策略的研究开展是非常必要的。

对GPU集群调度技术的研究往往是非常耗时的，特别是在针对训练阶段的调度策略研究。为了解决原型系统运行作业耗时过长这个问题，GPU集群模拟器应运而生。目前对GPU集群调度策略进行模拟的模拟器主要是模拟两种情景：1)绝对理想情景模拟：只模拟理想环境下GPU集群中作业的运行情况，既不考虑集群中内存大小、磁盘I/O大小、网络带宽等硬件瓶颈，也不考虑作业自身随时间的变化、作业和作业之间的相互影响；2)作业互斥性模拟：在绝对理想情景之上，增加对作业和作业之间相互影响的模拟，能够一定程度上反应硬件瓶颈的问题，与绝对理想情景相比更接近真实情况。

现实GPU集群中的作业执行情况除了与上述所讲的作业互斥性有关外，还和其他与GPU相关的属性有关，例如GPU稳定性。GPU作为一个新兴事物，其稳定性不能与CPU相提并论。在GPU集群中，平均每个作业都会有一次出错重启，作业的失败(根据重启策略重启后仍然不能正常执行)率高达37％。图1是集群故障导致作业完成时间延长示意图。图1所示，作业Job原本完成时刻为T，但集群每次故障都需要一定时间恢复，图1中黑色方块即为资源浪费部分，最终使作业完成时间T1远超T。因此，GPU稳定性即故障情况的模拟也是GPU集群调度策略模拟器必须要具备的功能，而现有相关模拟器却都不具备这样的模拟能力。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所，未经中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110690973.2/2.html，转载请声明来源钻瓜专利网。

上一篇：一种钢混组合梁预制桥面板新型分布式小孔槽
下一篇：高尔夫挥杆视频调用方法及其系统、计算机可读取介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]GPU集群调度策略模拟方法及GPU集群模拟器在审

专利文献下载