[发明专利]GPU集群调度策略模拟方法及GPU集群模拟器在审
申请号: | 202110690973.2 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113504966A | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 周悦媛;章家维;杨康;邵恩;谭光明 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F9/455 | 分类号: | G06F9/455 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | gpu 集群 调度 策略 模拟 方法 模拟器 | ||
1.一种GPU集群调度策略模拟方法,其特征在于,包括:
获取模拟GPU集群的集群参数、拟执行的工作负载及对应的调度策略;
基于该调度策略,获取该工作负载完成无故障运行的预测时间;
根据该集群参数和该预测时间,设定该模拟GPU集群的模拟故障参数;
以该调度策略及该模拟故障参数进行该工作负载的故障工作模拟,获取该工作负载在故障工作状态时的运行数据。
2.如权利要求1所述的GPU集群调度策略模拟方法,其特征在于,设定该模拟故障参数的步骤包括:
从该模拟GPU集群模拟器的M个GPU资源中,选出D个模拟故障资源;
对于该模拟故障资源中的任一GPU资源d,设定d在(0,Tpre]范围出现N次故障,第i次故障的开始时间为Esi,持续时间为Eli,并满足∑iEli=Pd*Tpre,El1,El2,...,ElN为正整数序列;以故障次数N及所有故障的开始时间、持续时间,作为d的模拟故障参数;
遍历所有该模拟故障资源,以所有该模拟故障资源的模拟故障参数,作为该模拟GPU集群的模拟故障参数;
其中,Tpre为该预测时间,Pd为d在1个时间粒度内发生故障的概率,D、M、N、i为正整数,0<D≤M,i∈[1,N]。
3.如权利要求1所述的GPU集群调度策略模拟方法,其特征在于,设定GPU集群的模拟故障参数的步骤包括:
从该GPU集群模拟器的M个GPU资源中,选出D个模拟故障资源;
对于该模拟故障资源中的任一GPU资源d,于(0,Tpre]范围选取K个随机判定时刻t,在每个t时刻对d以指数随机分布参数λ进行GPU故障随机判定,获取所有判定出现GPU故障的时刻,得到d于(0,Tpre]范围内出现的故障次数N,以及每次故障的发生时间,作为d的模拟故障参数;
遍历所有该模拟故障资源,以所有该模拟故障资源的模拟故障参数,作为该模拟GPU集群的模拟故障参数;
其中,Tpre为该预测时间,s为故障常数,表示每s个时间粒度内d的故障发生概率为Pd,随机判定时刻tk=t1+(k-1)*recover_time,且满足第K个随机判定时刻tK处于(0,Tpre]范围内,t1为第1个随机判定时刻,recover_time为后移时间参数,D、M、N、K、k、s为正整数,0<D≤M,N≤K,k∈[1,K]。
4.如权利要求1所述的GPU集群调度策略模拟方法,其特征在于,还包括:以该运行数据生成对应该工作负载的调度策略指标;
其中,该运行数据包括:该工作负载中每个作业的开始执行时间、中断或结束时间、使用的GPU资源以及停止原因。
5.如权利要求1所述的GPU集群调度策略模拟方法,其特征在于,该调度策略包括:
第一必须策略,用于决定该GPU集群模拟器的等待队列中该工作负载的作业的执行顺序;
第二必须策略,用于对正在调度的作业分配运行资源;
第一非必须策略,用于决定执行作业中断后是否立即重启;
第二非必须策略,用于决定执行任一作业过程中被其他作业抢占而中断后,是否转而执行另一个抢占作业;
第三非必须策略,用于在运行资源不足导致当前执行的作业阻塞等待时,决定是否调度执行其他作业。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110690973.2/1.html,转载请声明来源钻瓜专利网。