[发明专利]基于AI平台的GPU资源调度方法、装置及介质有效

申请号：	202011042445.8	申请日：	2020-09-28
公开（公告）号：	CN112131007B	公开（公告）日：	2023-02-21
发明（设计）人：	薛长青;刘强;于洪真	申请（专利权）人：	山东浪潮科学研究院有限公司
主分类号：	G06F9/50	分类号：	G06F9/50
代理公司：	济南信达专利事务所有限公司 37100	代理人：	潘悦梅
地址：	250100 山东省济***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 ai 平台 gpu 资源调度方法装置介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于AI平台的GPU资源调度方法、装置及介质，属于GPU资源调度技术领域，要解决的技术问题GPU资源调度技术领域。该方法包括如下步骤：对实际的GPU资源进行资源均分，在每个均分的GPU资源上均安装Docker；设置Docker服务资源表和Docker服务队列表；监控到有深度学习任务提交时，获取空闲的Docker服务资源执行深度学习任务，或者，插入Docker服务队列表排队以等待空闲的Docker服务资源；同时，通过定时任务监听Docker服务资源的释放。装置包括处理器，处理器用于调用机器可读程序，执行上述方法。介质，上存储有计算机指令，在被处理器执行时，使处理器执行上述方法。

技术领域

本发明涉及GPU资源调度技术领域，具体地说是基于AI平台的GPU资源调度方法、装置及介质。

背景技术

在AI(英文全称为Artificial Intelligence，中文翻译为人工智能)时代，算法工程师需要进行大量深度学习任务，通常使用Docker容器来作为训练环境，使用昂贵的图形处理器GPU卡能显著提高训练速度，当算法工程师需要使用GPU资源时，就需要GPU资源的分配，如何最大限度的将闲置的GPU资源全部利用起来就是一个需要面临解决的问题。

发明内容

本发明的技术任务是针对以上不足，提供基于AI平台的GPU资源调度方法、装置及介质，来解决如何最大限度的将闲置的GPU资源全部利用起来的问题。

第一方面，本发明提供一种基于AI平台的GPU资源调度方法，包括如下步骤：

对实际的GPU资源进行资源均分，在每个均分的GPU资源上均安装Docker，每个Docker内均安装TensorFlow，TensorFlow对外提供服务地址；

设置Docker服务资源表、Docker服务队列表和训练结果表，并初始化Docker服务资源表，所述Docker服务资源表中定义有资源服务，资源状态默认为空闲；

监控到有深度学习任务提交时，获取空闲的Docker服务资源执行深度学习任务，或者，插入Docker服务队列表排队以等待空闲的Docker服务资源；同时，通过定时任务监听Docker服务资源的释放，实时更新Docker服务资源表和训练结果表，并查询Docker服务队列表，为最先的用户分配Docker服务资源并更新Docker服务队列表。

作为优选，资源服务的地址至少两个，其中一个地址提供推理服务，其它的地址提供机器学习训练服务。

作为优选，Docker服务队列表中定义有用户、参数、模型和数据地址。

作为优选，为最先等待的用户分配Docker服务资源执行深度学习任务后，从Docker服务队列表中删除所述最先等待的用户，以更新Docker服务队列表。

作为优选，通过轮训的方式实时监听Docker服务资源的释放。

作为优选，通过如下步骤判断Docker服务资源表中是否存在空闲资源：

查询Docker服务队列表，判断Docker服务队列表是否为空；

如果为空，查询Docker服务资源表是否存在空闲资源；

如果不为空，Docker服务资源表中不存在空闲资源。

作为优选，如果存在空闲资源，获取当前空闲资源服务的地址，从当前所有空闲的机器学习训练任务中选择一个执行深度学习任务，并将Docker服务资源表的资源状态标识为在用，所述深度学习任务结束后，将Docker服务资源表的资源状态标识为空闲。

作为优选，通过定时任务监听Docker服务资源的释放，实时更新Docker服务资源表和训练结果表，包括如下步骤：

监听Docker服务资源的使用情况；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。