[发明专利]GPU资源配置方法、装置、电子设备及存储介质在审
| 申请号: | 202211408163.4 | 申请日: | 2022-11-10 |
| 公开(公告)号: | CN115700486A | 公开(公告)日: | 2023-02-07 |
| 发明(设计)人: | 蒲永杰;张广勇;段亦涛 | 申请(专利权)人: | 网易有道信息技术(北京)有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N5/04 |
| 代理公司: | 北京维昊知识产权代理事务所(普通合伙) 11804 | 代理人: | 刁益帆 |
| 地址: | 100094 北京市海淀区西北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | gpu 资源配置 方法 装置 电子设备 存储 介质 | ||
本发明的实施方式提供了一种GPU资源配置方法、装置、电子设备及存储介质。该方法包括:响应于推理任务请求,在若干服务器中确定执行推理任务请求的执行服务器;其中,若干服务器的内存中部署有多个待分配GPU的推理服务的服务模型,每一服务器中部署有用于为推理服务分配GPU的GPU管理单元,执行服务器上部署有执行推理任务所需的目标推理服务;通过GPU管理单元为目标推理服务分配GPU。该方法通过在服务器的内存中提前部署推理服务的服务模型,使其处于已启动但待激活的状态,从而避免了线程启停所产生的延迟。本发明的方法能够显著地降低推理服务的响应时长,为用户带来了更好的体验。
技术领域
本发明的实施方式涉及计算机处理器领域,更具体地,本发明的实施方式涉及GPU资源配置方法、装置、电子设备及存储介质。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
在部署在线深度学习推理服务时,通常需要在服务器集群上部署若干种不同的推理服务。当某一推理服务产生任务需求时,服务器需要为其分配相应的GPU以使其获取GPU的使用权和相应的计算空间和模型空间,由于每种推理服务的需求量是实时变化的,若是为每一推理服务都按照可能的最大流量来配置资源,则会造成较大的资源浪费。
在现有技术中,已经出现一些采取监控流量并增减容器的方法来为推理服务配置GPU,其将服务器抽象为若干容器,每个容器分配预设数量的GPU以供一个推理服务使用。当流量增加时,可以启动一个新的容器来增加承载能力;当流量下降则可以关闭部分容器来释放服务器资源。
但由于每个容器分配固定数量的GPU,每个容器供一个推理服务使用,所以当GPU被分配给特定的推理服务后,无法临时再分配给其他推理服务。若服务器内无剩余可用的GPU,而又产生新的任务时,需要根据流量来关闭某个推理服务以释放其所占用的GPU后,再将该GPU分配给新任务所对应的推理服务。这一过程需要原推理服务的服务线程关闭,并为新的推理服务重新建立服务线程,即需要服务进程重新启动和初始化,该过程耗时较长,通常是秒级的时间,无法满足实时地根据流量来启动或是关闭某个推理服务的需求,导致资源配置的调整存在滞后和延迟较高的情况。
发明内容
出于推理服务的需求量是实时变化的原因,现有技术采取监控流量并增减容器的方法来为推理服务配置GPU。
但在现有技术中,这一过程需要原推理服务的服务线程关闭,并为新的推理服务重新建立服务线程,即需要服务进程重新启动和初始化,耗时较长。
为此,非常需要一种改进的GPU资源配置方案,以提高GPU分配的速度和推理服务的响应速度。
在本上下文中,本发明的实施方式期望提供一种GPU资源配置方法、装置、电子设备及存储介质。
在本发明实施方式的第一方面中,提供了一种GPU资源配置方法,包括:响应于推理任务请求,在若干服务器中确定执行推理任务请求的执行服务器;其中,若干服务器的内存中部署有多个待分配GPU的推理服务的服务模型,每一服务器中部署有用于为推理服务分配GPU的GPU管理单元,执行服务器上部署有执行推理任务所需的目标推理服务;通过GPU管理单元为目标推理服务分配GPU。
在本发明的一个实施例中,每一服务器的内存中存储部分或全部待分配GPU的推理服务的服务模型,以使每一推理服务具有至少一个执行服务器。
在本发明的一个实施例中,该包括:。
在本发明的一个实施例中,该通过GPU管理单元为目标推理服务分配GPU,包括:在执行服务器的GPU中确定目标GPU;通过GPU管理单元将目标GPU分配给目标推理服务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易有道信息技术(北京)有限公司,未经网易有道信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211408163.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:定制家居的产销协同方法及系统
- 下一篇:一种开关电源的控制电路和控制方法





