[发明专利]资源调度方法、装置、电子设备及存储介质有效
| 申请号: | 201910223115.X | 申请日: | 2019-03-22 |
| 公开(公告)号: | CN110096356B | 公开(公告)日: | 2022-06-03 |
| 发明(设计)人: | 程京 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/08 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 资源 调度 方法 装置 电子设备 存储 介质 | ||
本申请示出了一种资源调度方法、装置、电子设备及存储介质,其中资源调度方法包括:获取多个资源模块之间的初始通讯时间参量以及各资源模块的占用率;根据多个资源模块之间的初始通讯时间参量以及各资源模块的占用率,得到多个资源模块之间的当前通讯时间参量;根据多个资源模块之间的当前通讯时间参量,确定包含预设数量个资源模块的资源模块回路,资源模块回路中相邻资源模块之间的当前通讯时间参量之和最小。采用本申请技术方案可以优化Tensorflow Allreduce框架的资源调度,对资源模块进行自动分配,确定最优化的高效通讯回路,从而可以减小训练过程中的通讯时间,提升深度学习过程中的训练速度。
技术领域
本申请涉及计算机技术领域,尤其涉及一种资源调度方法、装置、电子设备及存储介质。
背景技术
TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统,在图形分类、音频处理、推荐系统和自然语言处理等场景下都有丰富的应用。TensorFlow是一个非常灵活的框架,它能够运行在个人电脑或者服务器的单个或多个CPU和GPU上,甚至是移动设备上。
在深度学习框架中,我们经常需要使用多机或多卡来加速模型的训练。Ring-Allreduce是一种分布式深度学习架构,被集成到Tensorflow1.11及以上版本中,作为estimator高级API的分布式调用方式之一。在Ring-allreduce架构中,各个设备都是worker,并且形成一个环,不需要中心节点来聚合所有worker计算的梯度。在一个迭代过程,每个worker完成自己的mini-batch训练,计算出梯度,并将梯度传递给环中的下一个worker,同时它也接收从上一个worker的梯度。对于一个包含N个worker的环,各个worker需要收到其它N-1个worker的梯度后就可以更新模型参数。
相比于传统的PS(Parameter Server Architecture)架构,Ring-allreduce架构是带宽优化的,因为集群中每个节点的带宽都被充分利用。此外,在深度学习训练过程中,计算梯度采用BP(Back Propagation)算法,其特点是后面层的梯度先被计算,而前面层的梯度慢于后面层,Ring-allreduce架构可以充分利用这个特点,在前面层梯度计算的同时进行后面层梯度的传递,从而可以减少训练时间。
为了能够采用Ring-allreduce架构进行深度学习训练,如何进行资源调度以形成包含多个worker的Ring-allreduce是本领域技术人员需要解决的技术问题。
发明内容
为克服相关技术中存在的问题,本申请提供一种资源调度方法、装置、电子设备及存储介质。
根据本申请的第一方面,提供一种资源调度方法,所述方法应用于电子设备,所述电子设备包括多个资源模块,所述方法包括:
获取所述多个资源模块之间的初始通讯时间参量以及各所述资源模块的占用率;
根据所述多个资源模块之间的初始通讯时间参量以及各所述资源模块的占用率,得到所述多个资源模块之间的当前通讯时间参量;
根据所述多个资源模块之间的当前通讯时间参量,确定包含预设数量个资源模块的资源模块回路,所述资源模块回路中相邻资源模块之间的当前通讯时间参量之和最小。
在一个可选地实现方式中,所述电子设备包括多个子设备,各所述子设备包括所述资源模块,所述获取所述多个资源模块之间的初始通讯时间参量的步骤,包括:
根据所述子设备内部所述资源模块之间的连接方式,以及所述子设备之间的网络连接类型,获得所述多个资源模块之间的初始通讯时间参量。
在一个可选地实现方式中,所述根据所述多个资源模块之间的初始通讯时间参量以及各所述资源模块的占用率,得到所述多个资源模块之间的当前通讯时间参量的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910223115.X/2.html,转载请声明来源钻瓜专利网。





