[发明专利]一种光电交换网络中分布式机器学习流的调度方法有效
| 申请号: | 201911257668.3 | 申请日: | 2019-12-10 |
| 公开(公告)号: | CN110990140B | 公开(公告)日: | 2023-03-14 |
| 发明(设计)人: | 刘玲;虞红芳;孙罡;李宗航 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F9/48 | 分类号: | G06F9/48;G06N20/00 |
| 代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 光电 交换 网络 分布式 机器 学习 调度 方法 | ||
本发明公开了一种光电交换网络中分布式机器学习流的调度方法,先利用HLF算法计算每一个任务中流的调度顺序及该任务单次迭代的通信时间,然后再根据SWRTF算法调度多个DML任务;其中,对于多个DML任务,首先根据SWRTF算法中的优先级定义计算出每个任务的优先级,然后选择具有最高优先级的任务,并使用HLF算法得到的流调度顺序调度这个任务的流,当这个任务完成通信阶段,转入计算阶段后,又重新选择可调度的、具有最高优先级的任务,直到所有任务都完成。
技术领域
本发明属于通信技术领域,更为具体地讲,涉及一种光电交换网络中分布式机器学习流的调度方法。
背景技术
随着大数据时代的到来,分布式机器学习应运而生,其中数据并行是一种广泛使用的分布式机器学习方法,其基本思想是通过将数据集分为多个数据块,每个数据块使用不同的计算节点Worker并行训练,Worker间需要进行模型参数的同步,然后再开始下一次迭代,有些训练任务需要多达几十万次迭代才能达到理想收敛精度。在每次迭代中,计算节点之间的参数同步过程会产生大量数据。随着GPU等加速硬件的使用,单位时间内迭代次数增加,网络需要传输更多的数据,因此,DML对网络的吞吐要求越来越高,其性能瓶颈已经从计算转移到网络通信。
虽然已经有研究者从不同角度去加速DML应用,如通信压缩、编码、资源分配、任务调度等,但这些方法获得的性能提升始终受限于底层的物理拓扑。与此同时,也有学者研究了物理拓扑对DML性能的影响。为了从根本上加快DML训练,一种重要手段是从网络拓扑层面,通过增加物理网络带宽、提高网络吞吐,以提升DML性能。近些年,越来越多的学者提出把光路交换机OCS(Optical Circuit Switch)引入到网络中,构成可重构的网络拓扑。与传统分组交换机相比,OCS的高速率、低功耗、高可靠性等优点使其在集群网络中得到越来越广泛的应用。
图1是使用PS通信架构的DML在传统网络和OCS网络中的性能对比,假设传统网络中的带宽为10Gbps,OCS的带宽为20Gbps,OCS的线路切换时延为0.01秒。图1(a)、(b)分别展示了两个任务job1和job2在两种网络中的部署情况,其中,job1/2的worker数量、PS数量、模型大小分别为6/4、1/1、1/1Gb,并且假设两个job的权重weight都为1,且所需迭代次数也为1。表1展示了两种网络中的不同调度算法得到的WJCT。在这个例子中,OCS的带宽仅为20Gbps,此时,基于OCS网络得到的WJCT比SJF都少43.3%,而实际的OCS带宽高达100Gbps,更高的带宽更有利于加快DML。因此,高速率的OCS可大大提升DML性能。
表1是不同调度方案的WJCT对比;
表1
但是,每次OCS重新配置都具有线路切换时延(几十微秒~几十毫秒),不合理的OCS线路调度可能会带来多次切换时延,从而影响上层应用。因此,在引入OCS的集群里需要合理地调度OCS线路以提升上层应用的性能,而目前还没有专门针对DML集群的OCS线路调度方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911257668.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于增强与传感器相关的功能的方法和装置
- 下一篇:一种摄像头视场角测量方法





