[发明专利]一种基于SDN的分布式机器学习训练加速方法有效
申请号: | 201911371620.5 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111079948B | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 贺元林;丁奔程;武浩;章小宁;李自华 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;H04L67/1095;H04L67/1097;H04L69/163 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 李梦蝶 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 sdn 分布式 机器 学习 训练 加速 方法 | ||
本发明公开了一种基于SDN的分布式机器学习训练加速方法,通过解决分布式机器学习训练过程中参数同步通信中出现的TCP Incast问题,实现了分布式机器学习训练的加速。本发明通过对分布式机器学习训练的参数同步通信过程进行优化,不需要关心工作节点的机器学习任务模型,也不需要修改工作节点及参数服务器的TCP/IP协议栈,可移植性好,实用与所有基于参数服务器的分布式机器学习任务的训练。本发明不需要压缩和牺牲需更新的部分参数,有利于分布式机器学习模型的快速收敛,加快了分布式机器学习的训练。
技术领域
本发明属于分布式机器学习训练领域,具体涉及一种基于SDN的分布式机器学习训练加速方法。
背景技术
基于参数服务器(PS)的体系架构在当今主流的分布式机器学习(DML)系统中被广泛使用,其有易于部署、弹性的可伸缩性和容错能力等优点,架构中PS为中心参数服务器,收集每次迭代过程中来自工作结点(Worker)的训练参数更新,并在聚合后更新到每个Worker。传统的基于PS的DML系统通常采用批量同步并行(BSP)模式在Worker之间同步参数,但是BSP模式存在短板效应,因为每个Worker可能会产生不同的计算/通信开销,从而导致不同的完成时间。在BSP模式下,所有Worker被迫等待最慢的Worker完成训练才能进入下一轮迭代。为了解决BSP中的短板效应问题,提出了异步并行(ASP)和有限制的异步并行(SSP),但是这两种参数同步方式是以牺牲迭代质量换取迭代速度,所以整个DML任务的收敛速度反而可能会比BSP慢,所以目前主流的DML平台都是使用BSP参数同步模式。
软件定义网络(Software Defined Network,SDN)将数据的转发与控制进行分离,网络控制面被抽取到一个集中式的控制器(Controller)中,即数据流的接入和路由等相关操作都交由Controller控制,Controller将这些操作以流表的形式下发至交换机,而交换机则只负责数据分组的转发和执行对应的动作即可。SDN这种集中控制特性在网络性能优化、网络管理以及接入新的网络功能等方面都有着重要意义。
在基于参数服务器的分布式机器学习架构中,模型训练过程的每一轮迭代都需要借助参数服务器同步所有Worker的参数更新,在多个Worker同时向PS上传参数更新时,这种“多对一”的通信模式不可避免出现TCP Incast问题,从而导致往返时延(Round TripTime,RTT)增加。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于SDN的分布式机器学习训练加速方法解决了分布式机器学习训练过程中出现的TCP Incast问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于SDN的分布式机器学习训练加速方法,包括以下步骤:
S1、采集分布式机器学习训练中当前迭代过程的参数同步通信过程所产生的所有RTT值;
S2、获取当前RTT值和上一次RTT值,并通过当前RTT值和上一次RTT值对下一次RTT值进行预测;
S3、根据预测的下一次RTT值,开启定时器,开始参数同步通信;
S4、通过SDN控制器获取SDN交换器的缓存占用数据;
S5、判断缓存占用数据是否超过设定的阈值β,若是,则进入步骤S6,否则返回步骤S2;
S6、获取第i个发送端在当前SDN交换机占用的缓存不超过阈值,且不发生TCPIncast问题时的发送窗口大小Wi_swnd;
S7、根据发送窗口大小Wi_swnd,通过SDN控制器改写ACKi包中的rwnd字段,并将改写后的ACKi包传输至其对应的第i个发送端;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911371620.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗碱水润滑脂及其制备方法
- 下一篇:一种适应空心螺柱的自旋式电动螺柱焊枪