[发明专利]一种分布式机器学习的计算机系统有效
申请号: | 201780088195.1 | 申请日: | 2017-03-09 |
公开(公告)号: | CN110419050B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 扎克·梅拉梅德;吴祖光;罗马·塔扬斯基;内坦·彼得弗洛恩德;韦纳·乌里 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 机器 学习 计算机系统 | ||
本发明提供了一种用于机器学习模型的分布式训练的计算机系统。所述计算机系统包括BSP系统,包含中央BSP控制模块和至少一个本地BSP模块。所述计算机系统还包括至少一个机器学习模块,与正好一个本地BSP模块相关联,以及共享内存模块,与正好一对本地BSP模块和机器学习模块相关联。中央BSP控制模块用于指示所述至少一个本地BSP模块将本地模型存储在其相关联的共享内存模块。所述至少一个机器学习模块用于从其相关联的共享内存模块读取所述本地模型,基于所述本地模型计算梯度,并且在梯度计算之后立即将所述梯度聚合成其相关联的共享内存模块中的聚合梯度。所述中央BSP控制模块还用于指示所述至少一个本地BSP模块周期性地读出其相关联的共享内存模块。
技术领域
本发明涉及一种用于机器学习(machine learning,简称ML)模型的分布式训练的计算机系统和相应方法。特别地,本发明的系统和方法扩展了整体同步并行(BulkSynchronous Parallel,简称BSP)系统以支持基于参数服务器(Parameter Server,简称PS)的分布式机器学习方法中的异步梯度计算。
背景技术
如今,需要分布式计算加速大规模机器学习问题的迭代训练。为了有效地支持例如分布式模型训练,模型训练过程分布在如图10所示的集群上。PS将主要模型副本存储在分片上,即所述集群中的分布式机器集合。所述PS服务于分布式工作节点的模型共享。所述集群中的每台机器都有一个或多个ML工作节点。
每个ML工作节点使用以下迭代计算模型更新:首先,所述ML工作节点从所述PS提取模型副本(copy)M。其次,所述ML工作节点计算所述模型M的梯度,即ΔM=computeGrad(M)。第三,所述ML工作节点基于计算出的梯度,即M+=ΔM更新所述PS中的模型。
目前存在三种主要的方法来建立这种基于PS的系统。这些方法如图11所示。第一种方法(左上方)是BSP,第二种方法(右上方)被称为异步并行(Asynchronous Parallel,简称AP),第三种方法(底部)被称为陈旧同步并行(Stale Synchronous Parallel,简称SSP)。
BSP系统在迭代中工作,其中,迭代包括两个阶段:计算阶段和同步障碍。在所述计算阶段,每个工作节点(这里标记为执行者)使用其本地模型副本和一部分训练数据来计算梯度。在所述同步障碍处,所述系统等待所有工作节点完成其梯度计算。然后工作节点将计算出的梯度上传到PS,并将它们与PS模型(即驻留在所述PS中的模型)合并。随后,每个工作节点下载当前(更新)的PS模型,以开始下一个计算阶段。值得注意的是,在所述同步障碍处,每个工作节点都处于闲置状态,且需要等待所述更新的PS模型。因此,系统资源利用不足。 AP系统的运行方式与所述BSP系统类似,只是消除了所述同步障碍。这里,当一个工作节点完成其梯度计算时,所述工作节点将计算出的梯度上传到PS,以便将其与PS模型合并。然后,所述工作节点在不与其他工作节点同步的情况下下载更新的PS模型。虽然AP解决方案因此消除了在所述BSP系统的同步障碍处的等待,但是所述AP解决方案具有两个不同的问题。首先,在梯度上传和所述上传的梯度与所述PS模型的合并期间,以及在下载所述更新的PS模型期间,所述工作节点处于闲置状态,从而浪费资源。其次,可能更严重的问题是工作节点可能会在不同模型上合并延迟梯度。
图12详细说明了这个问题。两个工作节点w1和w2从相同的PS模型M0开始。在较快的工作节点w1计算例如四个梯度并相应地在模型空间中将PS模型推进四步之后,较慢的工作节点w2仅计算单个梯度,并将其添加到已经远离模型M0的模型M4上,所述工作节点w2实际在模型M4上计算其梯度。结果是,这种延迟梯度的合并降低了收敛速度,显著减慢了训练过程。此外,梯度合并延迟越多,对所述收敛速度的影响越大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780088195.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:房间布局估计方法和技术
- 下一篇:顺序管理系统及程序