[发明专利]一种加速分布式机器学习的方法及系统有效

专利信息
申请号: 201911155664.4 申请日: 2019-11-22
公开(公告)号: CN111210020B 公开(公告)日: 2022-12-06
发明(设计)人: 李丹;王帅;耿金坤 申请(专利权)人: 清华大学
主分类号: G06N20/00 分类号: G06N20/00;G06F9/48;G06F9/50;H04L67/141;H04L47/2425;H04L47/6275;H04L47/62
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 张秀程
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 加速 分布式 机器 学习 方法 系统
【说明书】:

发明实施例提供一种加速分布式机器学习的方法及系统,该方法包括:将机器学习模型输入到分布式机器学习系统中,对于所述分布式机器学习系统中的任意两个节点,在所述任意两个节点之间建立多条连接,并赋予这些连接不同的优先级;将所述机器学习模型的参数分配到多条连接上进行传输,使得紧急参数能够通过高优先级连接尽快完成传输,以对分布式机器学习训练进行加速。本发明实施例考虑前向计算过程中通信和计算的重叠,通过优先传输紧急参数,减少现有机器学习框架下参数传输顺序的随机性,重叠前向计算过程中的通信和计算,隐藏通信开销,并通过网络级别的流调度协调不同节点的通信,实现分布式的通信调度,从而加速训练过程。

技术领域

本发明涉及计算机技术领域,尤其涉及一种加速分布式机器学习的方法及系统。

背景技术

随着数据量的增长,基于数据并行的分布式训练已经成为业界广泛采用的机器学习加速方式。在数据并行中,不同计算节点有同一模型的多个副本,每个计算节点使用不同的训练数据计算模型更新,然后所有计算节点之间汇总模型更新。模型汇总完成后,便开始新一轮计算。随着模型规模的增大(如BERT模型参数量高达3亿),模型汇总带来的通信开销逐渐成为影响分布式机器学习性能的一大因素。

机器学习计算是逐层进行的,并可分为前向计算和反向传播两个阶段:前向计算负责计算模型的损失,反向传播负责计算模型的更新。为了降低通信对分布式机器学习性能的影响,现有方案普遍采用“无需等待的反向传播”方式,即反向传播时,后层模型更新的传输和前层模型更新的计算重叠,以尽可能隐藏模型更新传输的开销。

然而,现有方案均未考虑前向计算过程中通信和计算的重叠,参数传输顺序具有随机性,从而导致迭代时间会大大增加,且机器学习效率低下。

发明内容

为了解决上述问题,本发明实施例提供一种加速分布式机器学习的方法及系统。

第一方面,本发明实施例提供一种加速分布式机器学习的方法,包括:将机器学习模型输入到分布式机器学习系统中,对于所述分布式机器学习系统中的任意两个节点,在所述任意两个节点之间建立多条连接;

将所述机器学习模型的参数分配到多条连接上进行传输,并赋予多条连接不同的优先级,以对分布式机器学习训练进行加速。

优选地,所述将所述机器学习模型的参数分配到多条连接上进行传输,具体包括:

对所述分布式机器学习系统中的每条连接设置一个优先级;

对于任一优先级的连接,获取所述任一优先级的连接对应的目标参数,所述目标参数为所述任一优先级的连接需要传输的所述机器学习模型参数;

所述任一优先级的连接对所述目标参数进行传输。

优选地,还包括:将所述任一优先级作为所述目标参数的优先级。

优选地,对于任意两个不同优先级的目标参数,当这两个目标参数进入网络时,先传输优先级高的目标参数。

优选地,所述获取所述任一优先级的连接对应的目标参数,具体包括:

通过启发式算法计算所述机器学习模型的参数在不同优先级之间的分配比例;

根据所述分配比例,获取所述任一优先级的连接对应的目标参数。

第二方面,本发明实施例提供一加速分布式机器学习的系统,包括:连接模块,用于将机器学习模型输入到分布式机器学习系统中,对于所述分布式机器学习系统中的任意两个节点,在所述任意两个节点之间建立多条连接;

训练模块,用于将所述机器学习模型的参数分配到多条连接上进行传输,并赋予多条连接不同的优先级,以对分布式机器学习训练进行加速。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911155664.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top