[发明专利]一种地理分布式机器学习参数服务器放置方法有效

申请号：	202110556974.8	申请日：	2021-05-21
公开（公告）号：	CN113191505B	公开（公告）日：	2022-05-20
发明（设计）人：	范晨昱;吴昊;章小宁;李永耀	申请（专利权）人：	电子科技大学
主分类号：	G06N20/00	分类号：	G06N20/00;G06F16/27
代理公司：	北京正华智诚专利代理事务所(普通合伙) 11870	代理人：	李林合
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种地理分布式机器学习参数服务器放置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种地理分布式机器学习参数服务器放置方法，针对地理分布式机器学习(Geo‑DML)中的通信瓶颈问题，本发明通过聚类，根据物理距离和链路带宽将地理上分散在广域网拓扑中的工作节点划分为不同的簇(Cluster)。然后在各个簇中选取合适的节点作为该簇参数聚合的本地参数服务器(LPS,Local Parameter Server)，再选取合适的节点作为全局参数聚合的全局参数服务器(GPS,Global Parameter Server)，以减小通信开销。

技术领域

本发明涉及通信领域，具体涉及一种地理分布式机器学习参数服务器放置方法。

背景技术

由于数据量和模型规模的不断扩大，传统机器学习无法满足应用需求，于是分布式机器学习成为主流。而近年来一种用于训练全球数据的地理分布式机器学习(Geo-DML,Geo-Distributed Machine Learning)逐渐兴起。Geo-DML是近年来兴起的可以训练全球数据的系统。一些大型网络服务提供商(如谷歌、亚马逊、微软等)为了给全球的用户提供高质量低延迟的服务，在全球各地运营着数十个数据中心，并收集了大量的全球用户数据，比如谷歌在世界各地拥有36个数据中心和1500多个边缘服务器集群。这为地理分布式机器学习提供了物质基础。

但由于数据中心是地理分布的，它们之间的通信协作需要通过广域网(WAN)链路实现，而数据中心内部的通信是通过局域网(LAN)实现的。在完成多机协作的过程中，数据中心间的通信必不可少，但是在大型训练中要传输的数据量很多，花在通信上的时间占比很高就有可能抵消由数据并行节约的时间。在Geo-DML的场景下，广域网的带宽资源又更加稀缺，这加剧了在分布式机器学习中员原本就存在的通信代价过高的问题。

如何降低通信代价已经成为了分布式机器学习领域一个被广泛研究的课题。目前已经有异步随机梯度下降、模型的压缩和稀疏化、梯度的量化和稀疏化等方法，都可以有效缓解分布式机器学习通信瓶颈。而数据中心的划分、数据中心内部本地参数服务器的位置、全局的参数服务器在整体拓扑的位置对于通信成本都有一定影响，好的数据中心的划分和参数服务器选址可以在一定程度上降低通信代价。

发明内容

针对现有技术中的上述不足，本发明提供的一种地理分布式机器学习参数服务器放置方法解决了如何有效降低通信开销的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种地理分布式机器学习参数服务器放置方法，包括以下步骤：

S1、根据链路物理长度和链路带宽，将地理上分散在广域网拓扑中的工作节点划分为不同的簇；

S2、判断当前簇的数量是否为1，若是，则跳转至步骤S3，若否，则跳转至步骤S4；

S3、对唯一簇进行本地参数服务器和全局参数服务器的放置；

S4、对所有簇进行本地参数服务器和全局参数服务器的放置。

进一步地，步骤S1包括以下分步骤：

S11、根据链路物理长度和链路带宽，计算地理上分散在广域网拓扑中每条链路的权重；

S12、根据每条链路的权重构建的权重集合，计算任意两个工作节点间的最短路径；

S13、将每个工作节点初始化为一个簇；

S14、根据任意两个工作节点间的最短路径，将距离最近的两个簇合并为一个簇；