[发明专利]一种分布式数据传输优化方法、系统及相关设备有效
| 申请号: | 202010941036.5 | 申请日: | 2020-09-09 |
| 公开(公告)号: | CN112073517B | 公开(公告)日: | 2023-07-11 |
| 发明(设计)人: | 刘永恒;任智祥;张凡;付志鹏 | 申请(专利权)人: | 鹏城实验室 |
| 主分类号: | H04L67/10 | 分类号: | H04L67/10;H04L41/0823;H04L41/14 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王学强 |
| 地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分布式 数据传输 优化 方法 系统 相关 设备 | ||
本发明实施例提供了一种分布式数据传输优化方法、系统及相关设备,用于提高数据传输的效率。本发明实施例方法包括:获取多条训练数据及数据传输策略的超参数空间,每一条所述训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中所述集群在单位时间内的网络吞吐量参数,其中,每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值;将所述多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略。
技术领域
本发明涉及分布式数据传输优化技术领域,尤其涉及一种分布式数据传输优化方法、系统及相关设备。
背景技术
近年随着深度学习在人工智能领域的应用越来越广,深度学习使用的模型应用也越来越复杂、数据集也越来越大。使用单机训练这些模型往往需要的时间按月计。为了节省对这些模型的训练时间,往往在大规模集群上采用数据并行的方式对模型进行训练。
目前在数据并行训练中公认的高效方式是基于聚合方式交互模型训练过程中的权重或梯度,聚合过程中的集群中的节点之间的数据通信经常采用数据并行框架默认的数据传输策略(依据经验设置集群底层网络拓扑以及集群内节点组合策略),没有数据传输策略调节优化,无法发挥集合通信最佳的网络吞吐量,导致数据通信效率低下。
发明内容
本发明实施例提供了一种分布式数据传输优化方法、系统及相关设备,用于提高数据传输的效率。
本发明实施例第一方面提供了一种分布式数据传输优化方法,可包括:
获取多条训练数据及数据传输策略的超参数空间,每一条所述训练数据包含集群配置的一种数据传输策略及在执行对应的数据传输策略过程中所述集群在单位时间内的网络吞吐量参数,其中,每个初始策略包含一组预设参数字段以及各个预设参数字段的字段值;
将所述多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略。
可选的,作为一种可能的实施方式,本发明实施例中的分布式数据传输优化方法,还可以包括:
采集所述集群在执行所述最优数据传输策略时单位时间内的网络吞吐量参数记作参数A;
判断所述参数A是否满足预设条件,若不满足,则将所述最优数据传输策略及所述参数A作为所述多条训练数据中的一条训练数据代入贝叶斯优化算法模型,以重新确定最优数据传输策略。
可选的,作为一种可能的实施方式,本发明实施例中,在将所述最优数据传输策略及所述参数A作为所述多条训练数据中的一条训练数据代入贝叶斯优化算法模型之前,所述方法还可以包括:
判断所述最优数据传输策略与所述多条训练数据是否存在重复数据,若存在重复数据,则去除重复数据。
可选的,作为一种可能的实施方式,本发明实施例中,所述获取多条训练数据可包括:
随机选定所述超参数空间中的每个参数的初始值,组成多种数据传输策略;
在集群中分别配置所述多种数据传输策略,并分别采集执行所述多种数据传输策略执行过程中所述集群在单位时间内的网络吞吐量参数。
可选的,作为一种可能的实施方式,本发明实施例中,所述将所述多条训练数据及数据传输策略的超参数空间代入贝叶斯优化算法模型,计算得到当前训练数据下的最优数据传输策略,可包括:
采用高斯过程对所述多条训练数据进行拟合,得到数据传输策略与网络吞吐量参数之间的函数作为输出函数;
设置获取函数并根据所述输出函数在所述数据传输策略的超参数空间中搜索得到最优数据传输策略,以使得所述获取函数最大化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹏城实验室,未经鹏城实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010941036.5/2.html,转载请声明来源钻瓜专利网。





