[发明专利]一种基于虚拟网络的分布式训练网络系统及通信方法有效
| 申请号: | 201911415826.3 | 申请日: | 2019-12-31 |
| 公开(公告)号: | CN113132138B | 公开(公告)日: | 2023-02-28 |
| 发明(设计)人: | 胡水海;孙军欢 | 申请(专利权)人: | 深圳致星科技有限公司 |
| 主分类号: | H04L41/12 | 分类号: | H04L41/12;H04L41/14;H04L9/40;H04L41/08;H04L41/042 |
| 代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 何姣 |
| 地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 虚拟 网络 分布式 训练 系统 通信 方法 | ||
本发明提供一种基于虚拟网络的分布式训练网络系统及通信方法,通过将诸业务网络控制器分别与工作节点的操作系统、各个业务网络接口耦接,以及通过诸业务网络控制器提供网络虚拟化使各业务网络在物理网络的并行传输以及基于网络虚拟化的上述各业务网络的逻辑隔离;以使之能够通过网络管理配置等方式,解决在分布式训练过程中的各种不同类型业务流量并行、并发引发的相互干扰等数据中心网络通信问题。
技术领域
本发明涉及人工智能模型训练以及云计算、数据中心网络技术领域,具体地,涉及一种基于虚拟网络的分布式训练网络系统及通信方法。
背景技术
得益于算法、数据和硬件计算能力三方面的发展,当前人工智能正处于第三个发展高潮期。算法方面,深度学习概念的提出以及相关算法的开发,大大提高了机器学习的能力,随后以深度学习、强化学习为代表的算法研究的突破,算法模型持续优化,极大地提升了人工智能应用的准确性(如语音识别和图像识别等)。数据方面,随着互联网的技术进步和普及,全球网络数据量急剧增加,海量数据为人工智能发展提供了良好的土壤。机器学习任务(简称训练)需要庞大的计算能力和大量数据。硬件算力方面,CPU和GPU芯片计算能力的提升,各种人工智能专用硬件的研发,以及各种开源人工智能训练平台的广泛应用(如TensorFlow和PyTorch等),极大地提升了机器处理人工智能任务的效率。
然而,与此同时,我们也注意到:人工智能的应用正在变得越来越复杂。这表现在:用来训练算法模型的数据量越来越大,需要的硬件算力越来越多,搭建人工智能训练平台的复杂度越来越高,需要同时支持的训练任务越来越多。
人工智能技术的发展,带来了新挑战。例如,人工智能算法在进行分布式模型训练需要进行参数聚合;其中,参数聚合指的是不同计算节点阶段性地同步最新的计算结果;聚合过程中不同计算节点之间需要进行大量的网络数据传输来交换训练参数;因此,网络数据传输能力对人工智能模型训练效率有很大的影响。
但是,不同于单机训练,分布式训练不仅是简单的用于训练的计算设备的翻倍,在训练过程中,无论是将样本集数据从存储节点分别导入到计算节点,还是训练过程中对其中模型参数一致性的要求而进行的计算节点间的参数同步传递等,都涉及到大量数据的传输。在分布式训练过程中,用于分布式训练的数据中心集群网络中同时存在着各种业务的流量,存在着诸多不确定性,加剧了数据中心网络复杂性。如果数据中心网络设计之初,没有合理的设计安排,任由这些不同类型的流量混在同一网络中传输,难免不相互干扰,特别是经常性占用全部或绝大部分带宽的业务流量不可避免的影响那些关键业务流量的传输不仅将大大影响AI模型的分布式训练效率,更会危及整个集群。
发明内容
本发明旨在解决在分布式训练过程中的各种不同类型业务流量并行、并发引发的数据中心网络通信问题,通过提供一种应用于分布式训练的虚拟网络模型,解决分布式训练中存在的上述问题。具体而言,本发明将提供一种基于虚拟网络的分布式训练网络系统及通信方法。
一方面,本发明实施例提供一种基于虚拟网络的分布式训练网络系统。
上述的基于虚拟网络的分布式训练网络系统,包括:
若干个用于分布式训练过程中不同业务通信的逻辑网络;其中,
上述的各业务网络,均分别包括工作节点和各自的业务网虚拟交换机;
上述的工作节点,是指分布式训练过程中用于执行训练等相关作业的节点;
在上述的基于虚拟网络的分布式训练网络系统中,上述的工作节点为虚拟节点,即利用宿主机(如物理集群中的服务器主机节点)资源虚拟化出的逻辑计算机;
在上述的各业务逻辑网络中,
工作节点分别与其业务网虚拟交换机通过它们之间的链路相连;
上述的基于虚拟网络的分布式训练网络系统还包括:诸业务网络控制器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳致星科技有限公司,未经深圳致星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911415826.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于大温度范围湿度调节系统
- 下一篇:一种电子设备及计算机系统





