[发明专利]基于NDN的PS架构分布式机器学习训练系统数据传输方法有效
申请号: | 202011580994.0 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112822110B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 胡晗;欧阳巧琳;刁文澜;安建平 | 申请(专利权)人: | 北京理工大学 |
主分类号: | H04L12/741 | 分类号: | H04L12/741;H04L12/761;H04L29/08;G06N20/00 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ndn ps 架构 分布式 机器 学习 训练 系统 数据传输 方法 | ||
本发明涉及一种基于NDN的PS架构分布式机器学习训练系统数据传输方法,属于分布式机器学习技术领域。本发明方法,将NDN中基于PIT的请求聚合机制、基于CS的网内缓存机制以及“一对多”的内容分发机制应用于分布式机器学习训练系统中,能够改变现有的PS与多个CPU之间“一对一”的数据交互的模式,减少PS发送更新参数的次数,从而减少数据的冗余传输、减轻PS周边链路负载、降低链路带宽占用、缩短机器学习的训练计算时延。
技术领域
本发明涉及一种分布式机器学习训练系统中的数据传输方法,尤其涉及一种基于NDN(Named Data Networking,命名数据网络)的PS(Parameter Server,参数服务器)架构下的分布式机器学习训练系统中的数据传输方法,属于分布式机器学习技术领域。
背景技术
分布式机器学习训练系统,利用多个图形处理器(Graphics Processing Unit,GPU)进行模型并行训练,从而加速模型训练的速度。在分布式机器学习训练系统中,训练样本被分为多份,每一份样本由训练系统中的一个GPU所持有,训练会进行多轮,直至训练出的模型达到精度要求。每轮训练包含三个步骤:首先,训练系统中的每一个GPU使用其持有的部分样本完成一次训练,获得该轮对应的参数梯度;然后,GPU之间交换各自计算所得的参数梯度,并对训练模型进行更新;最后,GPU使用更新后的模型进行下一轮训练。
在常见的基于PS架构的分布式机器学习训练系统中,由一个PS负责参数梯度交换与参数更新:每轮训练中,GPU将计算所得的参数梯度传输给PS,然后PS依据参数梯度对参数进行更新,并将更新后的参数下发给各个GPU。PS架构下的分布式机器学习训练系统包括同步训练和异步训练两种:在同步训练中,PS在收到该轮所有GPU计算的参数梯度后再进行参数更新,所有完成计算的GPU需等到PS将参数更新后再进行下一轮计算;在异步训练中,PS每收到一个参数梯度就进行一次参数更新,已经完成计算的GPU可以直接使用最新的参数进行下一轮计算。
目前,为保证数据传输的可靠性,PS在下发新的参数时,需要与各个GPU建立单独的TCP连接,即PS需要与每个GPU单独通信。这一操作,使得相同的参数在PS周边的同一链路上被多次传输,大量的数据冗余传输增大了PS节点的周边链路负载,增加了链路带宽占用,延长了计算时延。
发明内容
本发明的目的是为了解决PS架构分布式机器学习训练中面临的冗余传输的技术问题,创造性地提出一种基于NDN的PS架构分布式机器学习训练系统数据传输方法。
本发明方法的创新点在于:
相比于PS与GPU“一对一”的数据通信模式,NDN具备数据请求聚合以及服务器与用户之间“一对多”的内容分发功能。NDN通过两种包结构与路由器中的三种表结构实现数据传输、请求聚合与网内缓存。其中,两种包结构分别为兴趣包与数据包,三种表结构分别为转发信息表(Forwarding Information Base,FIB)、待定请求表(Pending InterestTable,PIT)和内容存储表(Content Store,CS)。NDN通过用户终端发送兴趣包驱动内容发布者回复数据包的方式进行数据通信,且兴趣包和数据包中都含有一个内容名称来标识用户需要获取的数据内容。当路由器收到兴趣包时,若其CS中储存有同名的数据包,路由器会将该数据包直接回复给用户;若CS中没有被请求的数据包,但PIT中已经记录了相同的请求,则路由器聚合相同请求,在PIT表项中添加新兴趣包的输入接口,保证接收的数据包能按照兴趣包转发的反向路径,以多播的方式回复多个用户终端;若收到兴趣包时CS和PIT均无法提供数据信息,则路由器会以兴趣包名称与兴趣包输入接口创建一个PIT表项,并根据FIB进行兴趣包的转发。
因此,将NDN中基于PIT的请求聚合机制、基于CS的网内缓存机制以及“一对多”的内容分发机制应用于分布式机器学习训练系统中,能够改变现有的PS与多个CPU之间“一对一”的数据交互的模式,减少PS发送更新参数的次数,从而减少数据的冗余传输、减轻PS周边链路负载、降低链路带宽占用、缩短机器学习的训练计算时延。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011580994.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种外壳生产设备、生产方法及电动牙刷
- 下一篇:一种防失灵医院呼叫系统