[发明专利]一种RDMA通信加速集合通信的方法及系统有效
申请号: | 202110874526.2 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113553279B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 谭光明;马潇潇;朱泓睿;王展;元国军;安学军 | 申请(专利权)人: | 中科计算技术西部研究院 |
主分类号: | G06F13/28 | 分类号: | G06F13/28;G06F9/445 |
代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 黄书凯 |
地址: | 401120 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 rdma 通信 加速 集合 方法 系统 | ||
本发明涉及通信技术领域,具体为一种RDMA通信加速集合通信的方法及系统,其方法包括:S3,网络设备获取WR或网络配置包的通信元数据,判断WR或网络配置包是否为集合通信卸载通信,若是,则执行步骤S4;S4,网络设备获取网络数据,在网络设备上采用细粒度的缓冲区管理机制进行集合通信的卸载任务处理;S6,若本次任务完成、应用下发查询请求或任务出现异常,则网络设备将WR或网络配置包对应的CQE反馈给主机或应用。本方案能高效、易用进行RDMA通信加速集合通信,以解决现有集合通信卸载效率低的问题。
技术领域
本发明涉及通信技术领域,具体为一种RDMA通信加速集合通信的方法及系统。
背景技术
远程数据直接访问(Remote Direct Memory Access,RDMA)技术是进行高性能网络通信的重要数据访问模式,使用RDMA进行数据通信可以旁路主机操作系统,减少数据拷贝,达到高带宽、低时延的高性能网络通信效果。RDMA广泛应用于商业数据中心和高性能计算机集群中,而集合通信是分布式集群通信中常用的通信模式。
集合通信,这种数据通信模式涉及到多个通信节点之间的数据收发,往往涉及到数据由多个计算节点汇集到一个计算节点的通信过程,如规约(Reduce)、全局规约(Allreduce)、收集(Gather)、全局收集(Allgather)等操作。在数据汇集的过程中会造成网络中数据量急剧增加,导致中间汇集节点和根节点成为通信热点和通信瓶颈,其次主机端进行数据的规约计算时则会消耗一部分主机端宝贵的计算资源。
因此,通过在RDMA通信设备上进行集合通信的卸载,在数据经过通信设备的时候对数据进行计算,一方面可以充分旁路主机操作系统,减少主机通信以及计算的开销;另一方面可以减少数据拷贝,并且减少网络中传输的数据量,达到提高集合通信性能的效果。目前,网络设备厂商在网卡或者交换机上开辟一部分用于集合通信加速的数据缓冲区和计算单元,来进行集合通信的数据缓存和数据计算,同时提供了配套的软件和协议,如Core-Direct、SHArP等。
但是,目前的RDMA网络设备集合通信加速方案中,在设计架构上采用简单的缓冲区来进行数据缓存管理,以消息粒度进行数据传输完成情况的反馈,通过上层单独的中间层软件进行集合通信卸载的管理,这样的技术方案在实际应用中并不能满足实际的集合通信需求,会存在下列问题:
(1)当数据通信过程中通信的消息较大时,在消息层面进行数据传输情况的反馈,会导致缓冲区占用时间过长,严重影响缓冲区的使用效率;
(2)粗粒度的缓冲区管理,在数据流水处理上缺乏高效性,无法进行高效率的集合通信加速;
(3)通过中间层软件进行集合通信卸载的管理和调用,导致用户无法直接进行通信设备硬件的感知,以致无法充分利用硬件设备的卸载特性,需要硬件向用户提供集合通信卸载专用的通信原语和调用接口。
特别是在分布式深度学习应用和高性能应用中,存在大量的集合通信操作,如:分布式深度学习训练,需要进行大量的参数更新,对底层通信而言需要进行多次大数据量的Allreduce(典型的相对复杂的集合通信之一)操作,而高性能计算中需要调用大量的消息传递接口(Message Passing Interface,MPI)和集合通信接口,以上的集合通信会显著影响应用的整体性能,因此,现在急需一种RDMA通信加速集合通信的方法及系统,以解决现有集合通信存在问题。
发明内容
本发明的目的之一在于提供一种高效、易用的RDMA通信加速集合通信的方法,以解决现有集合通信卸载效率低的问题。
本发明提供的基础方案一:一种RDMA通信加速集合通信的方法,包括如下步骤:
S3,网络设备获取WR或网络配置包的通信元数据,判断WR或网络配置包是否为集合通信卸载通信,若是,则执行步骤S4;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科计算技术西部研究院,未经中科计算技术西部研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110874526.2/2.html,转载请声明来源钻瓜专利网。