[发明专利]一种RDMA通信加速集合通信的方法及系统有效
申请号: | 202110874526.2 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113553279B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 谭光明;马潇潇;朱泓睿;王展;元国军;安学军 | 申请(专利权)人: | 中科计算技术西部研究院 |
主分类号: | G06F13/28 | 分类号: | G06F13/28;G06F9/445 |
代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 黄书凯 |
地址: | 401120 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 rdma 通信 加速 集合 方法 系统 | ||
1.一种RDMA通信加速集合通信的方法,其特征在于:包括如下步骤:
S3,网络设备获取工作请求或网络配置包的通信元数据,判断工作请求或网络配置包是否为集合通信卸载通信,若是,则执行步骤S4;
S4,网络设备获取网络数据,在网络设备上采用细粒度的缓冲区管理机制进行集合通信的卸载任务处理;其中网络设备获取的是工作请求,在获取网络数据前,网络设备会进行集合通信卸载的配置;
所述S4,具体包括:
S401,解析集合通信卸载的配置信息:
S402,发起本地数据读请求或等待接收外部数据;
S403,获取包含网络数据的数据包,对数据包进行解析,判断数据包类型,若是集合通信卸载的最终计算结果,则执行S404;若是待计算的集合通信卸载的数据,则执行S405;
S404,将集合通信卸载的最终计算结果广播到本主机节点内与此次集合通信相关的各个计算通信实体中;
S405,对待计算的数据进行分块计算;
S406,判断该主机节点内与此次集合通信相关的所有计算通信实体的数据是否均完成计算,若计算完成,则执行S407;若计算未完成,则执行S402;
S407,若此次集合通信涉及的所有计算通信实体均在本主机节点内,则直接对计算结果进行主机节点内广播;若否,则将本主机节点内完成集合通信计算的数据进行封装,并发往下一主机节点与其他主机节点的数据进行进一步的计算;
S408,检查集合通信卸载完成状态,若为完成或出现异常,则执行S6;若否,则执行S402;
S6,若本次任务完成、应用下发查询请求或任务出现异常,则网络设备将工作请求或网络配置包对应的完成队列单元反馈给主机或应用。
2.根据权利要求1所述的RDMA通信加速集合通信的方法,其特征在于:所述S3,还包括:若否,则执行S5;
S5,网络设备获取网络数据,对数据进行普通的网络通信处理;
所述S3之前,还包括:
S1,应用中进行RDMA通信操作,产生数据通信需求;
S2,应用向网络设备下发包含通信元数据的工作请求或网络配置包,其中通信元数据包含操作类型、门铃信息、请求队列虚拟地址和长度;
所述S6之后,还包括:
S7,检查此次通信所包含的所有通信操作是否执行完成,若执行完成,则执行S8;若执行未完成,则执行S2;
S8,通信任务执行结束。
3.根据权利要求1所述的RDMA通信加速集合通信的方法,其特征在于:所述配置信息包括:重要控制信息;所述重要控制信息包括:Op字段、JID字段、MID字段、SID字段、主机节点字段、计算通信实体字段、Seg字段、数据分块长度字段、集合通信执行状态字段、地址链表字段、路由信息字段;
Op字段,用于表示集合通信中使用到的计算操作类型;
JID字段,用于任务号的标志;
MID字段,用于消息号的标志;
SID字段,用于同一消息中数据序列号的标志;
Node字段,用于一次集合通信中涉及到的节点号的标志;
Rank字段,用于一次集合通信中涉及到的Rank号的标志;
Seg字段,用于一次集合通信中指定的Seg缓存单元号的标志;
数据分块长度字段,用于表明一个消息的数据按多大的数据块分割进行流水处理;
集合通信执行状态字段,用于表明一次集合通信中执行状态;
地址链表字段,用于存储网络设备上获取各个Rank数据的地址链表;
路由信息字段,用于存储网络设备进行数据转发的路由信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科计算技术西部研究院,未经中科计算技术西部研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110874526.2/1.html,转载请声明来源钻瓜专利网。