[发明专利]InfiniBand网络检测方法有效

专利信息
申请号: 201310253119.5 申请日: 2013-06-24
公开(公告)号: CN103312564A 公开(公告)日: 2013-09-18
发明(设计)人: 胡耀国;路川;曹振南;马少杰;杨亮;田相桂;何沧平;姜金良;范娟;沈杰;易成;曹征;侯雪峰;苗春葆;赵明坤 申请(专利权)人: 曙光信息产业(北京)有限公司
主分类号: H04L12/26 分类号: H04L12/26
代理公司: 北京德恒律治知识产权代理有限公司 11409 代理人: 章社杲;孙征
地址: 100193 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: infiniband 网络 检测 方法
【说明书】:

技术领域

发明基本上涉及网络通信领域,更具体地来说,涉及一种InfiniBand网络检测方法。

背景技术

InfiniBand(简称IB)是一种高速网络技术和标准,具有高带宽、低延迟等优点,在高性能计算、大数据处理等领域应用广泛,高性能计算集群通常使用InfiniBand作为高速计算网络或存储网络。在集群的节点使用InfiniBand网络前需要确保网络连接的各个设备都正常收发数据,此外由于硬件电气性能、线缆质量及设备安装时的物理接触都有可能导致某些设备的某个端口发送数据时不能保持零错误率,这个时候就需要调试InfiniBand网络,找到有问题的设备,并逐步去调整设备的参数或者是设备与设备之间的接触,使得数据发送时保持零错误率或者是一个极低的错误率。

现有的IB调试方法步骤繁琐,需要使用网络压力测试程序对整个InfiniBand网络施压,然后人工找出有问题的设备,再对问题设备或者问题端口进行处理。

一般的步骤为:(1)先检查确认opensm服务处于运行状态,各个节点IB子卡处于正常运行状态;(2)对整个IB网所有IB设备的错误计数清零;(3)运行IB网络压力程序;(4)通过ibdiagnet输出IB网络的诊断信息,如果发现有设备记录到错误,需根据设备的lid号和端口号对照ibnetdiscover输出的网络结构去查找对应的设备,以及和该端口处于同一条链路的另一个设备;(5)对有问题的设备进行故障排查。其中,步骤(1)、(2)、(3)执行比较快速,整个调试过程主要的工作在第(4)步。如果IB网的规模比较小,比如几十台,每次出现问题的设备数量也会比较少,一般只有几个。这个时候手工对照两个命令的输出也可以很快找到问题设备。但当集群的规模比较大时,例如超过1000个节点,这个时候ibdiagnet诊断信息的输出比较多,而ibnetdiscover输出的网络结构数据更多,同时相对于小规模的集群,初次安装后出错的IB设备数量也会偏多。这个时候如果还是手工一个一个去对比查找问题设备将是非常耗时的一项工作,在大型的超算中心,一次这样的调试甚至会消耗工作人员半天到一天时间;同时由于查找工作是靠人工查找对比,在查找过程中也会非常容易出现遗漏。

发明内容

针对上述现有技术的缺陷,本发明提出了一种InfiniBand网络检测方法,解决了如何提高IB网络的调试效率的技术问题。

根据本发明的一个方面,提供了一种InfiniBand网络检测方法,包括:步骤S1:获取所述InfiniBand网络中的设备的设备名称与LID号的第一对应关系和所述设备中的各个端口的物理端口号和逻辑端口号的第二对应关系;步骤S2:获取所述InfiniBand网络中的出错端口所在的设备的LID号和所述出错端口的逻辑端口号;步骤S3:根据所述第一对应关系、所述第二对应关系、所述出错端口所在的设备的LID号和所述出错端口的逻辑端口号获取所述出错端口所在的设备的设备名称和所述出错端口的物理端口号。

在所述方法中,所述步骤S1包括:通过Ibnetwork命令获取所述InfiniBand网络中的设备的设备名称与LID号的第一对应关系和所述设备中的各个端口的物理端口号和逻辑端口号的第二对应关系。

在所述方法中,所述步骤S2包括:通过Ibdiagnet命令获取所述InfiniBand网络中的出错端口所在的设备的LID号和所述出错端口的逻辑端口号。

在所述方法中,所述方法还包括:通过所述出错端口所在的设备的设备名称和所述出错端口的物理端口号获取故障端口所在的设备和所述故障端口的物理端口号,其中,所述故障端口与所述出错端口是处于同一链路上的两个端口。

在所述方法中,所述方法还包括:将所述故障端口所在的设备的设备名称和所述故障端口的物理端口号输出。

在所述方法中,在所述步骤S1之前,所述方法还包括:确认所述Infiniband网络的Opensm服务处于运行状态,并且确认所述InfiniBand网络的各个节点子卡处于正常运行状态;将所述InfiniBand网络的所有设备的错误计数清零;以及对所述Infiniband网络运行InfiniBand网络压力程序。

本发明可以广泛适用于不同规模的集群,一次运行便可以找出整个IB网络有问题的链路,并可以和其他调试方法进行集成,最大程度减少人工失误,大大提高了大型IB网络的调试效率,并节省时间和人力。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310253119.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top