[发明专利]一种基于配对测试的互连网络故障检测与定位方法有效
申请号: | 201810930189.2 | 申请日: | 2018-08-15 |
公开(公告)号: | CN109088766B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 陈淑平;王申;彭龙根;周慧霖;卢德平;钱炜 | 申请(专利权)人: | 无锡江南计算技术研究所 |
主分类号: | H04L12/24 | 分类号: | H04L12/24 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 214000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 配对 测试 互连 网络故障 检测 定位 方法 | ||
本发明公开一种基于配对测试的互连网络故障检测与定位方法,该方法基于配对及两遍筛选进行功能性故障检测与定位;基于分层及配对进行性能及路由故障检测与定位。本发明是一种基于配对及多遍筛选的大规模互连网络故障检测与定位方法,能够对网络中的故障进行快速检测和定位,缩短排查故障的时间,提升大规模网络的可用性、易用性。
技术领域
本发明涉及互连网络领域,尤其涉及一种基于配对测试的互连网络故障检测与定位方法。
背景技术
在高性能计算、大数据、云计算、人工智能等领域,包括Infiniband在内的高速互连网络得到了越来越多的应用。其中,Infiniband是一种高性能的网络传输解决方案,具有高带宽、低延迟的特点,是当前构建超大规模低延迟高带宽数据传输网络的优先选择。大规模互连网络系统可能包含数十万个节点和端口;在系统运行过程中,可能出现各种网络故障,故障的类型多种多样,如硬件故障包括链路Down、链路速率降级、链路丢包等,软件故障包括路由配置错误、LID重复等。这些故障有些比较容易定位,如PCIE链路复位、HCA端口Down等;有些则很难被发现,例如内存访问错误、IB端口丢包严重、PCIE接口不稳定等,出现这类错误时,出错现象为运行课题挂住或直接退出,很难定位到具体的故障原因。网络规模的增大导致进行一次故障检测的时间大幅增加。常用的诊断工具如ibnetdiscover、ibibqueryerrors、ibportstate等在大规模互连网络中存在时间开销大、难于精确定位故障等问题。
发明内容
本发明的目的在于通过一种基于配对测试的互连网络故障检测与定位方法,来解决以上背景技术部分提到的问题。
为达此目的,本发明采用以下技术方案:
一种基于配对测试的互连网络故障检测与定位方法,该方法包括:
功能性故障检测与定位:一、将系统中的所有网卡进行两两配对,在每对网卡上运行功能验证测试题;二、所有网卡对测试结束后,对测试结果进行扫描,根据测试结果将网卡分为两个子集,结果正确的网卡对放入集合S,结果错误的网卡对放入集合E;三、对集合E中的每个网卡,从集合S中任选一个进行配对,重新运行功能验证试题;测试结束后,对测试结果进行扫描,如果集合E中的网卡测试结果正常,则表明该网卡没有错误,将其移入集合S;经过两遍筛选,集合E中的网卡都是存在错误的;
性能及路由故障检测与定位:一、交换机芯片内的性能检测:将所有的网卡进行两两配对,使每个网卡都跟各自所在的交换机芯片内的另一个网卡配对;二、超节点内的性能检测:在网卡本身不存在问题后,检查网络插件板是否存在性能问题;首先将所有的网卡进行两两配对,使每个网卡都跟各自所在的超节点内的另一个网卡配对;三、超节点间的性能检测:当两个超节点内的处理器相互通信时,数据包会经过顶层交换网;检测两个超节点间的路由均衡性时,首先选择两个超节点,并分别选择在超节点内的物理编号对应的处理器,将具有相同物理编号的处理器进行两两配对;配对完成后,在每对处理器上都运行一个双向带宽测试程序;各对处理器同时进行通信时,若路由分配均匀,则不产生拥塞;测试完成后,将所有处理器对的平均带宽从小到大的顺序进行排序,并打印输出,测试人员可以方便地根据测试结果判断超节点间的路由分配是否均匀。
特别地,在每对网卡上运行功能验证测试题,具体包括:功能验证测试题采用“乒乓”方式发送数据,一方首先按照数据布局算法填充发送缓冲区,然后将该缓冲区内的数据发送给对方;对方收到数据后进行数据校验,然后也根据数据布局算法填充一个发送缓冲区,并将其中的数据发送回来;重复迭代执行上述过程;当两个网卡间的数据收发存在错误时,会在相应的结果文件中进行记录。
特别地,所述功能性故障检测与定位还包括:将该集合中的网卡列表汇总,然后根据结果记录文件自动或者人工查看数据错误的消息地址、消息内容、错误数据,由此判断消息错误的具体原因。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡江南计算技术研究所,未经无锡江南计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810930189.2/2.html,转载请声明来源钻瓜专利网。