[发明专利]一种集群网络故障自检系统及方法在审
申请号: | 201810479418.3 | 申请日: | 2018-05-18 |
公开(公告)号: | CN108769170A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 李俊 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L12/26;H04L12/24 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 高经 |
地址: | 450000 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 故障自检系统 集群网络 计算节点 网络模块 主节点 程序模块 网络驱动模块 高性能计算技术 节点间网络 故障类型 检测结果 模块检查 配置检测 配置网络 网络连通 网络IP 硬件层 检测 服务器 反馈 修复 记录 统计 网络 | ||
本发明公开了一种集群网络故障自检系统及方法,属于服务器高性能计算技术领域。本发明的集群网络故障自检系统,在主节点上配置检测程序模块和IPMI网络模块,在各计算节点安装网络驱动模块、配置网络IP模块和IPMI网络模块,主节点的IPMI网络模块与各计算节点的IPMI网络模块组成IPMI网络,主节点通过网络驱动模块与各计算节点相连接,通过ping网络IP模块检查网络连通状态,检测程序模块用于检测各计算节点的工作状态并生成检测结果。该发明的集群网络故障自检系统,能够统计节点间网络故障类型并进行简单的修复,同时对难处理的故障或者硬件层故障进行记录反馈,具有很好的推广应用价值。
技术领域
本发明涉及服务器高性能计算技术领域,具体提供一种集群网络故障自检系统及方法。
背景技术
通常的计算集群是由大量的节点构成,包含主节点、计算节点及存储单元等。计算节点是承载计算任务的主体,包含大量的cpu核数、内存等;存储单元包含大量的磁盘空间,用于存放数据;主节点是整个集群的核心,用于投递任务,分配计算、管理作业等各项核心活动。而要实现这种方案所必不可少的就是网络。网络组件对于一个集群稳定运行是至关重要的。
网络承载节点与节点之间的通信作用,如果网络存在故障,将导致诸如无法并行计算,无法递交作业,无法管理整个集群等重大后果,因此保持网络稳定是集群正常使用的一个重大前提。通常的网络包含常见的千兆以太网,万兆以太网,100Gb以太网,Infiniband快速计算网络,FC网络,OPA计算网络等。不同种类的网络在集群中通常也有着各自的作用,某一种网络故障就会导致该网络模块所负责的功能缺失,而降低集群性能或者可用性。随着集群使用年限的增长,这种不稳定性更加明显,同时运维的工作量也将逐步增大。而这些故障需要经过处理修复后,才能够上线继续工作。如果置之不理,会造成资源的浪费和集群实际计算规模的缩小。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能够统计节点间网络故障类型并进行简单的修复,同时对难处理的故障或者硬件层故障进行记录反馈的集群网络故障自检系统。
本发明进一步的技术任务是提供一种集群网络故障自检方法。
为实现上述目的,本发明提供了如下技术方案:
一种集群网络故障自检系统,集群包括主节点和多个计算节点,集群内配置千兆以太管理网、万兆网、IB网、OPA网,在主节点上配置检测程序模块和IPMI网络模块,在各计算节点安装网络驱动模块、配置网络IP模块和IPMI网络模块,主节点的IPMI网络模块与各计算节点的IPMI网络模块组成IPMI网络,主节点通过网络驱动模块与各计算节点相连接,通过ping网络IP模块检查网络连通状态,检测程序模块用于检测各计算节点的工作状态并生成检测结果,当链路发生不明故障,主节点检测出通信不正常时,在主节点上通过IPMI网络模块重启需调节的计算节点或重置该计算节点上的网络驱动模块。
所述IPMI(Intelligent Platform Management Interface)即智能平台管理接口。
IB网即Infiniband网。
OPA网即omni-path网。
通过ping网络IP模块检查网络连通状态,也可以通过拷贝一个文件或者传输几个数据包进行。
作为优选,计算节点存在硬件故障或启动逻辑故障,通过IPMI网络模块重启无法恢复的,则记录系统日志并报警。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810479418.3/2.html,转载请声明来源钻瓜专利网。