[发明专利]一种集群网络故障自检系统及方法在审
申请号: | 201810479418.3 | 申请日: | 2018-05-18 |
公开(公告)号: | CN108769170A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 李俊 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L12/26;H04L12/24 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 高经 |
地址: | 450000 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 故障自检系统 集群网络 计算节点 网络模块 主节点 程序模块 网络驱动模块 高性能计算技术 节点间网络 故障类型 检测结果 模块检查 配置检测 配置网络 网络连通 网络IP 硬件层 检测 服务器 反馈 修复 记录 统计 网络 | ||
1.一种集群网络故障自检系统,集群包括主节点和多个计算节点,集群内配置千兆以太管理网、万兆网、IB网、OPA网,其特征在于:在主节点上配置检测程序模块和IPMI网络模块,在各计算节点安装网络驱动模块、配置网络IP模块和IPMI网络模块,主节点的IPMI网络模块与各计算节点的IPMI网络模块组成IPMI网络,主节点通过网络驱动模块与各计算节点相连接,通过ping网络IP模块检查网络连通状态,检测程序模块用于检测各计算节点的工作状态并生成检测结果,当链路发生不明故障,主节点检测出通信不正常时,在主节点上通过IPMI网络模块重启需调节的计算节点或重置该计算节点上的网络驱动模块。
2.根据权利要求1所述的集群网络故障自检系统,其特征在于:计算节点存在硬件故障或启动逻辑故障,通过IPMI网络模块重启无法恢复的,则记录系统日志并报警。
3.一种集群网络故障自检方法,其特征在于:集群包括主节点和多个计算节点,集群内配置千兆以太管理网、万兆网、IB网、OPA网,主节点的IPMI网络模块与各计算节点的IPMI网络模块组成IPMI网络,主节点通过网络驱动模块与各计算节点相连接,在主节点上通过IPMI网络模块来重启需调节的计算节点,通过IPMI网络模块重启无法恢复的则记录系统日志并报警。
4.根据权利要求3所述的集群网络故障自检方法,其特征在于:所述主节点上配置有检测程序模块,检测程序模块用于检测各计算节点的工作状态并生成检测结果。
5.根据权利要求3或4所述的集群网络故障自检方法,其特征在于:所述方法具体包括以下步骤:
S1:主节点启动自动执行计划任务;
S2:优先检查千兆以太管理网,判定状态类型,若异常,则判定异常类型,计算节点异常则重启节点,返回步骤S1,若网络异常则记录日志并报警,若正常,则执行步骤S3;
S3:通过ping网络IP模块检查网络连接情况,判定网络状态类型,若网络不连通,重置网卡或重装驱动,仍不正常则记录日志并报警,若正常则执行步骤S4;
S4:自带程序收集网卡连接状态,判定状态类型,若正常则结束任务,否则记录日志并报警。
6.根据权利要求5所述的集群网络故障自检方法,其特征在于:所述主节点借助于crond服务启动自动执行计划任务,在crond服务中配置主节点按照一定频次执行检测判断脚本。
7.根据权利要求6所述的集群网络故障自检方法,其特征在于:还包括以下步骤:
S5:手动关闭一个计算节点的网络服务,使主节点与其通信故障,并执行检测判断脚本,若能成功检查恢复网络,则配置正常。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810479418.3/1.html,转载请声明来源钻瓜专利网。