[发明专利]一种定位服务器宕机故障的装置及方法在审
申请号: | 201810653019.4 | 申请日: | 2018-06-22 |
公开(公告)号: | CN108984332A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 骆健;张锋;宋晓锋 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 黄晓燕 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志 宕机 故障诊断系统 日志收集模块 定位服务器 业务服务器 定位模块 故障器件 规则库 定位故障位置 监控服务器 定位效率 快速定位 人力成本 分析 触发 匹配 解析 部署 | ||
本发明实施例公开了一种定位服务器宕机故障的装置及方法,装置包括部署在监控服务器上的MCA故障诊断系统,还包括日志收集模块和分析定位模块,日志收集模块在MCA故障诊断系统的触发下,收集业务服务器的CSR日志;分析定位模块用于解析收集到的日志,与规则库的内容进行匹配,定位故障位置。本发明通过获取和分析业务服务器的CSR日志,结合规则库,快速定位引起宕机的故障器件,提高故障器件的定位效率,且整个过程无需人为参与,大大节省了人力成本。
技术领域
本发明涉及服务器故障定位技术领域,具体地说是一种定位服务器宕机故障的装置及方法。
背景技术
服务器操作系统上一般运行着非常关键的业务应用,系统的可靠性非常重要。但随着系统硬件资源规模的不断扩展,系统业务应用复杂程度的不断提高,系统出现不稳定的几率也随之不断上升。服务器宕机问题在机房时有发生,严重影响业务应用的运行。
在发生服务器宕机时,运维工程师通常根据BMC(Baseboard ManagementController,基板管理控制器)上报的信息进行故障定位和维修。
然而,宕机后BMC上报故障能力非常有限,要定位故障部件,需要运维工程师同时结合自身的经验,反复验证和测试故障部件,需花费大量的时间,且对运维工程师的经验要求较高,增大了人力成本。
发明内容
本发明实施例中提供了一种定位服务器宕机故障的装置及方法,以解决现有技术中服务器宕机时,故障定位的效率低、成本高的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明第一方面提供了一种定位服务器宕机故障的装置,包括部署在监控服务器上的MCA故障诊断系统,所述装置还包括
日志收集模块,在MCA(Machine-check Architecture,故障诊断结构)故障诊断系统的触发下,收集业务服务器的CSR(Control and Status Register,控制和状态寄存器)日志;
分析定位模块,用于解析收集到的日志,与规则库的内容进行匹配,定位故障位置。
结合第一方面,在第一方面第一种可能的实现方式中,所述规则库记录不同宕机场景下对应的故障部件,并记录更换和/或维修部件的规则。
结合第一方面,在第一方面第一种可能的实现方式中,所述日志收集模块包括
发送单元,在MCA故障诊断系统的触发下,向业务服务器发送IPMI命令,请求CSR日志;
接收单元,收集业务服务器返回的CSR日志。
结合第一方面,在第一方面第一种可能的实现方式中,所述分析定位模块包括
日志解析单元,用于解析CSR日志的内容,得到故障类型;
故障定位单元,匹配相应故障类型的数据库,定位故障具体位置。
结合第一方面,在第一方面第一种可能的实现方式中,所述故障类型包括内存部件故障类、PCIE(peripheral component interconnect express,一种高速串行计算机扩展总线标准)部件故障类、CPU(Central Processing Unit,中央处理器)故障类和主板故障类。
结合第一方面,在第一方面第一种可能的实现方式中,所述规则库包括内存故障数据库、PCIE故障数据库、CPU故障数据库和主板故障数据库。
本发明第二方面提供了一种定位服务器宕机故障的方法,包括以下步骤:
在MCA故障诊断系统的触发下,收集业务服务器的CSR日志;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810653019.4/2.html,转载请声明来源钻瓜专利网。