[发明专利]一种服务器硬件故障检测方法及其装置和服务器在审
申请号: | 201510673005.5 | 申请日: | 2015-10-16 |
公开(公告)号: | CN106598790A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 李存龙 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06F11/22 | 分类号: | G06F11/22 |
代理公司: | 深圳鼎合诚知识产权代理有限公司44281 | 代理人: | 薛祥辉,李发兵 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 服务器 硬件 故障 检测 方法 及其 装置 | ||
技术领域
本发明涉及计算机及通信领域,尤其涉及一种服务器硬件故障检测方法及其装置和服务器。
背景技术
在目前的中高端服务器上,服务器一般都具有部分“黑匣子”功能,用于操作系统崩溃是的故障信息记录,可以将OS(操作系统,Operating System)的各种内核异常如内核错误、重启复位、异常打印信息等记录下来,也可以通过SEL(系统事件日志,System Event Log)记录部分简单的硬件错误,再或者通过带外的方式(比如联合测试链路)在故障发生后在现场采集错误,又或者通过带内的异常触发机理被动的监控设备异常,而带内的异常触发机理需要异常条件去触发其异常记录模块才进行记录。这些方法可以一定程度上帮助维护人员确定故障产生的原因,但是这些方法仍存在如下缺陷:
1、上述的方法是通过被动的触发检测记录,缺少对服务器的主动检测,尤其是对服务器硬件故障的主动甄别监控。对于在系统正常启动并运行,且业务质量大幅度下降的情况,系统并不会触发故障信息记录,这是就会造成故障信息被遗漏,使得维护人员在维护时对故障信息的追查困难。
2、由于只有在系统崩溃或者产生异常触发时,才会对检测记录故障信息,因此,造成了系统(业务)运行过程中对硬件故障的采集能力和分析能力严重不足,从而导致系统的预警能力不足,降低了系统的稳定性和可靠性。
3、对于记录的故障信息过于简单、零散,没有准确统一的记录管理,无法做到对故障信息分析一步到位,后期需要大量的分析和筛查、交叉验证才能找到主要故障源。
4、通过带外的方式对故障信息采集,会受限于专业人员、局点环境、信息安全等,环境部署、人员协调、环境恢复等成本高昂。
因此,在目前的服务器故障信息记录实现方案,只有在特定的条件下才能实现故障信息的检测记录,并且其记录的故障信息简单、零散,需要后期的大量分析。
发明内容
本发明要解决的主要技术问题是,提供一种服务器硬件故障检测方法及其装置和服务器,解决现有技术中无法实现对服务器各个工作阶段的硬件进行实时故障信息的检测和记录存储的技术问题。
为解决上述技术问题,本发明提供一种服务器硬件故障检测方法,包括:
服务器的基本输入输出系统装置检测到所述服务器进入启动阶段;
所述基本输入输出系统装置开始对所述服务器在各工作阶段进行硬件故障检测,所述工作阶段包括所述启动阶段;
所述基本输入输出系统装置将检测得到的硬件故障信息进行存储。
在本发明一实施例中,所述启动阶段包括初始化阶段,所述基本输入输出系统装置在所述初始化阶段对所述服务器进行硬件故障检测包括:
所述基本输入输出系统装置根据所述服务器提供的硬件检测机制对所述服务器的CPU、内存、芯片组和电源中的至少一个进行硬件的预检测获取当前的硬件信息,从所述硬件信息中筛选出有故障的硬件信息进行分析处理得到相应的硬件故障信息。
在本发明另一实施例中,所述启动阶段还包括设备枚举阶段,所述基本输入输出系统装置在所述设备枚举阶段对所述服务器进行硬件故障检测包括:
所述基本输入输出系统装置获取所述服务器上各硬件的状态信息和资源信息,并从中识别出现故障的硬件的故障信息。
在本发明另一实施例中,所述启动阶段为冷启动阶段或者热启动阶段。
在本发明另一实施例中,所述工作阶段还包括操作系统预引导阶段和操作系统业务运行阶段中的至少一个。
在本发明另一实施例中,所述工作阶段包括操作系统预引导阶段时,所述基本输入输出系统装置在所述操作系统预引导阶段对所述服务器进行硬件故障检测包括:
所述基本输入输出系统装置对将要引导启动的所述服务器带外的硬件设备进行预检测;
获取所述硬件设备的当前硬件信息;
从所述当前硬件信息中筛选出出现故障的硬件设备的故障信息;
所述工作阶段包括操作系统业务运行阶段时,所述基本输入输出系统装置在所述操作系统业务运行阶段对所述服务器进行硬件故障检测包括:所述基本输入输出系统装置判断所述服务器的硬件中断信号是否到来,若是,则所述基本输入输出系统装置对所述操作系统的相关硬件进行检测;获取所述硬件的故障信息。
在本发明另一实施例中,在所述基本输入输出系统装置将检测得到的故障信息进行存储之前,还包括在所述服务器串行闪存存储器上分配一个用于存储所述硬件故障信息的故障存储区。
为解决上述技术问题,本发明还提供一种基本输入输出系统装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510673005.5/2.html,转载请声明来源钻瓜专利网。