[发明专利]一种服务器硬件故障的自诊断方法在审
申请号: | 201410173467.6 | 申请日: | 2014-04-28 |
公开(公告)号: | CN103970635A | 公开(公告)日: | 2014-08-06 |
发明(设计)人: | 薛广营;李博乐;陈彦灵 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F11/26 | 分类号: | G06F11/26;G06F11/273 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250014 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 服务器 硬件 故障 诊断 方法 | ||
技术领域
本发明涉及硬件诊断领域,具体地说是一种服务器硬件故障的自诊断方法。
背景技术
服务器系统的设计越来越复杂,一块服务器主板上元器件往往有数千之多,当主板出现硬件故障时,工程师往往需要大量的数据测量并进行详细的分析才能定位到故障位置,这将是一个非常复杂的工作。
对于服务器系统而言,板级硬件故障最常见的问题是时序异常,电压异常,芯片散热异常,芯片工作状态异常。因此,常规的故障排查方法为用示波器逐级测量上电时序,万用表逐点测量电平准位,借助热测量设备评估关键芯片的散热状况,并对关键芯片的工作状态进行测量分析,然后综合分析得出结论。服务器系统主板上电时序复杂,电平类型众多,元器件数量庞杂,工程师往往需要花费大量的时间进行信号量测才能定位到故障。
服务器系统对可靠性要求极高,一般而言,服务器设计通常采用CPLD/FPGA控制时序,对各电平值和温度信息也都有侦测,为便于处理故障,关键芯片的工作状态也都有监控,因此合理利用这些侦测信息,可以大幅提升故障定位效率,减少工程师工作量。
发明内容
本发明提出一种服务器硬件故障的自诊断方法,改进了传统的仪器测量,人工分析定位故障方式,提升工作效率。
本发明提供的服务器硬件故障诊断方法主要包括以下技术点:① 电参数侦测 ② 故障分析 ③ 故障输出。利用服务器系统内的时序控制模块,信号采集模块和系统管理模块,对系统的硬件故障进行自诊断,并通过系统管理接口输出硬件故障信息,方便工程师快速定位。
包括电压温度侦测模块、时序控制模块、信号采集模块、IC工作状态侦测、故障诊断中心和故障输出单元,
① 电压温度侦测模块:侦测主板各电平准位以及热敏点的温度情况;
②时序控制模块:为控制系统上电时序;
③IC工作状态侦测:IC工作状态侦测通常侦测IC的Error或者Alert#,Alarm#等异常输出信号,一般情况下由BMC或者SMC完成;
④故障诊断中心:故障诊断中心负责收集电压温度信息,IC工作状态信息,同时根据时序控制信号情况对各IC工作状态作出综合诊断,并依据预先存储的数据库信息给出故障类型,故障点位置,故障排查优先级。
⑤故障输出单元:故障输出单元是服务器硬件故障自诊断的人机交互接口,其形式可以是串口终端或者web界面,取决于故障诊断中心的接口形式;
实施步骤如下:
①故障诊断中心获取系统侦测点温度电压信息;
②故障诊断中心获取系统时序控制模块输入输出信息;
③故障诊断中心获取IC工作状态信息;
④故障诊断中心根据收集的信息和故障数据库信息作出故障自诊断;
⑤用户通过故障输出接口索取系统硬件故障诊断信息,完成故障定位和故障维修。
本发明的有益效果是:
改进了传统的仪器测量,人工分析定位故障方式,可对系统的硬件故障进行自诊断,并通过系统管理接口输出硬件故障信息,方便工程师快速定位。相对于传统的通过示波器和万用表等测量仪器进行定位,可以大大减少工作量,提升工作效率。
附图说明
附图1是本发明的系统架构图。
具体实施方式
参照具体实施例对本发明作以下详细地说明。
图中各模块的主要功能及实现方式如下:
① 电压温度侦测模块:电压温度侦测模块一般由Hardware Monitor芯片(比如W83795)或者AD转换芯片完成,其主要功能是侦测主板各电平准位以及热敏点的温度情况;
②时序控制模块:时序控制模块一般由CPLD或者FPGA完成,其主要功能为控制系统上电时序;
③IC工作状态侦测:IC工作状态侦测通常侦测IC的Error或者Alert#,Alarm#等异常输出信号,一般情况下由BMC或者SMC完成;
④故障诊断中心:故障诊断中心负责收集电压温度信息,IC工作状态信息,同时根据时序控制信号情况对各IC工作状态作出综合诊断,并依据预先存储的数据库信息给出故障类型,故障点位置,故障排查优先级。故障诊断中心一般由BMC或者SMC承担。
⑤故障输出单元:故障输出单元是服务器硬件故障自诊断的人机交互接口,其形式可以是串口终端或者web界面,取决于故障诊断中心的接口形式。
该设计的具体实施步骤如下:
①故障诊断中心获取系统侦测点温度电压信息;
②故障诊断中心获取系统时序控制模块输入输出信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410173467.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有摄像功能的智能头盔
- 下一篇:带防烟尘湿巾口罩的工作帽