[发明专利]一种硬件故障分析系统和方法在审
| 申请号: | 201510662922.3 | 申请日: | 2015-10-14 |
| 公开(公告)号: | CN106598800A | 公开(公告)日: | 2017-04-26 |
| 发明(设计)人: | 文洋;谈虎;王亮;蔡衢;蒋勇;蒋彪 | 申请(专利权)人: | 中兴通讯股份有限公司 |
| 主分类号: | G06F11/30 | 分类号: | G06F11/30 |
| 代理公司: | 深圳鼎合诚知识产权代理有限公司44281 | 代理人: | 薛祥辉,李发兵 |
| 地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 硬件 故障 分析 系统 方法 | ||
技术领域
本发明涉及计算机应用领域,尤其涉及一种硬件故障分析系统和方法。
背景技术
目前,随着云计算的深入发展和日渐复杂,数据中心机房作为云计算的基础,压力与日俱增。为了保证机房内的机器的正常运行,给用户提供可靠良好的服务,现有技术中将机器的硬件产生的错误通过SMI(System Management Interrupt,系统管理中断)上报给BIOS(Basic Input Output System,基本输入输出系统),BIOS进行一系列处理后,再通过NMI(Non Maskable Interrupt,不可屏蔽中断)上报到操作系统内核处理;操作系统在MCE(machine check exception,机器检查异常)中断处理函数中进行进一步的处理,并读取CPU的异常信息寄存器等信息,保存到/dev/mcelog字符设备的环形缓冲区;用户态程序mcelog轮询/dev/mcelog字符设备,解析出寄存器的内容,并记录到MCELOG日志文件,用户态程序mcelog通过分析mcelog异常信息,可以实现PFA(Predictive Failure Analysis预测故障分析)功能。
但是上述技术存在很多缺陷,上述技术中的用户态程序MCELOG只能在每一台单独的机器上运行,只能预测这台机器的故障,不能批量预测机房内所有机器的硬件故障,所以要知道机房内所有的机器的故障信息,只能在每台机器上都利用用户态程序MCELOG进行预测,然后在每台机器上查看故障信息,这无疑增加了工作时间和工作量;其次,上述用户态程序MCELOG解析得到的故障信息只是记录到后台的MCELOG日志文件,用户无法直接感知,用户使用感较差;而且MCELOG日志文件记满了就丢弃掉了老的故障信息,没有充分利用起来,白白浪费了存储资源和MCELOG日志文件资源,也没有根据MCELOG日志文件为机器的正常运行提供帮助。
发明内容
本发明要解决的主要技术问题是,提供一种硬件故障分析系统和方法,解决现有技术中硬件故障分析过程中存在的不能长期地批量预测机房内所有机器的硬件故障,工作时间长,工作量大的问题。
为解决上述技术问题,本发明提供一种硬件故障分析系统,包括:
用户配置模块,用于配置所有待监控的机器的地址、故障日志文件的存放路径、故障日志文件的采集周期和故障判断条件;
信息采集模块,用于获取待监控的机器的地址、存放路径和采集周期,根据采集周期,周期性地获取与地址对应的待监控的机器的故障日志文件,并将故障日志文件存放到存放路径中;
当前故障预测模块,用于获取故障判断条件和存放路径中的故障日志文件,根据故障判断条件对故障日志文件进行故障预测处理,得到预测结果。
进一步地,用户配置模块配置的故障判断条件包括各故障的故障时间窗和各故障对应的故障门限值;当前故障预测模块具体用于获取各故障的故障时间窗、各故障对应的故障门限值和存放路径中的故障日志文件;并对在各故障的故障时间窗内的故障日志文件中的故障信息进行计数统计,当计数值大于该故障对应的故障门限值时,预测该故障对应的硬件即将失效。
进一步地,还包括结果呈现模块,用于在界面至少呈现预测结果。
进一步地,还包括清除模块,用于清除结果呈现模块呈现的至少一个预测结果,并将与清除的预测结果对应的故障日志文件中的故障信息转化为历史故障信息。
进一步地,用户配置模块还用于配置历史故障信息处理参数;硬件故障分析系统还包括历史故障信息处理模块,用于根据历史故障信息处理参数对历史故障信息进行处理,得到各故障间的逻辑关系。
进一步地,用户配置模块配置的历史故障信息处理参数包括频繁情节规则挖掘参数;历史故障信息处理模块具体用于读取频繁情节规则挖掘参数,根据频繁情节规则挖掘参数对历史故障信息进行处理,挖掘各故障间的频繁情节规 则。
进一步地,用户配置模块配置的频繁情节规则挖掘参数具体包括:滑动时间窗、滑动步长、支持度门限值和置信度门限值;历史故障信息处理模块具体用于根据滑动时间窗和滑动步长对历史故障信息中的各故障间的支持度和置信度进行计数统计,确定出大于支持度门限值或者置信度门限值的各故障间的频繁情节规则。
进一步地,用户配置模块配置的历史故障信息处理参数包括统计条件,统计条件包括统计维度和统计时间段;历史故障信息处理模块具体用于根据统计维度和统计时间段对历史故障信息进行分类、统计和排序,得到统计结果。
本发明还提供一种硬件故障分析方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510662922.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种故障注入模拟系统及故障管理系统
- 下一篇:一种协程监控方法及装置





