[发明专利]一种linux系统下的故障内存位置定位方法在审
申请号: | 201310112243.X | 申请日: | 2013-04-02 |
公开(公告)号: | CN103198000A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 李斌;任华进 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F11/22 | 分类号: | G06F11/22;G06F11/34 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 linux 系统 故障 内存 位置 定位 方法 | ||
技术领域
本发明涉及计算机应用领域,具体地说是一种linux系统下的故障内存位置定位方法。
背景技术
对于故障内存位置的判断,之前有两种通用方法:
1)利用主板集成bmc的内存故障定位和记录功能,在内存发生可纠正ecc错误或不可纠正ecc错误时,主板bmc可以记录内存错误信息,并记录故障发生内存槽位,从而快速定位故障内存位置,但这种方法的使用有一定局限性,首先,必须保证服务器存在bmc的管理芯片,然而bmc管理是近几年才开始使用的技术,早期一般机型并无bmc管理芯片;再者,即使机器自带bmc芯片,其不一定具备内存故障定位功能,需要独立开发,所以依旧未必能实现内存故障的定位和检测;bmc内存故障定位功能受管理芯片的存在与否和自身功能的限制,无法成为一个通用的解决方案;
2)内存压力测试:初步判断属于内存故障后,需要从十几条内存中定位哪条内存出现了故障,使用内存压力测试工具,对系统平台和内存进行分批测试,逐渐缩小范围,最终定位哪条内存故障,此方法的使用也存在一定局限:首先对于大容量内存的压力测试,故障复现时间不易掌握,很有可能压力测试一天未必复现故障,尤其对于客户1周左右出现一次故障的机器,复现问题比较困难;其二,使用分批测试的方法,整体测试时间偏长;其三,无法排除是否因为内存接触不良或cpu本身内存控制器问题从而不能做到精确定位;
以上两种通用的处理方法都存在各自致命的使用缺陷,本发明完全不依赖于bmc芯片及其功能,不用压力测试,使用系统运行中生成的mcelog记录,精确定位故障内存错误信息、报错频率及其在主板上的位置,快速定位和解决内存故障。
发明内容
本发明的目的是提供一种linux系统下的故障内存位置定位方法。
本发明的目的是按以下方式实现的,
具体步骤如下:
1)故障平台安装Linux系统,平台及软件安装配置要求:
mcelog支持平台要求;
32 bit x86 Linux:Redhat 6.0版本以上支持,需使用源码,编译安装;
64 bit x86_64 Linux:Redhat 5.0版本以上提供rpm包,默认不安装,需指定安装,从hardware monitoring 选项卡中查找;
如果要随机器启动,请使用 chkconfig 命令;
Chkconfig –-add mcelogd
Chkconfig –-level 5 mcelogd on
Service mcelogd restart
Mcelog 相关文件
设备文件/dev/mcelog
日志文件/var/log/mcelog
配置文件/etc/mcelog/mcelog.conf
2)客户系统应用或使用内存压力测试工具;
3)MCA MCE MCELOG原理说明如下:
在计算机中,机器校验架构MCA是指在操作系统中CPU报告硬件错误的一种机制,是cpu的一个ras特性;当一个ECC错误产生的时,位于cpu中的特定模型寄存器MSRs会检测到有错误产生,将会触发MCA机制;而后产生一个系统中断,并将由特定模型寄存器MSRs记录下当时各种状态信息,交给操作系统处理,使用MCElog软件解析错误出现的方式,位置以及状态的信息;
MCA的错误报告类型:
有简单错误和复杂错误两种错误类型,这些错误类型通过获取 IA32_Mci_Status MSR状态信息产生,并比对错误代码和具体信息对照表获得相应的错误信息:
寄存器信息和具体表现含义对照表:
MCE:
机器校验异常MCE是一类由硬件错误触发的异常,是一种当计算机硬件错误时发生的由一台计算机的CPU检测的硬件问题,当 CPU 检测到总线,CHIPSET,内存,CACHE硬件出现致命错误时会触发这类异常,这些错误对系统的稳定性危害极大而且无法恢复,会触发系统的复位操作, MCA 架构,OS根据不同的错误源产生的错误类别,错误的严重程度,选择隔离错误,记录错误,甚至屏蔽错误源或重启系统,所以,利用新的MCA架构记录MCE信息,生成mcelog进行故障分析:
MCELOG:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310112243.X/2.html,转载请声明来源钻瓜专利网。