[发明专利]一种多分区多节点服务器的报错收集方法在审
申请号: | 202110402331.8 | 申请日: | 2021-04-14 |
公开(公告)号: | CN113110953A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 张莉 | 申请(专利权)人: | 山东英信计算机技术有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 徐胭脂 |
地址: | 250101 山东省济南市高新区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分区 节点 服务器 收集 方法 | ||
本发明提供一种多分区多节点服务器的报错收集方法,包括:获取多路服务器的计算节点的分区情况,并根据分区情况获取主计算节点,从而判断主BMC及其管辖的节点;CPU将报错信息发送给本节点的CPLD;CPLD将所述报错信息存储到内部的寄存器,并发送信号给主BMC;主BMC收集所管辖节点的CPLD内部寄存器信息,并定位报错信息的来源节点及CPU。本发明针对于多节点的服务器,通过主板上的CPLD寄存器暂存本节点的所有异常信息,利用BMC读取CPLD内的寄存器状态,来判断具体异常信息来自的具体位置。
技术领域
本发明属于多节点服务器技术领域,具体涉及一种多分区多节点服务器的报错收集方法。
背景技术
随着服务器的应用日渐广泛,在政府、金融、医疗、能源等行业中,对于大型核心数据库、虚拟化整合、内存计算、高性能计算的需求越来越高,相继出现了两路、四路、八路服务器,即将多个CPU集中在一个主控制板上从而使服务器可以多路并行执行,从而使服务器处理性能大大提升。
随着CPU支持的PCIE、UPI等协议的速率越来越高,并且CPU的核数越来越多,导致CPU的功耗越来越高。在Intel最新Eagle stream平台中,CPU最高功耗已达到350W。在一个八路服务器中,为了实现高密度以及散热的需求,设计的是两路的主板,即四块相同的主板共同组合成一个八路系统,从而争取更大的散热空间。
为保证服务器安全运行,在服务器工作时故障报错是必不可少的关键信息,每个计算节点都有各自的报错信息。CPU的报错信息有thermtrip、error0/1/2、PROC_HOT、MEM_HOT等,对于这些信号,在多路服务器中,硬件上一般是主计算节点的CPLD汇总所有节点的信息,然后在统一报给BMC,此时在BMC的报错log中,只能看到系统报了thermtrip或PROC_HOT等信息,但并不能确认具体是哪个节点,或者是哪个CPU报错。在系统发生故障时,无法快速判断系统异常原因。如图一所示,单分区模式下,每个节点的报错信息汇总给节点0上的CPLD,然后CPLD0再发给本节点上的BMC0(单分区时,节点0的BMC主BMC,CPLD是主CPLD)。
从图中可以看出,在系统发生故障时,只能判断出系统发生的是哪种故障,并不能快速的判断异常节点或者异常CPU。而且对于多节点服务器,由主计算节点的CPLD汇总所有节点的报错信息,会增加CPLD给BMC报错的信号数量,也会增加CPLD芯片使用的GPIO数量,导致需要选取更多GPIO的CPLD,从而造成成本上涨。
发明内容
针对现有技术的上述不足,本发明提供一种多分区多节点服务器的报错收集方法,以解决上述技术问题。
本发明提供一种多分区多节点服务器的报错收集方法,包括:
获取多路服务器的计算节点的分区情况,并根据分区情况获取主计算节点,从而判断主BMC及其管辖的节点;
CPU将报错信息发送给本节点的CPLD;
CPLD将所述报错信息存储到内部的寄存器,并发送信号给主BMC;
主BMC收集所管辖节点的CPLD内部寄存器信息,并定位报错信息的来源节点及CPU。
进一步的,所述方法还包括:
将报错信息存储在主BMC的系统日志中。
进一步的,所述获取多路服务器的计算节点的分区情况,包括:
根据管理板上跳帽的MODE信号判断计算节点的分区情况;
所述多路服务器为八路服务器,所述计算节点的分区情况包括:单分区、双分区、四分区。
进一步的,所述方法还包括:
获取主板上的MS信号,根据MS信号获取计算节点的主从关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东英信计算机技术有限公司,未经山东英信计算机技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110402331.8/2.html,转载请声明来源钻瓜专利网。