[发明专利]用于确定在互连/控制器之间的故障的位置的方法和系统在审

专利信息
申请号: 201410534359.7 申请日: 2014-10-11
公开(公告)号: CN104598341A 公开(公告)日: 2015-05-06
发明(设计)人: A·K·马哈詹;V·塞纳斯;V·苏班纳 申请(专利权)人: 国际商业机器公司
主分类号: G06F11/22 分类号: G06F11/22
代理公司: 北京市金杜律师事务所 11256 代理人: 酆迅;辛鸣
地址: 美国纽*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 确定 互连 控制器 之间 故障 位置 方法 系统
【说明书】:

技术领域

本公开内容涉及分布式计算机系统,并且更具体地涉及针对分布式计算机系统的故障数据。

背景技术

计算机系统中的硬件和软件部件的组合如今已经发展至这样的程度以使得这些计算机系统可以高度地可靠。可以通过使用冗余部件来提供计算机系统中的可靠性。例如,在一些计算机系统中,部件(比如节点控制器(这些节点控制器管理计算机系统的节点的硬件错误请求))是按冗余对(一个主节点控制器和一个冗余(备份)节点控制器)提供的。在这样的主节点控制器故障时,冗余节点控制器接管主节点控制器的操作。冗余对也可以出于相同目的而用于系统控制器。节点控制器和系统控制器也可以被称为服务处理器。服务处理器是在分布式计算机系统中的如下部件,该部件提供操作任务,比如初始化、配置、运行时错误检测、诊断和纠正以及密切地监视其它硬件部件的故障。

系统转储(dump)是冗余节点控制器的工作存储器在具体时间(比如当在冗余节点控制器上运行内的程序已经确定失去与系统控制器的通信时)的记录的状态。第一故障数据捕获(FFDC)是与由节点和/或系统控制器检测到的某个错误有关的最小信息集合。调试转储数据是FFDC的超集合,并且它包括来自控制器的所有信息、包括可能不与具体错误调查直接有关的信息。在错误在节点之一中出现时,从主节点控制器立即捕获对调试信息的转储以用于进一步分析。然而,备份节点控制器仅如果主节点控制器故障并且因而备份节点控制器作为主节点控制器而接管则才可以变成了解错误。这一过程被称为故障转移。等待故障转移过程完成以捕获转储可能延迟对调试信息的转储并且负面地影响用于分析错误的能力。

发明内容

本发明的实施例公开了一种用于确定在互连/控制器之间的故障的位置的方法、计算机程序产品和系统。该方法包括计算机在耦合到互连的多个节点同时收集调试信息。在收集调试信息之后,计算机分析同时收集的调试信息、由此确定互连的哪端引起故障。

附图说明

图1是图示了根据本发明的一个实施例的包括服务器计算机的分布式计算机系统环境的功能框图。

图2是描绘了根据本发明的一个实施例的用于同步调试信息生成的在图1的分布式计算机系统环境内的部件的相互通信的数据流程图。

图3图示了根据本发明的一个实施例的用于根据预定映射同步调试信息生成的场景的示例。

图4描绘了根据本发明的一个实施例的图1的服务器计算机的部件的框图。

具体实施方式

在分布式计算机系统内的正常操作期间,特定节点控制器可以检测错误。该错误可以包括许多不同类型的故障,比如通信故障错误、应用或者进程故障错误、特定节点或者节点控制器操作的崩溃或者锁定以及其它错误。在节点控制器检测到在分布式计算机系统中的错误时,分布式计算机系统的资源尝试存储与该错误相关的错误信息以用于以后取回。分布式计算机系统监视具有高优先级的进程、应用和其它资源而保持那些资源始终可用于用户和其它实体。分布式计算机系统可以运用一个或者多个系统控制器,该一个或者多个系统控制器监视分布式计算机系统的节点控制器和其它设备的操作并且管理节点控制器错误信息。在节点控制器检测到错误时,该错误可能在分布式计算机系统内引起通信故障。通信故障可能给系统控制器在取回节点控制器错误检测信息时带来挑战。

在具有在分级架构中配置的多个服务处理器的系统架构中,在遇到任何错误条件时从多于一个服务处理器同时收集调试信息可以改进错误分析。例如,如果节点内互连经历故障,则没有用于确定互连的哪端是故障的原因的可靠方法。同时从在其之间经历互连故障的节点二者上的服务处理器收集调试信息提供用于错误分析的附加数据。可以从收集同时调试信息受益的故障的另一示例是在节点控制器故障时。在这种情况出现时,主系统控制器不能与故障的节点控制器通信。从备份系统控制器和在经历故障的节点中的备份节点控制器二者同时收集故障数据可以是有益的。可以从收集同时调试信息受益的故障的又一示例是在主节点控制器难以访问在节点内的硬件时。这时,同时从主节点控制器和备份节点控制器二者收集的故障数据可以向系统管理员给予对错误的附加认识。

本发明的实施例认识到如果同时从所有涉及到的服务处理器(即节点控制器和系统控制器)捕获第一故障数据捕获(FFDC)和调试转储数据则可以改进对在分布式计算机系统内的错误的分析。本发明的实施例检测在分布式计算机系统中的错误、确定从哪些服务处理器收集调试信息并且将数据聚合成单个报告。本发明的实施例的实现方式可以采用多种形式,并且随后参照各图讨论示例性实现方式细节。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司;,未经国际商业机器公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410534359.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top