[发明专利]用于分布式计算的主动故障恢复模型有效
申请号: | 201580052408.6 | 申请日: | 2015-07-20 |
公开(公告)号: | CN106796540B | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 哈兰德·S·AL-瓦哈比 | 申请(专利权)人: | 沙特阿拉伯石油公司 |
主分类号: | G06F11/14 | 分类号: | G06F11/14;G06F11/20 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 杨姗 |
地址: | 沙特阿拉*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 分布式 计算 主动 故障 恢复 模型 | ||
本公开大体上描述了用于提供用于分布式计算的主动故障恢复模型的方法和系统,包括计算机实现的方法、计算机程序产品和计算机系统。一种计算机实现的方法包括:构建多个计算节点的虚拟树状计算结构;针对虚拟树状计算结构的每个计算节点,由硬件处理器执行节点故障预测模型,以计算与所述计算节点相关联的平均故障间隔时间(MTBF);基于计算出的MTBF与最大和最小阈值之间的比较来确定是否执行所述计算节点的检查点;将过程从所述计算节点迁移至作为恢复节点的不同的计算节点;以及继续在不同计算节点上执行过程。
优先权要求
本申请要求2014年7月29日递交的美国专利申请No.14/445,369 的优先权,其全部内容通过引用并入本文。
背景技术
在分布式计算系统(例如,同构(簇)、异构(网格和云)等) 上执行具有成千上万的科学应用过程的关键/实时科学应用(例如地震数据处理、三维储层不确定性建模和仿真)需要高端计算能力,这可能需要数天或数周来处理数据以生成所需的解决方案。较长工作执行的成功取决于系统的可靠性。由于部署在超级计算机上的大多数科学应用只要其中一个过程故障就可能会故障,因此分布式系统中的容错是复杂计算环境中的重要特征。容许任意类型的计算机处理故障反应性地通常涉及是否允许对一个或多个过程的状态进行定期检查点设置的选择-可广泛应用于高性能计算环境中的有效技术。然而,这种技术具有与选择最优检查点间隔和检查点数据的稳定存储位置相关联的开销问题。此外,当前故障恢复模型通常限于几种类型的计算故障,并且在计算故障的情况下手动地调用当前故障恢复模型,这限制了它们的有用性和效率。
发明内容
本公开描述了根据一个实施方式用于提供用于分布式计算的主动故障恢复模型的方法和系统,包括计算机实现的方法、计算机程序产品和计算机系统。一种计算机实现的方法,包括:构建多个计算节点的虚拟树状计算结构,针对所述虚拟树状计算结构的每个计算节点,由硬件处理器执行节点故障预测模型以计算与所述计算节点相关联的平均故障间隔时间(MTBF),基于计算出的MTBF与最大和最小阈值之间的比较来确定是否执行所述计算节点的检查点,将过程从所述计算节点迁移至作为恢复节点的不同的计算节点,以及在所述不同的计算节点上继续执行所述过程。
该方案的其他实施方式包括相应的计算机系统、装置和记录在一个或多个计算机可读介质/存储设备上的计算机程序,它们均被配置为执行方法的动作。一个或多个计算机的系统可以被配置为通过在系统上的安装的在操作时使得系统执行动作的软件、固件、硬件或者软件、固件或硬件的组合来执行特定操作或动作。一个或多个计算机程序可以被配置为通过包括指令来执行特定操作或动作,所述指令在被数据处理装置执行时使得该装置执行动作。
前述和其他实施方式可以各自可选地以单独或组合的方式包括以下特征中的一个或多个:
第一方案,可与一般实现方式组合,还包括:针对每个计算节点收集至少计算能力和节点位置参数值,基于所述计算节点的节点位置参数将所述计算节点划分为集合,以及基于所述计算能力参数对每个集合内的节点进行排序。
第二方案,可与前述方案中的任一个组合,还包括:识别上限和下限以确定经排序的计算节点的等级,基于所述计算能力参数以及所述上限和所述下限将每个集合内的计算节点排序为水平等级,将所述水平等级布置和垂直布置记录到与每个计算节点相关联的节点记录信息表中;以及用指定的恢复节点填充每个节点记录信息表。
第三方案,可与前述方案中的任一个组合,其中,所述上限和所述下限是根据针对每个计算节点所收集的计算能力和节点位置参数的交绘图确定的,并且所述垂直布置是至少基于每个计算节点的节点位置参数确定的。
第四方案,可与前述方案中的任一个组合,其中,所述MTBF是至少基于网络或数据存储故障计算的。
第五方案,可与前述方案中的任一个组合,还包括:当所述计算节点的MTBF小于所述下限时创建检查点;以及将与所述计算节点相关联的所述下限更新为等于所述MTBF。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沙特阿拉伯石油公司,未经沙特阿拉伯石油公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580052408.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:安全关键的机动车系统的微控制器系统和方法及其应用
- 下一篇:合并存储操作