[发明专利]一种基于大型系统拓扑结构的容错节点分配方法有效

申请号：	201711114201.4	申请日：	2017-11-11
公开（公告）号：	CN107908502B	公开（公告）日：	2021-11-05
发明（设计）人：	全哲;乐雨泉;左克;林轩	申请（专利权）人：	湖南大学
主分类号：	G06F11/14	分类号：	G06F11/14
代理公司：	深圳市兴科达知识产权代理有限公司 44260	代理人：	王翀;贾庆
地址：	410082 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于大型系统拓扑结构容错节点分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于大型系统拓扑结构的容错节点分配方法，包括如下步骤:步骤一、定义系统拓扑结构中节点位置分布，确定节点的位置；步骤二、建模任意两个节点同时失效的概率模型，从而得到任意两个节点同时失效函数；步骤三、计算任意两点同时失效的概率，得到任意两点同时失效的概率为固定值；步骤四、构建节点分配模型，将计算节点集合抽象成对应的无向加权图G(V,E,W)；步骤五、运行覆盖算法，求解最优节点组合，使得集合权值最小，并且将结果保存并返回。本发明相对于传统的节点分配技术，能够使得全系统内存检查点失效概率降低3倍。这也意味着我们能把多级检查点系统中的检查点恢复开销相对于传统做法降低67％。

技术领域

本专利属于信息技术及计算机领域，尤其涉及一种基于大型系统拓扑结构的容错节点分配方法。

背景技术

当前高性能计算系统的计算节点普遍采用的是多核处理器和大容量存储器，随之而来的是系统的可靠性问题越来越严重，应用程序在高性能计算机系统运行时，经常会由于硬件或者软件错误导致系统出现故障。系统的平均无故障时间随高性能计算机体系结构的复杂化而大大缩短，比如，蓝色基因的平均无故障时间为八小时，甚至一些极大规模的系统平均无故障时间都不到半小时。容错技术是一种能够确保大规模系统能够持续正确运行的方法，它通过保证在单节点或者多节点系统故障情况下应用能够持续运行而提高系统的平均无故障时间。目前最流行的容错技术是检查点技术，这种技术把应用的状态定期保存到稳定存储设备上，当系统出现故障时，应用从检查点映像中恢复执行。对于内存检查点的容错节点分配方式，目前通常的做法主要分为以下几种：

1.通过备份每一个检查点文件到配对节点上，双备份模式的方法能够允许节点错误。只要配对节点不同时出错，应用程序就能无故障运行。但是这种做法需要两倍的存储空间，并且配对方式比本地存储速度上要慢。

2.XOR容错节点分配方法把节点分配到不相交且大小为N的集合。它计算来自不同节点文件中的异或部分文件，并且把这部分文件划分为大小为N的片段，之后把每个片段分散到一个节点中。每个节点再根据各自检查点文件所在位置把这些片段文件保存到本地存储。只要不是两个同集合节点同时出错，这种方式能够允许多节点错误。但是这种做法相比配对方式更耗时间。

综上所诉，高性能计算系统的容错处理是解决系统可靠性问题的关键技术。而目前主流的节点分配方式各自都存在着弊端。

发明内容

为解决上述问题，本发明公开了一种基于大型系统拓扑结构的容错节点分配方法。本发明相对于传统的节点分配技术，能够使得全系统内存检查点失效概率降低3倍。这也意味着我们能把多级检查点系统中的检查点恢复开销相对于传统做法降低67％。

为实现上述目的，本发明的技术方案为：

一种基于大型系统拓扑结构的容错节点分配方法，包括如下步骤:

步骤一、定义系统拓扑结构中节点位置分布，确定节点的位置；

步骤二、建模任意两个节点同时失效的概率模型，从而得到任意两个节点同时失效函数；

步骤三、计算任意两点同时失效的概率，得到任意两点同时失效的概率为固定值；

步骤四、构建节点分配模型，将计算节点集合抽象成对应的无向加权图G(V,E,W)，其中G表示无向加权图，V表示顶点集，E表示边集，W表示边的权集，C表示clique集(最大团集)。步骤五、运行覆盖算法，求解最优节点组合，使得集合权值最小，并且将结果保存并返回。

进一步的改进,包括如下步骤：

步骤一、定义大型系统拓扑结构中节点的具体位置分布：

1)用1,2,3,…表示系统中计算节点的编号；