[发明专利]面向进程失效错误的并行通信库状态自恢复方法有效

专利信息
申请号: 201310096920.3 申请日: 2013-03-25
公开(公告)号: CN103150236A 公开(公告)日: 2013-06-12
发明(设计)人: 廖湘科;卢宇彤;谢旻;所光;曹宏嘉;蒋艳凰;董勇;陈海涛 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06F11/20 分类号: G06F11/20
代理公司: 湖南兆弘专利事务所 43008 代理人: 赵洪;谭武艺
地址: 410073 湖南省长沙市砚瓦池正*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 进程 失效 错误 并行 通信 状态 恢复 方法
【说明书】:

技术领域

本发明涉及计算机并行计算技术领域,具体涉及一种并行程序在运行过程中发生进程失效错误后,采用消息传递编程模式的并行程序的并行通信库状态自恢复方法。

背景技术

近年来随着高性能计算领域的发展和普及,一方面,并行计算机的使用范围越来越广;另一方面,并行计算机的规模越来越庞大。随着并行计算机的并行规模扩大,并行计算机系统的平均无故障间隔时间(Mean Time Between Failures, MTBF)也越来越短,因此并行程序(或为并行应用、并行任务)在运行过程中出现失效的概率也越来越高。

并行计算机包含多个计算节点,并行计算机的资源管理系统是用户使用并行计算机中计算资源的接口,通过资源管理系统提供的工具,系统管理人员和用户可以查看系统状态,提交作业,加载计算任务,查看历史信息等,资源管理系统主要由两个部分组成:作业管理进程、节点管理进程。作业管理进程和节点管理进程可以运行在同一个或不同的物理节点上,作业管理进程的功能主要是接收作业、分配资源、统计分析;节点管理进程的功能主要是接收来自作业管理进程的任务、派生计算进程,作业管理进程、节点管理进程和计算进程的关系如图1所示,并行计算机最左侧的计算节点运行作业管理进程,其它的计算节点则运行计算进程(可包含多个)和节点管理进程针对由多个计算节点组成的并行计算机。

消息传递(Message Passing Interface,简称MPI)编程模型因具有开销低、可扩展的优点,已经成为当前主流的并行程序编程模型。消息传递并行通信库是消息传递编程模型的基础。进程失效会使正在运行中的并行程序出错而退出。因此,在失效后实现通信库的状态自动恢复对提高并行程序的可靠性和可用性具有十分积极意义。但是,当前的主流基于消息传递的并行通信库,例如:MPICH2和OpenMPI,均没有考虑失效后的通信库状态恢复问题。当程序员基于MPI标准编写消息传递并行程序时,在程序的开始阶段首先需要调用并行通信库的初始化函数。消息传递并行通信库初始化过程中,需要创建一个全局通信器、初始化该进程在全局通信器中的序号(称为rank序号)。全局通信器是通信器的一种,在MPI通信库中全局通信器由进程序号列表MPI_COMM_WORLD标示;其余的通信器都直接或间接由全局通信器派生创建。在MPI使用并行通信库的时候,发送或接收消息的时候,发送方或接收方必须使用同一个通信器。MPI通信器内部使用整数上下文区分不同的通信器,全局通信器的进程序号列表MPI_COMM_WORLD在MPI并行库内部也由上下文区分。例如,一个包括四个进程的MPI并行任务在初始化过程中,每个进程都需要创建一个全局通信器,但是这些进程的rank序号不同,此四个进程的rank号分别为0、1、2、3。因此,并行任务的不同进程可以通过通信器的rank序号识别不同的进程,并且可以通过通信器的rank序号向该通信器的不同的进程发送或接收消息。

Linux操作系统中存在多种进程间通信方式,包括:管道、消息队列、网络接口和共享内存等。其中速度最快并且延迟最低的方式是共享内存,使用共享内存通信的两个进程在通信前,必须创建共享内存,创建操作可以只由一方完成。通信时,一方把数据写入共享内存,另一方可以即刻感知,通信双方互不干扰对方的执行。并行程序的故障模型一般分为两类:Byzatine故障模型和Fail-stop故障模型。Byzantine模型中,当一个进程发生故障时,故障进程会引起其它进程产生错误的状态,比如发送错误的数据等。Byzantine模型可以表示任意故障,但检测这类故障非常困难。Fail-stop模型中,当一个进程发生故障时,该进程停止运行,它不会引起系统中的其它进程产生错误的状态。Fail-stop故障模型可描述并行程序中进程挂起或崩溃的情况,是并行计算领域常见的硬件故障模型。高性能计算领域常用的容错技术大多是遵循fail-stop模型,因此,本专利针对Fail-stop故障模型,把并行程序中进程挂起或崩溃的情况统称为进程失效。

目前,美国专利公开号为US7475274 B2、名称为“FAULT TOLERANCE AND RECOVERY IN A HIGH- PERFORMANCE COMPUTING (HPC) SYSTEM”的技术方案记载了一种高性能计算机系统的容错和恢复技术。该技术方案假设HPC系统由管理节点、计算节点、高性能通信网络等单元组成,计算任务在计算节点上计算,管理节点上运行资源管理和监控服务。专利分析了系统如何探测节点失效、失效后的资源管理部分的处理策略、以及结合网络拓扑的资源分配。但是该技术方案没有涉及出错后并行通信库的状态恢复策略。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310096920.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top