[发明专利]面向进程失效错误的并行通信库状态自恢复方法有效
申请号: | 201310096920.3 | 申请日: | 2013-03-25 |
公开(公告)号: | CN103150236A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 廖湘科;卢宇彤;谢旻;所光;曹宏嘉;蒋艳凰;董勇;陈海涛 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F11/20 | 分类号: | G06F11/20 |
代理公司: | 湖南兆弘专利事务所 43008 | 代理人: | 赵洪;谭武艺 |
地址: | 410073 湖南省长沙市砚瓦池正*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 进程 失效 错误 并行 通信 状态 恢复 方法 | ||
1.一种面向进程失效错误的并行通信库状态自恢复方法,其特征在于实施步骤如下:
1)启动作业管理进程和节点管理进程;用户向作业管理进程提交并行任务,作业管理进程根据所述并行任务的并发度分配计算节点并通知节点管理进程;然后作业管理进程实时监控计算进程是否发生失效,如果发生失效则作业管理进程把失效信息发送给节点管理进程;
2)节点管理进程收到来自作业管理进程的派生计算进程的请求,针对每个需要派生的计算进程,节点管理进程利用操作系统提供的共享内存创建系统调用创建一块共享内存,把所述共享内存的初始值设为全0,创建并行作业的计算进程并把共享内存的标识符赋值给计算进程的指定环境变量;计算进程创建成功后,节点管理进程实时监控是否收到来自作业管理进程的失效通知消息,如果收到失效通知消息,则节点管理进程通过共享内存向计算进程发送失效通知消息;
3)计算进程首先初始化并行通信库,根据所述指定环境变量查询得到共享内存的标识符,根据共享内存的标识符通过操作系统提供的共享内存绑定的系统调用绑定到该共享内存,然后执行本地计算;在计算过程中,计算进程调用并行通信库的消息传递接口进行消息传递、检测消息的到达和传输状态;同时,计算进程通过检测绑定的共享内存判断是否有进程失效发生,如果有进程失效发生则转入步骤4);
4)计算进程通过查询共享内存的匹配本次发生失效的计算进程数目和其在全局通信器中的失效进程列表,根据所述本次发生失效的计算进程数目和其在全局通信器中的失效进程列表执行针对进程失效错误的错误恢复操作,恢复计算进程,继续执行本地计算。
2.根据权利要求1所述的面向进程失效错误的并行通信库状态自恢复方法,其特征在于,所述步骤4)中执行针对进程失效错误的错误恢复操作的详细步骤如下:
4.1)清空并行通信库中的错误状态,删除发生错误后到出错处理前发送或接收的报文;
4.2)把出错后全局通信器中的计算进程重新排序,重新排序的规则是排在右侧的正常进程的rank号左移,全局通信器被重新排序后生成收缩全局通信器;
4.3)针对所述收缩全局通信器中的进程,利用并行通信库提供的进程派生功能,根据本次发生失效的计算进程数目和全局通信器中的失效进程列表派生替代进程,替代进程的数目和本次发生失效的数目相同;
4.4)将所述收缩全局通信器中的进程和替代进程重新组合创建新的全局通信器,所述新的全局通信器包含两部分,左半部分为收缩全局通信器中的进程,右半部分为替换进程;
4.5)将所述新的全局通信器中的进程进行重新排序,使得替换进程填补失效进程的位置,并且正常进程维持失效前的进程rank号;
4.6)失效进程恢复成功后,计算进程返回继续执行本地计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310096920.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种乘用车发动机顶置空气滤清器
- 下一篇:摩托车发动机镁合金左曲轴箱盖