[发明专利]多核处理器的瞬时故障容错系统无效
申请号: | 201310695327.0 | 申请日: | 2013-12-18 |
公开(公告)号: | CN103617094A | 公开(公告)日: | 2014-03-05 |
发明(设计)人: | 季振洲;刘春雷;吴昊;廉晓洋 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F15/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150000 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多核 处理器 瞬时 故障 容错 系统 | ||
技术领域
本发明涉及计算机软硬件领域,尤其涉及一种多核处理器的瞬时故障容错系统。
背景技术
在体系结构技术的推动下,目前的微处理器已经全面进入片上多核时代。多核处理器是高性能计算机中关键的一环,但处理器数量的快速增长,以及采用基于互联网的集群、网格技术等原因,导致高性能并行计算系统的出错概率随之增加。同时,航空航天、核模拟实验、军事情报搜集处理、天气预报等等领域越来越依赖高性能计算。因此,对于高性能并行计算系统的可靠性能研究是尤为重要的。
MIPS架构多核处理器是一种基于RISC架构且兼容MIPS64指令的多核处理器,但是以MIPS架构为代表的多核处理器芯片在受到高能粒子轰击或噪声干扰时仍存在发生瞬态故障的问题,而且现有的系统容错加固机制并不适用于MIPS架构多核处理器的特有架构与指令系统,导致MIPS架构多核处理器应用于高性能并行计算中的可靠性得不到保证。
发明内容
本发明为解决MIPS架构多核处理器芯片因容易受到高能粒子轰击或噪声干扰等恶劣环境影响而发生瞬态故障的问题,进而提供一种多核处理器的瞬时故障容错系统。
本发明是通过以下技术方案实现的:
一种多核处理器的瞬时故障容错系统,包括:故障检测分析子系统、进程监控子系统和检查点设置及恢复子系统;
所述检查点设置及恢复子系统包括:用户态命令模块、libcr库函数模块和进程保护恢复内核模块;
所述用户调用接口模块用于向所述进程保护恢复内核模块发送检查点的保存和恢复的请求并显示操作结果;
所述libcr库函数模块用于触发进程进行检查点的保存和恢复;
所述进程保护恢复内核模块用于接收所述用户调用接口模块发送的检查点的保存和恢复请求,并在执行对所述进程的运行信息的检查点的保存和恢复的操作后返回操作结果。
本发明的有益效果:能够较好地提高计算机系统的可靠性,并提高计算机从瞬时故障中恢复的能力。
附图说明
图1为本发明提供的多核处理器的瞬时故障容错系统的结构示意图;
图2为本发明提供的多核处理器的瞬时故障容错系统的实现方案示意图;
图3为本发明提供的对会话进行检查点保存的流程示意图;
图4为本发明提供的从检查点文件恢复会话的流程示意图。
具体实施方式
为了能够更清晰地阐明本发明的特点和工作基本原理,以下结合附图及实施例,对本发明进行说明。
本具体实施方式提供了一种多核处理器的瞬时故障容错系统,如图1所示,包括:故障检测分析子系统、进程监控子系统和检查点设置及恢复子系统;
所述检查点设置及恢复子系统包括:用户态命令模块、libcr库函数模块和进程保护恢复内核模块;
所述用户调用接口模块用于向所述进程保护恢复内核模块发送检查点的保存和恢复的请求并显示操作结果;
所述libcr库函数模块用于触发进程进行检查点的保存和恢复;
所述进程保护恢复内核模块用于接收所述用户调用接口模块发送的检查点的保存和恢复请求,并在执行对所述进程的运行信息的检查点的保存和恢复的操作后返回操作结果。
本具体实施方式提供的多核处理器的瞬时故障容错系统中的多核处理器为MIPS架构多核处理器,运行的操作系统为支持RISC架构,兼容MIPS64指令CPU的Linux操作系统,其中的检查点的保存和恢复为内核级检查点技术。
具体的,本具体实施方式提供的多核处理器的瞬时故障容错系统针对多核处理器系统,添加内核模块,在操作系统级别上实现用户透明的检查点设置与回卷恢复机制。其功能包括系统容错、任务调度和进程迁移。如图2所示,本系统主要包括故障检测分析子系统、进程监控子系统、检查点设置及恢复子系统。
其中,故障检测分析子系统主要功能为:当系统发生故障时,分析故障类型为硬件损坏发生的永久故障,还是由于外界干扰引起的处理器内部电路单元状态发生改变的瞬时故障。发生硬件故障,硬件已损坏,无法再进行检查点设置及恢复操作;只有分析故障类型为瞬时故障时,才有必要进行本故障容错系统的其他操作。
另外,进程监控子系统自系统运行开始,始终运行于后台,系统终止运行时终止。对系统关键进程进行监控,当进程发生故障时,向故障分析子系统发送信号,令其对该进程发生故障类型进行分析。
最后,检查点设置及恢复子系统包括:用户态命令模块、libcr库函数模块和进程保护恢复内核模块三大部分:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310695327.0/2.html,转载请声明来源钻瓜专利网。