[发明专利]一种普适检查点和回滚恢复方法有效
申请号: | 201911362161.4 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111143142B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 虞致国;常龙鑫;顾晓峰 | 申请(专利权)人: | 江南大学 |
主分类号: | G06F11/22 | 分类号: | G06F11/22;G06F11/07;G06F11/14 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 彭素琴 |
地址: | 214000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检查点 恢复 方法 | ||
本发明公开了一种普适检查点和回滚恢复方法,属于处理器容错技术领域。该方法通过增设valid状态位,确保了不会使用不完整的检查点进行故障恢复,能够应对在建立检查点、执行回滚恢复以及故障恢复过程中遇到故障的情况,连续多次执行回滚恢复操作时,切换用于故障恢复的检查点,避免了与当前检查点本身相关的故障;通过采用软错误间隔历史表和模式历史表的自适应预测结构,给出一种自适应动态检查点方法,能够同时根据软错误间隔的长期特征和短期特征对软错误间隔进行更为准确的预测,从而有效地降低处理器任务的平均执行时间,而且该方法能够快速学会预测任意的重复模式,能够应对软错误分布复杂或未知的情况。
技术领域
本发明涉及一种普适检查点和回滚恢复方法,属于处理器容错技术领域。
背景技术
检查点和回滚恢复是一种常用的处理器容错方法,可以用于应对在处理器中发生的软错误。检查点和回滚恢复方法的主要实施流程如下:在任务的执行过程中,定期设置检查点,为系统保存安全、无故障的处理器执行状态,将当前执行状态相关的重要数据(如寄存器、cache数据、主存数据等)存储到安全存储器中;在检测到故障后,用安全存储器中的数据替换当前处理器系统中的对应数据,使处理器的状态回滚到上一个检查点,从而避免从头开始执行,以减少计算性能损失。其中,安全存储器指的是被ECC(Error CorrectingCode)等容软错误技术保护的存储器,安全存储器可以是主存储区的一部分,也可以独立于主存储器,这类存储器能够极大程度地抵抗软错误从而保证所存储数据的安全。
应用检查点容错方法的系统在执行任务时,总的任务执行时间主要分为两个部分,一部分是建立检查点的时间,另一部分是因故障而引起的故障恢复时间。检查点的设置间隔对总的任务执行时间有很大影响,提升检查点的设置频率将减少故障恢复时间,但是建立检查点所用的时间会变长;降低检查点的设置频率将减短检查点的建立时间,但是故障恢复时间会变长。所以为减小任务执行时间,需要合理地设置检查点间隔。
现有的检查点容错方法中,往往仅考虑软错误发生在正常执行过程中的场景(可参考“Walker J R,Papachristou C.A rollback recovery system for embedded FPGAprocessors[D].Case Western Reserve University,2006”),而没有给出在建立检查点过程中、故障恢复过程中发生软错误时的解决方案。
现有的基于检查点的容错系统中,大部分仍然采用固定检查点的方法,固定检查点只有当系统失效服从泊松分布时效果最优,但实际的容错系统并不满足服从泊松分布的条件。实际的容错系统可能存在操作环境发生改变,进而导致软错误分布规律复杂且未知的情况,因此研究人员后续提出了动态的检查点设置方法,动态检查点方法能够根据历史软错误信息对未来一定时间内的软错误发生情况进行预测,进而能够动态地调整后续的检查点间隔。
现有动态检查点算法直接将历史平均软错误率作为未来一段时间的平均失效率(使用历史失效率预测将来的平均失效率),并根据泊松分布条件下的最优检查点公式重新确定检查点间隔。这种预测方法适合于对长期特征的预测,但由于历史平均软错误率不能及时地体现短期内容软错误分布的变化,所以使用该方法进行短期预测的准确度较低。综上所述,现有动态检查点算法不能得到很好的即时性或很高的短期预测精度。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911362161.4/2.html,转载请声明来源钻瓜专利网。