[发明专利]内存错误处理方法和装置在审
申请号: | 202210094649.9 | 申请日: | 2019-03-01 |
公开(公告)号: | CN114579340A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 李钟;楼佳;周栋树 | 申请(专利权)人: | 超聚变数字技术有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 李杭 |
地址: | 450046 河南省郑州市郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 内存 错误 处理 方法 装置 | ||
本申请公开了内存错误处理方法和装置,涉及计算机技术领域,有助于提高内存的RAS。该方法应用于计算机装置,该方法可以包括:获取第一错误描述信息,第一错误描述信息用于描述第一内存页发生的错误的类型;根据第一错误描述信息确定第一内存页发生的错误是可纠正错误中的非镜像回写成功错误;响应上述确定,当第一内存页发生非镜像回写成功错误的次数达到M时,对第一内存页进行隔离,M为大于1的整数。
本申请是分案申请,原申请的申请号是201910157218.0,原申请日是2019年03月01日,原申请的全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机技术领域,尤其涉及内存错误处理方法和装置。
背景技术
针对服务器中的应用层软件,suse、redhat等厂商提供了内存页隔离(pageoffline)等技术,以保障应用层软件使用内存空间的健康性。内存页隔离是操作系统(operating system,OS)层隔离使用内存页的技术。内存页被隔离后,不能再供应用层软件使用。
目前,OS层对可纠正错误(corrected errors,CE)不进行处理,仅在内存页发生不可纠正错误(uncorrected errors,UCE),且具体是选择处理(SW recoverable actionoptional,SRAO)错误、不需要处理(uncorrected no action,UCNA)错误和必须处理(SWrecoverable action required,SRAR)错误时,杀死正在使用该内存页的进程(即关闭正在使用该内存页的应用),从而实现对该内存页进行隔离。其中,SW是软件(software)的英文缩写。但是,可纠正错误会影响内存空间的健康度,从而影响内存的可靠性可用性可服务性(reliability,availability,and serviceability,RAS)。
发明内容
本申请实施例提供了内存错误处理方法和装置,有助于提高内存的RAS。
为达到上述目的,本申请实施例提供了如下技术方案:
第一方面,本申请实施例提供了一种内存错误处理方法,应用于计算机装置(如服务器等),该方法包括:获取第一错误描述信息,根据第一错误描述信息确定第一内存页发生的错误是可纠正错误中的非镜像回写成功错误;响应上述确定,当第一内存页发生该非镜像回写成功错误的次数(即累计次数)达到M(即预设次数)时,对第一内存页进行隔离,M为大于1的整数。这是在考虑到可纠正错误中的非镜像回写成功错误虽然不会导致服务器宕机,但是会对内存的健康度造成一定的影响而提出的技术方案。然而,如果对这类内存错误进行立即隔离,则会导致系统产生不可用碎片化内存,从而影响系统性能,因此,相比立即隔离,本技术方案中采用阈值隔离可以减少因内存页隔离而导致的对系统性能的影响。另外,由于相比立即隔离,阈值隔离可以降低内存页隔离对底层硬件RAS特性(ADDDC/SDDC/ranksparing/SMI风暴抑制)触发的影响,因此,可以提高硬件RAS技术和软件RAS技术的兼容性。
在一种可能的设计中,对第一内存页进行隔离之后,将第一内存页发生的可纠正错误中的非镜像回写成功错误类型的错误的累计次数清零。
在一种可能的设计中,当第一内存页发生的错误是可纠正错误中的非镜像回写成功错误时,且发生本次错误时,第一内存页发生非镜像回写成功错误的累计次数没有达到预设次数,则将第一内存页发生非镜像回写成功错误的累计次数加1,且不对第一内存页进行隔离。
在一种可能的设计中,非镜像回写成功错误包括:巡检可纠正错误、读写可纠正错误、搬移可纠正错误或镜像回写失败错误中的任意一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于超聚变数字技术有限公司,未经超聚变数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210094649.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种晶振振荡检测电路
- 下一篇:一种耕作层的快速重建方法