[发明专利]容忍多处理器数据处理系统中不可恢复差错的方法和装置有效
| 申请号: | 01103370.3 | 申请日: | 2001-02-02 |
| 公开(公告)号: | CN1319807A | 公开(公告)日: | 2001-10-31 |
| 发明(设计)人: | 法南茨·蒙尼斯-图塞;小尼古拉斯·A·普莱查克 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F13/14 | 分类号: | G06F13/14;G06F11/20 |
| 代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 付建军 |
| 地址: | 美国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 容忍 处理器 数据处理系统 不可 恢复 差错 方法 装置 | ||
本发明涉及计算机系统领域,更具体地,是涉及一个容忍多处理器系统中数据差错的数据结构和方法。
多处理计算机系统通常包含两个或更多的可以被用来完成计算任务的处理器。可以在一个处理器上完成一个具体的计算任务,其它的处理器同时完成无关的处理任务。可选地,一个具体任务的各组成部分可以被分布在多个处理器上以便减少完成计算任务所需的时间。概括地讲,处理器是一种被用来对一或多个操作数进行操作以产生一个结果的设备。根据处理器执行的一个指令来完成操作。
具有单个基地址和相关(coherent)高速缓存的多处理器系统提供了一种灵活并且强有力的计算环境。单个基地址和相关高速缓存共同缓解了数据分区和动态负载平衡的问题。单个基地址和相关高速缓存还为并行编译器,标准操作系统和多程序提供了较好的支持,从而允许更灵活和有效地利用机器。
多处理计算机系统的一种结构是分布存储器体系结构。分布存储器体系结构通常包含多个结点,其中每个结点均具有一或多个处理器和一个存储器。各结点被连接到一个网络以允许在结点之间进行通信。当被当成一个整体时,所有结点的存储器组合构成一个可以被各个结点访问的“共享存储器”。通常,用目录来标识哪些结点具有对应于一个具体地址的数据的副本。通过检查目录并确定数据状态来维护数据的相关性。
上述示意性的并且已经出现的基于目录的高速缓存相关体系结构包含高速缓存相关非统一存储器访问(CC-NUMA)和唯高速缓存存储器体系结构(COMA)。CC-NUMA和COMA体系结构均具有一个分布存储器,一个可伸缩互连网络,和基于目录的高速缓存相关。分布存储器和可伸缩互连网络提供所需的可伸缩存储器带宽,而基于目录的方案提供了高速缓存相关。与CC-NUMA体系结构相反,COMA体系结构把一个每结点(per-node)主存储器转换成一个也被称作吸引(attraction)存储器(AM)的大的第二或第三高速缓存。通过在主存储器数据的高速缓存线大小分区中加入标签来进行转换。结果,系统中数据项的位置与数据项的物理地址隔离开来,并且根据一个存储器索引模式在主存储器中自动迁移或复制数据项。
不幸的是,在COMA和NUMA体系结构中,数据可能会被破坏,从而导致存储器中的差错。由于存储器作为电子存储设备会返回不同于最初存储的内容的信息,所以会发生这种差错。一般情况下,通常会在一个存储器系统中发生两种差错:可重复(硬)差错和瞬时(软)差错。一个硬差错通常是一个硬件故障的结果,并且由于是始终如一并且可重复的,所以易于诊断和纠正。当一个位仅一次读出错误数值并且后续操作均正确时,就发生了一次软差错。
对存储器差错的唯一防护是使用存储器检错或纠错协议。某些协议可以只检测一个八位数据字节的一个位中的差错,其它协议可以自动检测多于一个位中的差错。别的协议可以检测并纠正单位和/或多位存储器问题。
一般的差错检测/纠正机制包含奇偶校验,纠错码(ECC),等等。本领域中众所周知的是使用奇偶校验和纠错码(ECC)确认在一个中央处理单元(CPU)和一个存储器,编程输入/输出(PIO)设备或其它设备之间传送的数据的可靠性。并且,ECC被用来恢复存储器中的某些数据差错。
当允许奇偶校验检查时,每当一个字节被写到存储器中时,一个被称作奇偶校验生成器/检查器的逻辑电路检查该字节并且确定数据字节具有偶数或奇数个一。如果有偶数个一,则第九(奇偶校验)位被设成一,否则被设成零。这样,无论在最初的八个数据位被有多少个位被设成一,九个位加起来总有奇数个一。这种机制被称作奇校验。当从存储器读出数据时,奇偶校验电路充当一个差错检查器。该电路读出所有九个位并且再次确定有偶数还是奇数个一。如果有偶数个一,则这些位中的一个很可能有差错。当检测到一个奇偶差错时,奇偶校验电路产生一个中断,该中断指示处理器暂停运行以保证不正确的存储器不会破坏正在执行或可执行的进程。
奇偶校验检查提供了单位差错检测,但不校正存储器差错。并且,奇偶校验检查仅仅确定一个差错的存在,并不能校正差错。ECC不仅检测单位和多位差错,而且可以校正单位或多位差错。ECC使用一个特殊的算法对一个位块中的信息进行编码,这个编码包含足够的细节从而允许恢复受保护数据中的一个单位或多位差错。是校正单位差错还是校正多位差错取决于所使用的ECC算法。当ECC检测到一个不可校正的差错时,便产生一个中断,该中断指示系统关机以避免数据被破坏。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/01103370.3/2.html,转载请声明来源钻瓜专利网。





