[发明专利]一种最小存储再生码的编码和存储节点修复方法有效
| 申请号: | 201380001960.3 | 申请日: | 2013-02-26 |
| 公开(公告)号: | CN103688514B | 公开(公告)日: | 2017-07-11 |
| 发明(设计)人: | 李挥;侯韩旭;朱兵 | 申请(专利权)人: | 北京大学深圳研究生院;李挥 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F11/14 |
| 代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙)44248 | 代理人: | 胡玉 |
| 地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 最小 存储 再生 编码 节点 修复 方法 | ||
技术领域
本发明涉及分布式存储领域,更具体地说,涉及一种最小存储再生码的编码和存储节点修复方法。
背景技术
随着计算机网络应用的迅速发展,网络信息数据量变得越来越大,海量信息存储变得尤为重要。传统意义的文件存储系统已经不能满足现有应用的大容量、高可靠性、高性能等方面的要求,分布式存储系统以其高效的可扩展性和高可用性成为存储海量数据的有效系统。然而在分布式存储系统中,存储数据的节点是不可靠的。为了能够由不可靠的存储节点提供可靠的存储服务,需要在存储系统中引入冗余。引入冗余最简单的方法就是对原始数据直接备份,直接备份虽然简单但是其存储效率和系统可靠性不高,而通过编码引入冗余的方法可以提高其存储效率。在目前的存储系统中,编码方法一般采用MDS码(Maximum Distance Separable最大距离可分离),MDS码可以达到存储空间效率的最佳,一个(n,k)MDS纠错码需要将一个原始文件分成k个大小相等的模块,并通过线性编码生成n个互不相关的编码模块,由n个节点存储不同的模块,并满足MDS属性(n个编码模块中任意k个就可重构原始文件)。这种编码技术在提供有效的网络存储冗余中占有重要的地位,特别适合存储大的文件以及档案数据备份应用。
在分布式存储系统中,把大小为B的数据存储在n个存储节点中,每个存储节点存储的数据大小为α。数据接收者只需要连接并下载n个存储节点中的任意k个存储节点的数据即可恢复出原始数据B,这一过程称为数据重建过程。RS(Reed-Solomon里德-所罗门)码是满足MDS码特性的一种码字。当存储系统中的存储节点失效时,为了保持存储系统的冗余量,需要恢复该失效节点存储的数据并将该数据存储在新节点中,该过程称为修复过程。然而,在修复过程中,RS码首先需要下载k个存储节点的数据并恢复出原始数据,之后为新节点编码出失效节点的存储数据。为了恢复一个存储节点的数据而解码出整个原始数据显然对传输带宽是一种浪费。
然而,系统节点失效或者文件损耗,系统的冗余度会随着时间而逐渐减小,因此需要一种机制来保证系统的冗余。文献[R.Rodrigues and B.Liskov,“High Availability in DHTs:Erasure Coding vs.Replication”,Workshop on Peer-to-Peer Systems(IPTPS)2005.]中提出的EC码(Erasure Codes纠错码),该码在存储开销上是比较有效的,然而支持冗余恢复所需要的通信开销也比较大。图1表示只要系统中有效节点数d≥k,就可以从现有节点中获得原始文件;图2表示恢复失效节点所存储内容的过程。从图1和图2中可以看出整个恢复过程是:1)首先从系统中的k个存储节点中下载数据并重构原始文件;2)由原始文件再重新编码出新的模块,存储在新节点上。该恢复过程表明修复任何一个失效节点所需要的网络负载至少为k个节点所存储的内容。
同时,为了降低修复过程中所使用的带宽,文献[A.G.Dimakis,P.G.Godfrey,M.J.Wainwright,K.Ramchandran,“Network coding for distributed storage systems”,IEEE Proc.INFOCOM,Anchorage,Alaska,May 2007.]利用网络编码理论的思想提出了再生码(RGC,Regenerating Codes),RGC码也满足MDS码特性。再生码的修复过程中,新节点需要在剩下的存储节点中连接d个存储节点并分别从这d个存储节点中下载β大小的数据,所以RGC码的修复带宽为dβ。同时给出了RGC码功能修复的模型并提出了RGC码的两类最佳码:最小存储再生码(MSR,Minimum-storage Regenerating)和最小修复带宽再生码(MBR,Minimum-bandwidth Regenerating)。RGC码的修复带宽优于RS码,但RGC的修复过程需要连接d(d>k)个存储节点(d称为修复节点)。另外,修复节点需要对其存储的数据执行随机线性网络编码操作。为了满足所有编码包是相互独立的,RGC码的运算需要在一个较大的有限域内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院;李挥,未经北京大学深圳研究生院;李挥许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380001960.3/2.html,转载请声明来源钻瓜专利网。





