[发明专利]一种基于全局统计的去碎片方法及系统有效

专利信息
申请号: 201410089576.X 申请日: 2014-03-12
公开(公告)号: CN103885859B 公开(公告)日: 2017-09-26
发明(设计)人: 华宇;冯丹;赖荣誉;夏文;付忞;黄方亭;周玉坤;张宇成 申请(专利权)人: 华中科技大学
主分类号: G06F11/14 分类号: G06F11/14
代理公司: 华中科技大学专利中心42201 代理人: 梁鹏
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 全局 统计 碎片 方法 系统
【说明书】:

技术领域

发明属于计算机信息存储技术领域,更具体地,涉及一种基于全局统计的去碎片方法及系统,主要用于在基于数据去重的云备份系统中实现数据碎片的去除。

背景技术

云备份系统,是使用第三方云存储服务(如Amazon S3和百度云存储BCS)代替传统备份系统的数据中心的一种备份系统。云备份系统将用户备份的数据存放在第三方的云中,采用第三方的云存储代替传统的数据中心有成本低、扩展性强和可靠性高的优势。随着云存储的发展,出现了很多利用第三方云存储存放数据的备份系统和数据同步工具,且呈越来越流行之势。

为了能提高数据上传速度以及节省云存储成本,大部分云备份系统会采用数据去重技术。数据去重技术能找出备份数据流中的重复数据,这些重复数据不需要被再次存储,只需要保存对应已存在数据的地址即可。数据去重技术能有效地加快备份速度和节省存储空间。

由于数据去重技术需要将数据分块,而默认的平均分块长度为8KB,若直接以数据块为单位将数据存储在云端,会导致数据传输效率低下,且会使得存储请求次数增加,增加云存储成本(云存储以请求次数,存储空间和下载流量计费)。为了提高数据传输效率和节省云存储成本,云备份系统一般将数据块聚合成段(segment)进行存储,段长度默认为不大于4MB,在使得段长度大于4MB的那个数据块写入前认为段写满了。段是系统对云端数据管理的基本单位,系统只能上传、下载和删除整个段,而不能下载或者删除段中的部分数据。

基于重复数据删除的云备份系统的备份工作过程包括读数据、分块、求指纹、去重、写数据和上传数据6个步骤。其中分块之后,使用一定的Hash算法对数据块求Hash,求得的Hash值就是数据块的指纹。在去重过程中,使用数据块的指纹在系统指纹库中进行查找,若有相同指纹,则说明云端数据中心存在相同的数据块,即数据块是重复数据,将数据块标记为重复数据;否则标记为新数据,且将指纹插入指纹库中。然后,系统写数据模块根据数据块的去重结果,若是重复数据,则直接保存该重复数据引用的地址;若是新数据则将数据写入段中,然后保存数据块地址。最后,上传数据模块将段上传至云端数据中心。

因为数据去重技术使新版本与旧版本共享数据块,这使得新版本的数据块分散在各个段中。而且对于一个数据流,重复数据在各个段中的分布长度是不均匀的,有些段中有大量数据被引用,而有些段只有很少量数据被引用。而数据流中存在一些重复数据块,它们引用的段中被该数据流引用数据量很少,这些重复数据会严重影响恢复性能,这是因为为了恢复这些重复数据,需要下载他们引用的段,而这些段中包含大量对此次恢复无效的数据,这些数据会严重影响恢复性能。也就是说,随着版本数的增加,数据流中重复数据的分散程度越来越严重,恢复性能会逐渐下降。

发明内容

本发明的目的在于对基于数据去重技术云备份系统中恢复性能随着版本次数增加而逐渐下降的问题,提出一种去碎片的方法,即找出备份数据流中的数据碎片,并将这些数据碎片和新数据写入段中,达到去碎片以提高恢复性能的目的。

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于全局统计的去碎片方法,包括以下步骤:

步骤1,确定待备份的数据流中的各重复数据块,统计各重复数据块所对应的被引用段中所有被引用数据的长度,得到段引用缓冲区;

步骤2,计算待备份的数据流中的各重复数据块所对应的被引用段中所有被引用数据的长度与该被引用段的长度的比值,并判断该比值是否小于设定阈值,若是则将该重复数据块写入新建立的段中。

更进一步地,所述步骤1具体包括:

步骤1.1,判断数据流中的数据块是否是重复数据,若是则转入步骤1.2;否则转入步骤1.5;

步骤1.2,根据该数据块的引用地址,在段引用缓冲区中查找该数据块引用地址对应的记录,若记录不存在,则转入步骤1.3;否则转入步骤1.4;

步骤1.3,在段引用缓冲区中新建记录,该记录包括段ID、段长度、被引用数据的长度和段引用率,该记录的段ID初始化为所述数据块的引用地址,该记录的段长度根据所述段ID查询得到,该记录的被引用数据的长度初始化为0,该记录的段引用率初始化为负值;转入步骤1.4;

步骤1.4,将所述数据块的长度与该数据块引用地址对应的记录的被引用数据的长度相加,并赋值给该数据块引用地址对应的记录的被引用数据的长度;转入步骤1.5;

步骤1.5,将所述数据块存入去重结果缓冲区中,并判断数据流中是否还有数据块,若是则转入步骤1.1;否则转入步骤2。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410089576.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top