[发明专利]数据分块方法及设备有效

专利信息
申请号: 201210121398.5 申请日: 2012-04-23
公开(公告)号: CN102682086A 公开(公告)日: 2012-09-19
发明(设计)人: 覃强;刘冬 申请(专利权)人: 华为技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同立钧成知识产权代理有限公司 11205 代理人: 马爽
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 分块 方法 设备
【说明书】:

技术领域

发明涉及数据处理技术,尤其涉及一种数据分块方法及设备,属于存储技术领域。

背景技术

分块技术广泛用于重复数据删除系统和广域网加速系统等。以重复数据删除系统为例,分块模块利用分块技术将一个字节序列S划分为数据块集合C,并由重复数据删除模块以这些数据块为单位进行数据重复性判断,若某数据块与存储库内的另一个数据块是重复的,则将这个数据块用长度较小的相应索引替代,从而节约存储空间。稳定性和存储效率是分块技术的两项重要指标。其中,稳定性是指对同样的序列S进行少量更改得出S’,则对S’进行分块所获得的数据块集合C’相对于数据块集合C,除了序列被改动的地方外,其他数据块应保持一致。

目前的分块技术主要包括基于固定尺寸划分(FSP)算法。FSP算法是设定一个预先定义的块大小,其独立于所存取的数据内容,并对所有文件均按照这个预先定义的块大小进行划分。FSP算法的数据分块稳定性较低。例如,当第一数据流进行数据分块后,若得到的数据分块为新的数据块,则存储到数据库中,而当收到需要进行重复数据删除的第二数据流,对第二数据流进行分块时,如果第二数据流和第一数据流的不同之处,仅仅是在第二数据流中增加、删除或是更改了某几个数据,其余的相同,采用FSP算法进行数据分块,往往有大量数据分块均不同于利用FSP算法对第一数据流进行分块获得的数据分块。这种数据分块的低稳定性,导致占用了较多的存储空间。

发明内容

针对现有技术存在的缺陷,本发明提供一种数据分块方法及设备,用以实现稳定性高的数据分块。

一方面,本发明实施例提供一种数据分块方法,包括:

设定滑动窗口,从待分块数据对象中上一个数据分块的结束位置开始滑动所述滑动窗口;

判断所述滑动窗口在当前位置覆盖的数据的特征值是否符合预设标准;若判断获知所述滑动窗口在当前位置覆盖的数据的特征值符合预设标准,则将所述当前位置覆盖的数据划分为第一数据分块;判断所述第一数据分块的起始位置与所述上一个数据分块的结束位置之间的数据的长度是否大于等于所述滑动窗口的长度;若是,则根据所述第一数据分块的起始位置与所述上一个数据分块的结束位置之间的数据生成第二数据分块;

若所述第一数据分块的结束位置至所述待分块数据对象的尾部之间的数据的长度大于等于所述滑动窗口的长度,则所述滑动窗口从所述第一数据分块的结束位置开始,返回执行判断所述滑动窗口在当前位置覆盖的数据的特征值是否符合预设标准的步骤。

另一方面,本发明实施例还提供一种数据分块设备,包括:

第一处理模块,用于设定滑动窗口,从待分块数据对象中上一个数据分块的结束位置开始滑动所述滑动窗口;

第二处理模块,用于判断所述滑动窗口在当前位置覆盖的数据的特征值是否符合预设标准;若判断获知所述滑动窗口在当前位置覆盖的数据的特征值符合预设标准,则将所述当前位置覆盖的数据划分为第一数据分块;

第三处理模块,用于判断所述第一数据分块的起始位置与所述上一个数据分块的结束位置之间的数据的长度是否大于等于所述滑动窗口的长度;

第四处理模块,用于若所述第一数据分块的起始位置与所述上一个数据分块的结束位置之间的数据的长度大于等于所述滑动窗口的长度,则根据所述第一数据分块的起始位置与所述上一个数据分块的结束位置之间的数据生成第二数据分块;

第五处理模块,用于若所述第一数据分块的结束位置至所述待分块数据对象的尾部之间的数据的长度大于等于所述滑动窗口的长度,则所述滑动窗口从所述第一数据分块的结束位置开始,由所述第二处理模块返回执行判断所述滑动窗口在当前位置覆盖的数据的特征值是否符合预设标准的步骤。

根据本发明的数据分块方法及设备,基于数据的特征值来划分一个数据分块,并且基于这个数据分块与前一数据分块之间的数据长度来划分另一个数据块,而非按照固定长度对待分块数据对象进行分块。当第一数据流进行数据分块后,若得到的数据分块为新的数据块,则存储到数据库中,而当收到需要进行重复数据删除的第二数据流,对第二数据流进行分块时,如果第二数据流和第一数据流的不同之处,仅仅是在第二数据流中增加、删除或是更改了某几个数据,其余的相同,采用本发明实施例的方法对第二数据流进行数据分块时,仅发生更改的数据所在数据分块可能发生变化,其余数据分块与对应的第一数据流的数据分块保持一致。因此本发明实施例的数据分块方法具有较好的稳定性。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210121398.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top