[发明专利]数据分块方法及设备有效
申请号: | 201210121398.5 | 申请日: | 2012-04-23 |
公开(公告)号: | CN102682086A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 覃强;刘冬 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 马爽 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 分块 方法 设备 | ||
技术领域
本发明涉及数据处理技术,尤其涉及一种数据分块方法及设备,属于存储技术领域。
背景技术
分块技术广泛用于重复数据删除系统和广域网加速系统等。以重复数据删除系统为例,分块模块利用分块技术将一个字节序列S划分为数据块集合C,并由重复数据删除模块以这些数据块为单位进行数据重复性判断,若某数据块与存储库内的另一个数据块是重复的,则将这个数据块用长度较小的相应索引替代,从而节约存储空间。稳定性和存储效率是分块技术的两项重要指标。其中,稳定性是指对同样的序列S进行少量更改得出S’,则对S’进行分块所获得的数据块集合C’相对于数据块集合C,除了序列被改动的地方外,其他数据块应保持一致。
目前的分块技术主要包括基于固定尺寸划分(FSP)算法。FSP算法是设定一个预先定义的块大小,其独立于所存取的数据内容,并对所有文件均按照这个预先定义的块大小进行划分。FSP算法的数据分块稳定性较低。例如,当第一数据流进行数据分块后,若得到的数据分块为新的数据块,则存储到数据库中,而当收到需要进行重复数据删除的第二数据流,对第二数据流进行分块时,如果第二数据流和第一数据流的不同之处,仅仅是在第二数据流中增加、删除或是更改了某几个数据,其余的相同,采用FSP算法进行数据分块,往往有大量数据分块均不同于利用FSP算法对第一数据流进行分块获得的数据分块。这种数据分块的低稳定性,导致占用了较多的存储空间。
发明内容
针对现有技术存在的缺陷,本发明提供一种数据分块方法及设备,用以实现稳定性高的数据分块。
一方面,本发明实施例提供一种数据分块方法,包括:
设定滑动窗口,从待分块数据对象中上一个数据分块的结束位置开始滑动所述滑动窗口;
判断所述滑动窗口在当前位置覆盖的数据的特征值是否符合预设标准;若判断获知所述滑动窗口在当前位置覆盖的数据的特征值符合预设标准,则将所述当前位置覆盖的数据划分为第一数据分块;判断所述第一数据分块的起始位置与所述上一个数据分块的结束位置之间的数据的长度是否大于等于所述滑动窗口的长度;若是,则根据所述第一数据分块的起始位置与所述上一个数据分块的结束位置之间的数据生成第二数据分块;
若所述第一数据分块的结束位置至所述待分块数据对象的尾部之间的数据的长度大于等于所述滑动窗口的长度,则所述滑动窗口从所述第一数据分块的结束位置开始,返回执行判断所述滑动窗口在当前位置覆盖的数据的特征值是否符合预设标准的步骤。
另一方面,本发明实施例还提供一种数据分块设备,包括:
第一处理模块,用于设定滑动窗口,从待分块数据对象中上一个数据分块的结束位置开始滑动所述滑动窗口;
第二处理模块,用于判断所述滑动窗口在当前位置覆盖的数据的特征值是否符合预设标准;若判断获知所述滑动窗口在当前位置覆盖的数据的特征值符合预设标准,则将所述当前位置覆盖的数据划分为第一数据分块;
第三处理模块,用于判断所述第一数据分块的起始位置与所述上一个数据分块的结束位置之间的数据的长度是否大于等于所述滑动窗口的长度;
第四处理模块,用于若所述第一数据分块的起始位置与所述上一个数据分块的结束位置之间的数据的长度大于等于所述滑动窗口的长度,则根据所述第一数据分块的起始位置与所述上一个数据分块的结束位置之间的数据生成第二数据分块;
第五处理模块,用于若所述第一数据分块的结束位置至所述待分块数据对象的尾部之间的数据的长度大于等于所述滑动窗口的长度,则所述滑动窗口从所述第一数据分块的结束位置开始,由所述第二处理模块返回执行判断所述滑动窗口在当前位置覆盖的数据的特征值是否符合预设标准的步骤。
根据本发明的数据分块方法及设备,基于数据的特征值来划分一个数据分块,并且基于这个数据分块与前一数据分块之间的数据长度来划分另一个数据块,而非按照固定长度对待分块数据对象进行分块。当第一数据流进行数据分块后,若得到的数据分块为新的数据块,则存储到数据库中,而当收到需要进行重复数据删除的第二数据流,对第二数据流进行分块时,如果第二数据流和第一数据流的不同之处,仅仅是在第二数据流中增加、删除或是更改了某几个数据,其余的相同,采用本发明实施例的方法对第二数据流进行数据分块时,仅发生更改的数据所在数据分块可能发生变化,其余数据分块与对应的第一数据流的数据分块保持一致。因此本发明实施例的数据分块方法具有较好的稳定性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210121398.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:复合操作型电气元件
- 下一篇:一种井口气远程测定仪
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置