[发明专利]两阶段布谷鸟过滤器及基于两阶段布谷鸟过滤器的重复数据删除方法有效

专利信息
申请号: 202110885281.3 申请日: 2021-08-03
公开(公告)号: CN113535706B 公开(公告)日: 2023-05-23
发明(设计)人: 李挥;刘涛;王博辉;崔凯;蒋傅礼;张华宇 申请(专利权)人: 佛山赛思禅科技有限公司;深圳赛思鹏科技发展有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/22;G06F16/2455
代理公司: 深圳市锟剑恒富知识产权代理有限公司 44769 代理人: 温玉珍
地址: 528200 广东省佛山市南海区桂城街道南平西*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 阶段 布谷鸟 过滤器 基于 重复 数据 删除 方法
【说明书】:

发明适用于数据处理技术改进领域,提供了一种两阶段布谷鸟过滤器,两阶段布谷鸟过滤器,其特征在于,所述两阶段布谷鸟过滤器由若干个桶组成,每个桶由若干个单元组成,每个单元可被用于存放数据指纹,若干个单元构成二维指纹矩阵的结构,每个待插入的元素和两个哈希函数相关联,同时将插入算法按照负载率划分为两个阶段,使用在负载率较低的第一阶段主动进行重定位的策略缓解了数据负载不均的问题,有效的降低了布谷鸟过滤器的插入时延,从而增加了重复数据删除系统的效率和吞吐量。

技术领域

本发明属于数据处理技术改进领域,尤其涉及两阶段布谷鸟过滤器及基于两阶段布谷鸟过滤器的重复数据删除方法。

背景技术

随着信息化时代的到来,互联网上的数据经历了爆发式的增长,根据IDC的报告,2018年全球数据总量为33ZB,并预测该数据将在2025年达到175ZB。同时,为了缓解自建本地存储和维护的成本压力,越来越多的个人、公司和组织将数据的存储业务迁移至云服务提供商。然而,爆发式增长的数据对云服务提供商的存储容量、网络带宽等方面带来严峻的挑战。为了解决数据爆炸的问题,冗余数据消除技术被提出,经历了多年的发展,从无损数据压缩技术到有损数据压缩技术再到重复数据删除技术。

在冗余数据消除技术的前期阶段,编码方式被广泛的应用和研究。哈夫曼编码按照字符出现的概率来构建平均长度最短的编码。后续LZ编码会为数据建立一个数据字典,如果发送方和接收方都有这样的字典,那么实际发送的数据可以由字典的索引代替,从而压缩了数据的实际传送量。

对于多媒体数据,有损数据压缩技术被广泛应用,其以一些不重要的信息为代价,提升压缩比,比如一些频谱非常完备的音乐,将20KHz以上的频谱(人耳的听觉上限)切去也不会影响音乐的质量,这就是MP3有损压缩技术。对于图片来说,JPEG和PNG是两种较为普遍的压缩算法。

在进入新世纪后,重复数据删除技术正式出现,其支持多粒度的重复删除,并且具备更好的扩展性,可以从本地延伸到大型分布式存储系统。重复数据删除技术的含义是指在一个数字文件集合中,检测重复的数据,并只保存数据的唯一实例,从而消除了冗余数据。一种实现成本低,并且重删效果优秀的重复数据删除技术——基于哈希标识的重删技术被广泛的应用于各类存储系统中。其通过计算数据块或者文件的标识并将其存入数据库中,在进行重删流程时,系统会计算待重删数据块的标识并和数据库中的标识进行比对,如果有匹配的则证明相同的数据块已被存储过,系统放弃存储,但是会保留文件和唯一数据块之间的索引信息,保证后续的文件的正常重建。

随着数据量的快速扩张,数据块标识存储所需要的空间开销也越来越大,存储系统的主存无法满足这样的存储开销,因此磁盘等慢速外存设备承担了存储数据块标识的任务。伴随这种解决方案而来的就是磁盘查找瓶颈,限制了整个重删系统的效率,降低重删系统的响应时间。因此越来越多的重复数据删除系统使用额外的技术来减轻磁盘瓶颈带来的性能降低问题。

DataDomain公司提出的DDFS系统使用一种经典的近似集合成员判定数据结构——布隆过滤器来避免磁盘瓶颈。布隆过滤器是一种典型的以部分准确性位代价来换取存储空间开销的数据结构,其能够在极小的空间开销的情况下,完成集合判定,也就是一个元素是否存在于一个集合之中。布隆过滤器不需要存储原始数据本身,而是原始数据的概要信息。其主要数据结构是一个比特向量,同时其包含了若干个哈希函数,用于将数据映射到比特向量中的比特位上。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山赛思禅科技有限公司;深圳赛思鹏科技发展有限公司,未经佛山赛思禅科技有限公司;深圳赛思鹏科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110885281.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top