[发明专利]一种流式重复数据检测方法有效
| 申请号: | 201110162619.9 | 申请日: | 2011-06-16 | 
| 公开(公告)号: | CN102253820A | 公开(公告)日: | 2011-11-23 | 
| 发明(设计)人: | 周可;魏建生;张攀峰;李春花;王桦 | 申请(专利权)人: | 华中科技大学 | 
| 主分类号: | G06F5/06 | 分类号: | G06F5/06 | 
| 代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智 | 
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 重复 数据 检测 方法 | ||
技术领域
本发明属于计算机数据传输及存储系统,具体涉及一种数据流中的重复数据删除方法。
背景技术
互联网的扩展使得数据信息呈几何级数爆炸性增长,图灵奖得主吉姆.格雷(Jim Gray)指出:网络环境下每18个月新增的数据量等于有史以来数据量的总和。数字图书馆、电子商务、医学影像、生物工程、科学计算、虚拟现实、数字化地球、网站多媒体等应用的不断发展,对建立高性能、高可靠的海量信息存储系统提出了需求,未来的存储系统其规模将达到PB级甚至EB级。海量的数据的传输与存储对网络系统及存储设备及服务器系统提出了非常高的要求,另一方面虚拟技术及云存储及各种网络应用的发展,使得大数据的流动变成了经常的事情。大量数据的转移、上载、下载给网络造成了沉重的负担,降低了用户的网络体验。同时大数据量的流动也加剧了存储系统的开销。但在这些数据流中实际上存在大量的数据冗余,即数据流中存在许多重复的数据块,这些冗余及重复的数据占据着大量的网络带宽和存储空间。而这些重复数据完全可以通过重复数据删除技术进行清洗,以达到节约存储空间提高带宽利用率的目的。
关于重复数据删除技术,近几年来,国际上对重复数据的检测与删除进行了大量的研究并提出了几种重复数据检测方法。主要有:完全文件检测(whole file detection,简称WFD)、固定块(fixed-sized chunking,简称FSC)检测技术、基于内容的块检测技术(content-defined chunking,简称CDC)、滑动块(sliding block)技术、shingle检测技术、bloom filter检测技术、模式匹配的检测技术等。这些重复数据检测技术尽管方法不同,但目的都是为了检测出存储系统中不同文件或数据对象间存在的相同数据块。流式重复数据检测,目前已知的有三种方法,(分段窗口模型(Landmark window model)、跳跃窗口模型(Jumping window model)、滑动窗口模型(Sliding window model)。分段窗口模型是按照等时或等长条件将数据流分成多个段,在每次检查重复数据时,只需放置一段于内存中。该方法的主要缺点是无法同时检测各段之间的重复数据。跳跃窗口模型是先定义一个能容纳N个数据段的滑动窗口,然后将数据流分成很多小段;每次从窗口的一端跳入一个数据段进入窗口,同时从窗口的另一端淘汰一个数据段;窗口内的所有数据段之间可以进行重复数据检测。该方法的主要缺点,是数据流不够流畅,同时无法精确分析重复数据检测的结果。滑动窗口模型仅仅维持最近的N个元素,当一个新元素到达时,同时淘汰到期的旧元素。该方法的主要缺点是当N的取值过大时检测的开销不可接受。
发明内容
本发明的目的在于提出一种高效精准的流式重复数据检测方法,在减小内存开销的同时提高了查询效率和精准度。
一种流式重复数据检测方法,涉及由多个布隆过滤器TBF在逻辑上构成的循环先入先出队列,将逻辑上从队首到队尾的TBF依次计为TBF1,TBF2,…,TBFg,g为TBF的个数,每个TBF包含一个位向量BV和k个哈希函数,每个位向量关联一组计时器TA,位向量用于插入数据元素,计时器数用于记录插入数据元素时的时间戳,该检测方法具体为:
(1)插入数据元素x:采用所述k个哈希函数分别对数据元素x进行计算得到k个哈希值h1(x),h2(x),...,hk(x),将处于队尾的TBFg中偏移量为h1(x),h2(x),...,hk(x)的k个位的值分别置1,同时启用这k个位关联的计时器记录置1时的时间戳;若TBFg此时已装满数据元素,则清空处于队头的TBF1并将其摘下置为队尾;
(2)检测数据元素x是否为重复数据:
(21)在TBF1,TBF2,…,TBFg-1中查询是否存在一个TBF,其偏移量为h1(x),h2(x),...,hk(x)的k个位的值全为1,若存在,则说明该TBF插入过数据元素x,进入步骤(22),否则,x不为重复元素
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110162619.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





