[发明专利]一种并行重复数据删除方法和系统有效

专利信息
申请号: 201410204599.0 申请日: 2014-05-15
公开(公告)号: CN103970875B 公开(公告)日: 2017-02-15
发明(设计)人: 曹强;万胜刚;林川;黄国强;谢长生 申请(专利权)人: 华中科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 华中科技大学专利中心42201 代理人: 朱仁玲
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 并行 重复 数据 删除 方法 系统
【说明书】:

技术领域

发明属于计算机存储技术领域,更具体地,涉及一种并行重复数据删除方法。

背景技术

随着信息技术的发展和科技的进步,海量信息的保存对存储系统提出了严峻的挑战,PB级别甚至EB级别的信息存储对数据中心的压力也越来越大。由于海量数据中有很多重复数据,如果直接存储这些重复数据,不但会加重存储系统的负担,而且还会占用宝贵的网络带宽。重复数据删除技术可以消除数据中的重复部分,只保留数据的唯一副本,从而减少了数据所需求的物理存储空间,提高了存储效率,减少传输重复数据对网络带宽的占用。

目前很多的重复数据删除系统都是基于单节点的,虽然可以用高配置的服务器来一定程度上缓解重删对性能的需求,但是对于海量数据的重删来说,单节点系统会存在以下缺点:首先,重复数据删除由于进行了分块和哈希指纹计算,会占用CPU资源,而且哈希指纹存放在内存中几乎要占用全部的内存资源,而且指纹库不能完全放入内存的时候还有一部分指纹库必须放入磁盘,这样查找比较哈希指纹的时候也会带来瓶颈;其次,基于单节点的系统的扩展性有限,无法随着系统规模的扩大而线性的扩展;第三,基于单节点的系统还会受限于网络传输的带宽限制;最后,该系统同时也牺牲了一些重复数据删除率,没有做到100%重复数据删除,使得重复数据删除过后的数据中仍然有重复的数据。同时也牺牲了一些重删率,没有做到100%重删,使得重删过后的数据中仍然有重复的数据。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种并行重复数据删除方法,其目的在于,解决现有单节点重复数据系统中存在的重删处理性能瓶颈、扩展性有限从而无法随着系统规模的扩大而线性的扩展、受限于网络传输的带宽限制、不能实现100%重复数据删除的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种并行重复数据删除方法,包括:

写过程,包括以下步骤:

(1)客户端将虚拟机镜像文件划分为多个相同大小的数据块,并且为每一个数据块分配一个数据块ID;

(2)客户端设置计数器i=1;

(3)客户端利用哈希算法对第i个数据块进行处理,以生成哈希指纹值,根据哈希指纹值生成对应的节点ID,并将<第i个数据块ID,哈希指纹值>二元组传送到哈希指纹值对应的节点ID所对应的数据节点进行哈希指纹查询;

(4)数据节点在其指纹库中查询该哈希指纹值是否命中,如果命中则转到步骤(5),否则转到步骤(8);

(5)数据节点将<第i个数据块ID,PBA)>二元组传送到查询节点;

(6)查询节点根据<第i个数据块ID,PBA>二元组更新其地址映射表;

(7)客户端判断是否虚拟机镜像文件中的所有数据块都已处理完毕,如果是,则过程结束,否则设置i=i+1,并返回步骤(1);

(8)客户端将第i个数据块ID传送到查询节点,并向该查询节点请求分配新的PBA;

(9)查询节点为第i个数据块分配新的PBA,更新其地址映射表,并将<哈希指纹值,PBA>二元组发回到数据节点;

(10)数据节点根据<哈希指纹值,PBA>二元组更新其指纹库,将<第i个数据块ID,PBA>二元组发给客户端,并通知客户端发送第i个数据块;

(11)客户端根据<第i个数据块ID,PBA>二元组发送第i个数据块到数据节点;

(12)数据节点保存第i个数据块,并返回步骤(7);

读过程,包括以下步骤:

(1’)客户端向查询节点发送地址映射表读请求;

(2’)查询节点根据地址映射表读请求将其地址映射表发送到客户端;

(3’)查询节点设置计数器j=1;

(4’)客户端根据地址映射表将虚拟机镜像文件的第j个数据块的PBA发送到对应的数据节点;

(5’)对应的数据节点根据PBA在其指纹库中读取对应的第j个数据块,并将该数据块发回客户端;

(6’)客户端判断是否虚拟机镜像文件的所有数据块均处理完毕,若是则过程结束,否则设置j=j+1,并返回步骤(2’)。

优选地,每个数据块ID包括文件ID和LBA,且每个数据块的大小是4KB至2MB。

优选地,哈希算法包括SHA-1、SHA-2、以及MD5算法。

优选地,步骤(3)是采用DHT算法对哈希指纹值进行计算,以得到节点ID。

按照本发明的另一方面,提供了一种并行重复数据删除系统,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410204599.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top