[发明专利]一种分布式文件重复数据删除系统及方法有效

专利信息
申请号: 202010362251.X 申请日: 2020-04-30
公开(公告)号: CN111522791B 公开(公告)日: 2023-05-30
发明(设计)人: 侯孟书;周立康;许佳欣;詹思瑜;周世杰 申请(专利权)人: 电子科技大学
主分类号: G06F16/182 分类号: G06F16/182;G06F16/174
代理公司: 成都金英专利代理事务所(普通合伙) 51218 代理人: 袁英
地址: 610041 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 分布式 文件 重复 数据 删除 系统 方法
【说明书】:

发明公开了一种分布式文件重复数据删除系统及方法。系统包括元信息服务节点,元信息服务节点用于管理数据块的内容地址;元信息表,用于存储HDFS系统中所有数据块的内容地址;至少一个HDFS客户端,其包括元信息服务节点和元信息表,去重文件在HDFS客户端上写入,HDFS客户端将重文件切分为多个数据块,计算每个数据块的指纹值,并调用元信息服务节点查询元信息表,去除重复的数据块,将节点中剩余数据块重组后,之后将剩余数据块和索引数据重组后生成新的索引文件,并与NameNode节点交互将索引文件存储到HDFS上,同时将新产生的数据指纹存储在HDFS客户端数据库的元信息表中。通过本发明使得HDFS客户端快速完成文件的重复数据删除和分布式存储。

技术领域

本发明涉及数据重复删除技术领域,尤其涉及一种分布式文件重复数据删除系统及方法。

背景技术

Hadoop在处理某些特定数据时,特定数据中冗余的数据会影响系统的存储效率,浪费存储资源。而重复数据删除技术可以有效识别系统中重复的文件或数据块,节省系统存储空间,提高系统资源有效使用率。Hadoop是当前大数据领域中主流的开发平台,如能将重复数据删除技术应用在Hadoop平台当中,可有效促进当前大数据的发展。

目前在Hadoop上实现重复删除技术的相关设计,过多的关注于重复数据删除技术本身,而没有贴合Hadoop自身的一些特性去分析设计,导致其并不适合在Hadoop中应用。目前设计中的主要缺点有:

1、首先服务端只有一个而且只有这个服务端能与HDFS交互,这使得服务端成为系统的瓶颈所在,没有充分发挥分布式系统的优势;

2、其次系统中客户端只提供文件的下载与上传,缺少流式数据访问和存储的功能;

3、与Hadoop的抽象文件系统不兼容,Hadoop上的应用功能程序如MapReduce程序无法直接使用,这严重限制了重删系统的使用范围;

4、没有考虑故障恢复问题,Hbase和Redis没有隔离级别,不带回滚功能,不适合作为元信息信息的管理。

发明内容

本发明的目的在于克服现有技术的不足,提供一种带有重复数据删除功能的分布式文件系统,能在HDFS客户端完成文件分块、指纹计算和去重,将去重后的数据块和索引数据重组后生成新的索引文件写入到HDFS系统中。

本发明的目的是通过以下技术方案来实现的:

一种分布式文件重复数据删除系统,包括元信息服务节点、元信息表、至少一个HDFS客户端。元信息服务节点和元信息表设置在HDFS客户端上。

元信息服务节点,元信息服务节点用于管理数据块的内容地址;元信息表,用于存储HDFS系统中所有数据块的内容地址。

HDFS客户端,去重文件在HDFS客户端上写入,HDFS客户端将去重文件切分为多个数据块随机读取去重文件,将去重文件切分为多个数据块,计算每个数据块的指纹值,并调用元信息服务节点查询元信息表,去除重复的数据块,之后将剩余数据块和索引数据重组后生成新的索引文件,并与NameNode节点交互将索引文件存储到HDFS上,同时将新产生的数据指纹存储在数据库的元信息表中。

具体的,所述数据块的内容地址包括数据块的指纹值、引用者数量、文件路径及名字、数据块相对文件的偏移、数据块的大小以及文件创建时间。

具体的,所述HDFS客户端数据库为Mysql数据库,其事物隔离级别设置为读已提交,用于保证去重后的数据块指纹值能够并发的写入到元信息表。

具体的,所述元信息表中增加一个id值以替换hash值作为元信息表的主键,用于避免元信息表并发写入文件时发生主键冲突。

一种分布式文件重复数据删除方法,包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010362251.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top