[发明专利]一种基于文件内容类型的重复数据删除方法无效
申请号: | 200910273171.0 | 申请日: | 2009-12-10 |
公开(公告)号: | CN101706825A | 公开(公告)日: | 2010-05-12 |
发明(设计)人: | 周敬利;秦磊华;曾东;聂雪军;刘科;朱建峰 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F11/14 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 方放 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文件 内容 类型 重复 数据 删除 方法 | ||
技术领域
本发明属于计算机数据备份的重复数据删除方法,具体涉及一种基于文件内容类型(Content Type)的重复数据删除方法,适用于基于磁盘的备份系统。
背景技术
进入到21世纪以后,随着信息时代的加速,数据呈现出爆炸性增长的趋势,用户存储容量日趋紧张、数据管理难度日益加大、存储支出逐渐增加。为了应对这些问题,提出了重复数据删除技术,以有效地减少用户日常备份中的重复数据,使得备份数据大大减少,从而为用户节省了存储容量,并降低了数据管理工作的难度。许多存储厂商都推出了基于重复数据删除的备份系统或软件,例如EMC公司的Avamar Data Store备份存储系统,Data Domain公司的DDX阵列以及SEPATON公司的DeltaStor软件。
根据重复数据识别的粒度,重复数据删除技术可分为文件级重复数据删除和数据块级重复数据删除,在备份环境下通常采用后者。数据块级重复数据删除技术是指将备份文件划分为多个数据块,然后判断每个数据块是否已处于存储池中,如果发现某一数据块已经存在,则会在备份文件的索引节点中插入指向已存在数据块的指针;只有不重复的数据块才会被写入磁盘的相应区域。存储池是由硬盘、磁带或光盘构成的计算机虚拟存储设备,用于存储海量数据。
在数据块级重复数据删除技术中,关键问题在于如何将备份文件划分为数据块,即如何确定数据块的边界特征。目前的分块技术有两种,定长分块和变长分块。定长分块是指将文件分块为同一大小的数据块,例如4K、8K等;变长分块是采用滑动窗口对备份文件做整体扫描,如果滑动窗口中的内容满足预定的数据块边界条件,则被识别为一个边界,两个边界之间的所有字节被分块为一个数据块。
对于数据块级重复数据删除技术而言,目前存在的主要问题是:对备份系统中的所有文件采用单一的块边界特征,而没有考虑重复数据块的数量会因文件内容性质(包括文件类型与采用的编码方式等)的不同而存在较大差异,单一块边界特征的策略不能使不同内容类型文件的重复数据删除率都达到最优。因此,需要根据内容类型对文件进行分类,并采用复合策略来分别处理不同内容类型的备份文件。
发明内容
本发明提供一种基于文件内容类型的重复数据删除方法,解决现有重复数据删除方法存在的分块策略单一,不能根据文件内容类型进行优化的问题。
备份系统定期执行备份过程,每次备份过程都得到一个备份文件集合。
在存储池中,每个文件都以一个索引节点来标识。文件被划分为多个数据块,每个数据块都通过计算得到一个哈希值;在索引节点中包含了每个数据块对应的哈希值;在哈希值表中包含了所有数据块的哈希值以及数据块在磁盘上的存储地址;通过哈希值表可以找到文件中每个数据块的地址。
本发明的一种基于文件内容类型的重复数据删除方法,预先进行块边界特征计算步骤:在备份系统中采集样本文件集合,提取样本文件的元数据,并根据元数据确定样本文件的内容类型,再根据样本文件的内容类型将样本文件集合分类为多个子集合,计算每个子集合的块边界特征值,将各个子集合的块边界特征值保存在块边界特征库中;
以下顺序包括:
A.内容类型识别步骤:提取用户输入文件的元数据,并根据元数据确定文件的内容类型,根据文件的内容类型在块边界特征库中寻找对应的块边界特征值;
B.文件分块步骤:根据步骤A中寻找到的块边界特征值,采用滑动窗口对用户输入文件整体进行扫描,将用户输入文件划分为多个数据块;
C.数字指纹计算步骤:对步骤B中产生的每个数据块,计算其哈希(HASH)值作为该数据块的数字指纹,转步骤D;
D.重复数据块判断步骤:将步骤C中生成的哈希值与存储池中的哈希值表中的哈希值进行比较,判断是否相同,是则仅将该哈希值存入文件的索引节点中,转步骤E;否则把该哈希值存入哈希值表以及文件的索引节点中,并将对应的数据块写入存储池中,转步骤E;
E.结束步骤:当前文件重复数据删除结束,当用户输入下一文件时,转步骤A;
所述存储池存储哈希值表和数据块,该哈希值表中包含所存储每个数据块的哈希值以及在磁盘上的地址,所存储的所有数据块不重复;
所述文件的元数据包括文件的内容类型、文件扩展名、生成文件的应用程序以及文件内容的编码方式,其中,文件扩展名、生成文件的应用程序以及文件内容的编码方式三种元数据构成一个元数据三元组,形为{扩展名,应用程序,编码方式}。
所述的重复数据删除方法,其特征在于:
所述块边界特征计算步骤,包括下述子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910273171.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种粉体材料喷补机
- 下一篇:一种烧结机钢丝式头尾柔性密封装置
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法