[发明专利]一种基于文件内容类型的重复数据删除方法无效
申请号: | 200910273171.0 | 申请日: | 2009-12-10 |
公开(公告)号: | CN101706825A | 公开(公告)日: | 2010-05-12 |
发明(设计)人: | 周敬利;秦磊华;曾东;聂雪军;刘科;朱建峰 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F11/14 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 方放 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于文件内容类型的重复数据删除方法,属于计算机数据备份的重复数据删除方法,适用于基于磁盘的备份系统,解决现有重复数据删除方法存在的分块策略单一,不能根据文件内容类型进行优化的问题。本发明预先进行块边界特征计算步骤,以下顺序包括内容类型识别步骤、文件分块步骤、数字指纹计算步骤、重复数据块判断步骤和结束步骤。本发明基于内容类型对备份文件进行分类,并针对每种内容类型计算最优的块边界特征值;在处理备份文件时增加了文件内容类型识别步骤,并根据识别结果选择块边界特征,提高了重复数据删除方法在处理复合备份文件时的整体效能。 | ||
搜索关键词: | 一种 基于 文件 内容 类型 重复 数据 删除 方法 | ||
【主权项】:
一种基于文件内容类型的重复数据删除方法,预先进行块边界特征计算步骤:在备份系统中采集样本文件集合,提取样本文件的元数据,并根据元数据确定样本文件的内容类型,再根据样本文件的内容类型将样本文件集合分类为多个子集合,计算每个子集合的块边界特征值,将各个子集合的块边界特征值保存在块边界特征库中;以下顺序包括:A.内容类型识别步骤:提取用户输入文件的元数据,并根据元数据确定文件的内容类型,根据文件的内容类型在块边界特征库中寻找对应的块边界特征值;B.文件分块步骤:根据步骤A中寻找到的块边界特征值,采用滑动窗口对用户输入文件整体进行扫描,将用户输入文件划分为多个数据块;C.数字指纹计算步骤:对步骤B中产生的每个数据块,计算其哈希(HASH)值作为该数据块的数字指纹,转步骤D;D.重复数据块判断步骤:将步骤C中生成的哈希值与存储池中的哈希值表中的哈希值进行比较,判断是否相同,是则仅将该哈希值存入文件的索引节点中,转步骤E;否则把该哈希值存入哈希值表以及文件的索引节点中,并将对应的数据块写入存储池中,转步骤E;E.结束步骤:当前文件重复数据删除结束,当用户输入下一文件时,转步骤A;所述存储池存储哈希值表和数据块,该哈希值表中包含所存储每个数据块的哈希值以及在磁盘上的地址,所存储的所有数据块不重复;所述文件的元数据包括文件的内容类型、文件扩展名、生成文件的应用程序以及文件内容的编码方式,其中,文件扩展名、生成文件的应用程序以及文件内容的编码方式三种元数据构成一个元数据三元组,形为{扩展名,应用程序,编码方式}。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910273171.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种粉体材料喷补机
- 下一篇:一种烧结机钢丝式头尾柔性密封装置
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法