[发明专利]建立数据区块的索引方法有效
申请号: | 201010544374.1 | 申请日: | 2010-11-05 |
公开(公告)号: | CN102467458A | 公开(公告)日: | 2012-05-23 |
发明(设计)人: | 王云松;朱明胜;陈志丰 | 申请(专利权)人: | 英业达股份有限公司 |
主分类号: | G06F12/06 | 分类号: | G06F12/06 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 梁挥;祁建国 |
地址: | 中国台*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 建立 数据 区块 索引 方法 | ||
技术领域
本发明公开了一种建立数据区块的索引方法,特别有关于一种应用在重复数据删除程序之中,将经过重复数据删除的切分程序后所产生的数据区块相应的建立数据区块的索引方法。
背景技术
重复数据删除是一种数据缩减技术,通常用于基于磁盘的备份系统,主要目的在于减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块用指示符取代。由于存储系统中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,“重复删除”技术便顺理成章地成了人们关注的焦点。采用“重复删除”技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使存储系统上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。
请参考图1所示,其为现有技术的重复数据删除的存取的示意图。为能有效的掌控已储存的文件数据,因此在服务器端中会透过哈希(Hash)列表来记录各输入文件的数据区块。在哈希列表中记录了数据区块所相应的哈希值。由于哈希算法具有单向转换(One-Way transform)的特点,所以每一个数据区块必然只有一组唯一的哈希值。重复删除程序也藉此特性,将相同哈希值的数据区块视为相同的。所以在储存设备中只要存储一份数据区块,并记录不同文件中相同的数据区块的对应关系即可。
然而,面对日益增加的数据量,也将使得哈希列表的长度也随之增加。这样一来,将哈希列表加载内存的时间与查找哈希列表的时间也会拉长。
发明内容
鉴于以上的问题,本发明在于提供一种建立数据区块的索引方法,应用在重复数据删除程序之中,将经过重复数据删除中的切分程序后,所产生的数据区块建立相应的索引文件。
为达上述目的,本发明所公开的建立数据区块的索引方法包括以下步骤:加载索引文件,在索引文件包括多个位置区块,每一位置区块中更包括多个存储字段,每一存储字段记录数据区块所相应的主哈希值;对数据区块的一主哈希值进行第一哈希程序,计算区块编号;对同一数据区块的主哈希值进行第二哈希程序,计算字段编号;加载位置冲突列表;将字段编号与位置冲突列表中的字段编号进行比对,查找位置冲突列表中是否已经存储有相同的字段编号;若位置冲突列表中不存在字段编号时,则将主哈希值写入相应的区块编号与字段编号之中。
本发明所提出的阶层式索引文件用以记录数据区块的所在位置,藉以提高重复数据删除程序在内存(或硬盘中)查找索引文件的存取效率。
有关本发明的特征与实作,配合附图作最佳实施例详细说明如下。
附图说明
图1为现有技术的重复数据删除的存取的示意图;
图2为本发明的架构示意图;
图3A为本发明的索引文件建立流程示意图;
图3B为本发明的索引文件架构示意图;
图4为本发明的查询索引文件的流程示意图。
其中,附图标记:
客户端210 服务器端220
索引文件221
位置冲突列表222
具体实施方式
请参考图2所示,其为本发明的架构示意图。本发明包括客户端210与服务器端220。客户端210可以通过因特网(Internet)或企业内网(intranet)的方式连接于服务器端220,也可以将客户端210与服务器端220同时运行于同一台计算器装置上。而客户端210用以对所输入的文件进行重复数据删除程序,并透过服务器端根据本发明将产生相应的输入文件的该些数据区块的索引文件221。
在服务器端220中存储索引文件221与位置冲突列表222。索引文件221记录多组数据区块的哈希值。为能提高索引文件221的查找效率,并降低索引文件221在内存或高速缓存间的存取时间。因此提出索引文件221的建立方法,请同时参考图3A与图3B所示,其分别为本发明的索引文件建立流程示意图与索引文件架构示意图。
步骤S310:加载索引文件,在索引文件包括多个位置区块,每一位置区块中更包括多个存储字段,每一存储字段记录数据区块所相应的主哈希值;
步骤S320:对数据区块的主哈希值进行第一哈希程序,计算区块编号;
步骤S330:对同一数据区块的主哈希值进行第二哈希程序,计算字段编号;
步骤S340:建立位置冲突列表,用以记录字段编号相同者;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英业达股份有限公司,未经英业达股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010544374.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:定位报警方法与定位报警系统
- 下一篇:一种加氢工艺组合方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置