[发明专利]一种清洗比对入库方法在审
申请号: | 201611207614.2 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106844480A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 林殷;安西民;李垚 | 申请(专利权)人: | 航天星图科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安博达知识产权代理有限公司11271 | 代理人: | 徐国文 |
地址: | 101399 北京市顺义区国*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种清洗比对入库方法,该方法由入库服务器对入库的数据文件进行扫描,选择不同的分块方式对数据文件进行分块,从中选择中重复数据量大的分块方式存储入库。该方法在清洗比对入库时,以较小的粒度进行清洗比对,提高了重复数据的发现率,降低了数据存储的占用空间。 | ||
搜索关键词: | 一种 清洗 入库 方法 | ||
【主权项】:
一种清洗比对入库方法,其特征在于,该方法包括如下步骤:(1)入库服务器接收需要存储入库的数据文件;(2)所述入库服务器检查所述数据文件的长度L,如果L小于预定义的最小数据块长度MinBlockLength,则提取该数据文件的最后一个字节B,转到步骤3。如果L≥MinBlockLength,则转到步骤5;(3)预先给系统中的256个存储服务器编号,分别命名为Server(i),其中0≤i≤255,入库服务器将该数据文件发送到Server(B),同时保存该数据文件的相关信息;(4)所述Server(B)计算该数据文件的哈希值,根据该哈希值判断该数据文件是否已存储在服务器中,如果已存储,仅为该数据文件保留一个指针,指向已存储的相同数据;如果并未存储,则Server(B)存储该数据文件和其哈希值,方法结束;(5)所述入库服务器设置初始的分块向量V=0;(6)所述入库服务器从该数据文件的第MinBlockLength个字节开始向后扫描,当扫描某个字节等于分块向量时,记录该字节的位置P1,然后再从P1+MinBlockLength的位置开始扫描,寻找并记录下一个等于分块向量的字节位置,如此反复,直到数据文件的末尾;(7)根据步骤6的所记录的位置,将每个位置作为一个数据块的结尾,对数据文件进行分块,由此得到了KV个数据块;(8)分块向量V增加1,如果V≤255,则返回步骤6,否则继续步骤9;(9)对K0到K255按照从大到小进行排序,获取排在最前的5个值,假设为KV1,KV2,KV3,KV4,KV5;(10)按照V1到V5五个分块向量对该数据文件的分块结果,将各个数据块按照其结尾字节发送到相应的存储服务器进行重复性检测;(11)每个存储服务器对接收到的每个数据块,计算其哈希值,根据该哈希值判断该数据块是否是重复数据,将判断结果发送给入库服务器;(12)所述入库服务器根据步骤11接收到的判断结果,从五种分块方式中选择重复数据量最多的两种,根据这两种分块方式,通知相应的存储服务器进行存储,入库服务器自身保存该数据文件的相关信息,包括其两种分块方式和相应的存储服务器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天星图科技(北京)有限公司,未经航天星图科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611207614.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种腿部肌肉锻炼装置
- 下一篇:一种位姿可调下肢康健训练装置