[发明专利]一种相同数据块的自适应识别方法有效
申请号: | 201210171858.5 | 申请日: | 2012-05-29 |
公开(公告)号: | CN102722557A | 公开(公告)日: | 2012-10-10 |
发明(设计)人: | 夏耐 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210046 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 相同 数据 自适应 识别 方法 | ||
1.一种相同数据块的自适应识别方法,其特征在于,包括以下步骤:
步骤1,初始化用以哈希值查找的数据结构HStruct,初始化采样比率值HS,0≤HS≤100%,分别初始化扫描计数器的值I,成功计数器的值S和冲撞计数器的值F为0,并选定一个大小固定的数据块DATA,数据块DATA的为SIZE字节;
步骤2,从数据块DATA中采样出一定字节数的数据,采样字节数为HS×SIZE个;
步骤3,对所采样出的数据进行混杂操作,得出一个整型值大小的哈希值H;
步骤4,在查找数据结构HStruct中查找哈希值H,如果找到另一个数据块DTMP的哈希值与哈希值H相等,则返回数据块DTMP,进行步骤5,否则将数据块DATA以哈希值H为键值,插入查找数据结构HStruct,并转至步骤12;
步骤5,比较数据块DATA与数据块DTMP的内容,如果两者内容完全相同,则进行
步骤6,否则进行步骤7;
步骤6,记录一次成功的相同数据块识别操作,即令成功计数器的值S=S+1,并将二元组<数据块DATA,数据块DTMP>作为结果输出,跳至步骤8;
步骤7,记录一次哈希冲撞的操作,即冲撞计数器的值F=F+1,进行步骤8;
步骤8,扫描计数器的值I加1,如果I小于设定阈值N,转至步骤12,否则进行步骤9;
步骤9,计算扫描计数器从0~N范围时间内的哈希冲撞率C=F/(F+S)并计算判别函数J(C,HS),其中,HS为当前的采样比率,如果判别结果大于0,则增大采样比率值,如果结果小于0,则减少采样比率值,否则采样比率值不变;
步骤10,如果上步骤中采样比率值发生改变,令变化后的采样比率值为HSNEW,根据采样比率值HSNEW对查找数据结构HStruct中已有数据块进行混杂操作,得到更新后的哈希值,混杂操作的采样字节数为|HS-HSNEW |×SIZE个;
步骤11,扫描计数器的值I,成功计数器的值S和冲撞计数器的值F分别置0,并标记为本扫描周期的结束和下一个扫描周期的开始;
步骤12,选择下一个数据块作为数据块DATA,返回步骤2,直到所有数据块遍历结束。
2.根据权利要求1所述的一种相同数据块的自适应识别方法,其特征在于,所述查找数据结构Hstruct为数组、哈希表或者查找树中的任意一种。
3.根据权利要求1所述的一种相同数据块的自适应识别方法,其特征在于,所述混杂操作为任意二元整形运算任意组合而成。
4.根据权利要求1所述的一种相同数据块的自适应识别方法,其特征在于,所述判别函数J(C,HS)是使得B-W逐渐趋向近似极大值的判定函数,其中,W为一次扫描周期中由于哈希冲撞而浪费的时间,W=M×C×N,其中M是一次比较数据块所需要的时间;
B为一次扫描周期中,采用当前的采样比率值HS比采用100%的采样比率所节省的时间:B=T×(1-C)×(1-HS)×N,其中T为假设HS=100%时步骤3所需要的时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210171858.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置