[发明专利]一种相同数据块的自适应识别方法有效

专利信息
申请号: 201210171858.5 申请日: 2012-05-29
公开(公告)号: CN102722557A 公开(公告)日: 2012-10-10
发明(设计)人: 夏耐 申请(专利权)人: 南京大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 江苏圣典律师事务所 32237 代理人: 胡建华
地址: 210046 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 相同 数据 自适应 识别 方法
【权利要求书】:

1.一种相同数据块的自适应识别方法,其特征在于,包括以下步骤:

步骤1,初始化用以哈希值查找的数据结构HStruct,初始化采样比率值HS,0≤HS≤100%,分别初始化扫描计数器的值I,成功计数器的值S和冲撞计数器的值F为0,并选定一个大小固定的数据块DATA,数据块DATA的为SIZE字节;

步骤2,从数据块DATA中采样出一定字节数的数据,采样字节数为HS×SIZE个;

步骤3,对所采样出的数据进行混杂操作,得出一个整型值大小的哈希值H;

步骤4,在查找数据结构HStruct中查找哈希值H,如果找到另一个数据块DTMP的哈希值与哈希值H相等,则返回数据块DTMP,进行步骤5,否则将数据块DATA以哈希值H为键值,插入查找数据结构HStruct,并转至步骤12;

步骤5,比较数据块DATA与数据块DTMP的内容,如果两者内容完全相同,则进行

步骤6,否则进行步骤7;

步骤6,记录一次成功的相同数据块识别操作,即令成功计数器的值S=S+1,并将二元组<数据块DATA,数据块DTMP>作为结果输出,跳至步骤8;

步骤7,记录一次哈希冲撞的操作,即冲撞计数器的值F=F+1,进行步骤8;

步骤8,扫描计数器的值I加1,如果I小于设定阈值N,转至步骤12,否则进行步骤9;

步骤9,计算扫描计数器从0~N范围时间内的哈希冲撞率C=F/(F+S)并计算判别函数J(C,HS),其中,HS为当前的采样比率,如果判别结果大于0,则增大采样比率值,如果结果小于0,则减少采样比率值,否则采样比率值不变;

步骤10,如果上步骤中采样比率值发生改变,令变化后的采样比率值为HSNEW,根据采样比率值HSNEW对查找数据结构HStruct中已有数据块进行混杂操作,得到更新后的哈希值,混杂操作的采样字节数为|HS-HSNEW |×SIZE个;

步骤11,扫描计数器的值I,成功计数器的值S和冲撞计数器的值F分别置0,并标记为本扫描周期的结束和下一个扫描周期的开始;

步骤12,选择下一个数据块作为数据块DATA,返回步骤2,直到所有数据块遍历结束。

2.根据权利要求1所述的一种相同数据块的自适应识别方法,其特征在于,所述查找数据结构Hstruct为数组、哈希表或者查找树中的任意一种。

3.根据权利要求1所述的一种相同数据块的自适应识别方法,其特征在于,所述混杂操作为任意二元整形运算任意组合而成。

4.根据权利要求1所述的一种相同数据块的自适应识别方法,其特征在于,所述判别函数J(C,HS)是使得B-W逐渐趋向近似极大值的判定函数,其中,W为一次扫描周期中由于哈希冲撞而浪费的时间,W=M×C×N,其中M是一次比较数据块所需要的时间;

B为一次扫描周期中,采用当前的采样比率值HS比采用100%的采样比率所节省的时间:B=T×(1-C)×(1-HS)×N,其中T为假设HS=100%时步骤3所需要的时间。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210171858.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top