[发明专利]数据字典的生成方法在审

专利信息
申请号: 202110954717.X 申请日: 2021-08-19
公开(公告)号: CN113609341A 公开(公告)日: 2021-11-05
发明(设计)人: 白杰 申请(专利权)人: 白杰
主分类号: G06F16/901 分类号: G06F16/901
代理公司: 北京弘权知识产权代理有限公司 11363 代理人: 逯长明;许伟群
地址: 100089 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 字典 生成 方法
【说明书】:

发明提供了一种数据字典的生成方法,该方法从输入的样本数据S的一个起点位置按序增量取得索引数据串Ck,使用该索引数据串Ck扫描输入数据S的剩余位,记录Ck以及数据长度、重复次数等参数,最后得到重复数据段的集合,从所述集合中的数据段中找到最佳数据段,用所述最佳数据段及其标签生成标签数据库。

技术领域

本发明涉及一种数据处理技术领域,尤其是数据字典的生成方法。

背景技术

在数据传输的各个层次,减少传输重复数据的传输都具有重要意义。而减少数据重复传输的关键,在于如何获知哪些数据是重复的,以及在数据接收端迅速且无瑕疵地的恢复数据发送端的原始数据。对于静态数据,即内容确定的数据集合,如果能够获知需要重复传输的数据或数据集合,为重复的数据分配一个标签或标识,就可以用所述标签替代重复的数据进行传输,从而减少数据的重传以及在数据接收端恢复原始数据。而且,标签的长度和重复数据长度的比值越小,数据传输效率就越高。而对于动态数据,即内容不确定的数据集合,则需要恰当地分割数据以获得重复数据,以及为所述重复数据分配一个标签。

因此,需要预先获知重复概率高的数据段,将这些数据段和标识它们的互不重复的标签绑定存储到一个数据库,就可以实现对任何数据段的标签标识。

在传统的方法中,一般利用某个特定领域的数据特性,根据经验和大量数据试验查找这样的重复数据段。例如,采用滑动窗口技术从一个方向顺序扫描样本数据,就可以找到重复的数据段,但是这个数据段的大小和重复性受窗口大小的限制,难以在一个样本数据中找到最优的重复数据段。这样就难以生成高效率的标签数据库。

发明内容

本发明解决的问题是,提供一种生成高效率的标签数据库,即高效率的数据字典的方法及装置。

为解决上述问题,本发明实施例提供的数据字典的生成方法,包括:

A、对输入的样本数据S,从一个方向确定一个起点位置i;

B、判断位置i是否为输入数据S的尾部,如果是,输出失败信息,结束;否则转步骤C;

C、使用位置i到数据S尾部的数据生成待处理数据串Si,Ck=Si的前k位,1≤k ≤[j/2],令j等于Si的长度;其中,[]为取小数点前面整数部分的取整计算符号;

D、使用Ck从Si的k+1位起扫描剩余位,记录Ck,与Ck相同的数据段的起点位置 Lm,以及数据长度、重复次数;令k=k+1,Ck=Si的前k位,其中,m为大于1的整数;

E、判断k是否小于[j/2],如果是,则转步骤F;否则转步骤G;

F、使用Ck从Si大于k位的Lm位置起扫描k位数据,记录Ck,与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数;令k=k+1,Ck=Si的前k位,转步骤E;

G、根据扫描得到的结果,将数据长度和/或重复次数最佳的Ck、数据长度、重复次数,以及为其分配的标签存储到标签数据库。

本发明实施例提供的另一个数据字典的生成方法,包括:

A、对输入的样本数据S,从一个方向确定一个起点位置i;

B、判断位置i是否为输入数据S的尾部,如果是,转步骤H;否则转步骤C;

C、使用位置i到数据S尾部的数据生成待处理数据串Si,Ck=Si的前k位,1≤k ≤[j/2],令j等于Si的长度;其中,[]为取小数点前面整数部分的取整计算符号;

D、使用Ck从Si的k+1位起扫描剩余位,记录Ck,以及与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数;令k=k+1,Ck=Si的前k位,其中,m为大于1的整数;

E、判断k是否小于[j/2],如果是,则转步骤F;否则转步骤G;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于白杰,未经白杰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110954717.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top