[发明专利]一种基于布隆过滤器的大数据量密钥去重方法及系统有效

专利信息
申请号: 202111133541.8 申请日: 2021-09-27
公开(公告)号: CN113590606B 公开(公告)日: 2021-12-31
发明(设计)人: 丁胜建;封连重 申请(专利权)人: 浙江九州量子信息技术股份有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/22;H04L9/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 311201 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 过滤器 数据量 密钥 方法 系统
【说明书】:

一种基于布隆过滤器的大数据量密钥去重方法,包括以下步骤:待去重数据的获取;去重系统初始化;数据的分治存储;数据的布隆去重;阳性数据的遍历统计;数据的精准去重;完成大数据量密钥数据的精准去重,本发明还提供了一种基于布隆过滤器的大数据量密钥去重系统。与现有技术相比,本发明针对大数据量密钥去重提出分治存储方法与基于阳性数据的精准去重方法,将大数据量密钥根据散列取余均匀引导存储至不同存储单元,不仅保证了重复密钥在同一个数据集合,减小单个布隆过滤器所需的BitSet空间占用、去重运算消耗,即提高去重运算时布隆过滤器的空间、时间效率,而且基于阳性数据HashSet集合遍历统计实现密钥数据的精准去重,提高去重准确性和密钥质量。

技术领域

本发明涉及电数字数据处理技术领域,特别涉及一种基于布隆过滤器的大数据量密钥去重方法及系统。

背景技术

随着量子密钥分发技术和量子密钥中继技术的不断发展,实际应用中已出现服务端存储大数据量密钥的情况。随着密钥数据量的不断增长,大数据量密钥去除重复密钥已成为迫切需求,对密钥的去重可以更有效的保证密钥安全性、提高密钥质量。目前针对这种大数据量处理去重,常采用布隆过滤器算法,基于多个散列函数和Bitmap二进制向量存储达到数据去重的目的,且时间和空间上的效率比较高,但单纯地采用这种布隆过滤器方案存在误判率,无法精准去重。在现有数据去重技术中,发明专利《CN108804242A-一种数据计数去重方法、系统、服务器及存储介质-公开》公开了一种数据去重方法,根据预设的去重等级,通过Bloom Filter算法进行对应级别的计数去重,基于多级去重会使用redis缓存能提高查重效率,但仍未解决精准去重的需求;还有发明专利《CN110704407A-一种数据去重的方法和系统-公开》公开了一种数据去重的方法和系统,通过在数据库的第一运算阶层中设计去重字典表数组,并在在所述去重字典表数组中增加一列数据加速层,将待去重数据映射到所述去重字典表数组中,再将所述去重字典表数组导入到所述数据加速层的数据管理系统,使得所述待去重数据转化为bit格式并存储于Bitmap集合中,最后在Bitmap集合达到对所述去重数据的精确去重,该发明适用于电商等系统的大数据去重处理,但该方法并不适用于本领域的大数据量密钥或随机数去重,密钥的处理单位在64bit以上(以64bit密钥数据处理为例),由于密钥的随机性,一组64bit密钥的可能范围均匀分布在0~2^64之间,若基于Bitmap来映射密钥数据,则需要2147483648GB的二进制向量Bitmap来存储,这是不可能实现的。

发明内容

本发明目的在于提供一种基于布隆过滤器的大数据量密钥去重方法及系统,以解决现有技术中针对大数据量数据处理去重的方法难以实现精准去重的技术性缺陷。

本发明的技术方案是这样实现的:

一种基于布隆过滤器的大数据量密钥去重方法,其特征在于,包括以下步骤:

待去重密钥数据的获取,获取待存储、待精准去重的密钥数据;

去重系统初始化,根据预设参数创建多个持久化存储单元及对应的布隆过滤器实例;

密钥的分治存储,每输入一组密钥,通过散列函数计算密钥散列值,将散列值与存储单元个数进行映射运算,密钥存储至映射运算结果标识的存储单元;

密钥的布隆去重,存储时通过布隆过滤器对密钥进行去重判定,若不存在,则该密钥的去重检测标识字段设为不重复,若存在,则将密钥加入阳性数据集合;

阳性数据的遍历统计,遍历存储单元,判定密钥是否存在于阳性数据集合,若存在,表明密钥重复,则将该次密钥、存储位置等特征信息,以键值对方式记录至遍历统计结果集合;

密钥的精准去重,遍历统计结果集合中,若元素的密钥重复多次,则根据元素中多个存储位置剔除重复的密钥,至多保留一组,反之表明密钥唯一,对唯一的密钥更新其去重检测标识字段为不重复;

完成大数据量密钥的精准去重。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江九州量子信息技术股份有限公司,未经浙江九州量子信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111133541.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top