[发明专利]一种基于改进Bloom Filter结构的城市海量数据流快速冗余消除方法无效

专利信息
申请号: 201210516470.4 申请日: 2012-11-30
公开(公告)号: CN103116599A 公开(公告)日: 2013-05-22
发明(设计)人: 陈庭贵;许翀寰;戴俊彦 申请(专利权)人: 浙江工商大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵;王利强
地址: 310018 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 改进 bloom filter 结构 城市 海量 数据流 快速 冗余 消除 方法
【说明书】:

技术领域

发明涉及智能信息处理、空间存储压缩技术领域知识,具体涉及一种基于改进Bloom Filter结构的城市大数据流快速冗余消除方法。特别适用于城市管理人员快捷高效的处理持续高速增长的城市大数据流问题。 

背景技术

随着计算机技术的发展和先进计算技术的广泛应用,所需处理的数据来源形式呈现出多样化的特点,在许多专业领域出现了海量数据以高速流动的形式到达的大数据环境,例如已经广泛应用于城市交通信息、地震预测、生物体征信息检测和军事信息检测等的传感器网络所产生的大量持续不断地检测数据。这种新的数据形式具有实时性、连续性、单遍性、无限性等特征,寻找各种适用于该领域实践需求的新兴高效数据流处理技术已经成为越来越多研究者所关注的焦点。 

如果在实时到达的数据流无穷序列中存在已出现过的数据对象就称为数据流冗余。在已经能够持续自动产生大量细节数据的时代,多种海量高速的数据流类型数据需要以近实时的方式进行复杂分析。而冗余的数据流不仅会造成大量资源的浪费也直接降低了机器的处理性能,从而在较大程度上影响了该数据流的实时准确性分析。新的数据流冗余处理方法需要适应海量高速的大数据环境,并以低复杂度、高准确率的特性配合各类数据流挖掘方法,从而产生“1+1>2”的放大效应,使得数据流得到真正实时高效的分析处理。 

对数据流冗余消除的研究中往往需要解决以下两大问题。首先, 传统的逐行比较方法已不能适应大量分组与并发的数据流环境,我们必须在单次遍历中得到数据流的所有冗余记录。其次,内存不可能处理全部数据流,在有限的内存空间中需要采用基于窗口的方法,取最近的一段数据流计算得到其近似结果。然而由于计算资源的限制各种数据流冗余消除方法往往通过牺牲冗余消除的准确性来降低方法的复杂度。在大数据流环境下的分类、聚类、频繁模式挖掘等多种数据挖掘方法则更注重在计算效率和准确性之间寻找最优的平衡点,在合理降低冗余消除准确性的前提下尽可能的提高效率,使消除技术能够适应高速流动的大数据流环境。 

发明内容

本发明要克服现有城市数据流处理量大、冗余度高的缺点,本发明提出一种基于改进Bloom Filter结构的城市大数据流快速冗余消除方法,支持城市管理人员快捷高效的处理持续高速增长的城市大数据流。 

本发明解决其技术问题所采用的技术方案是: 

一种基于改进Bloom Filter结构的城市海量数据流快速冗余消除方法,包括以下步骤: 

1)基于Bloom Filter结构的数据集存储:设定数据流表示为SN=x1,x2,...,xn,N为数据流中元素的个数,初始状态时,Bloom Filter是一个包含m位的位数组,每一位都置为0,如下所示:b[i]=0,i=0...m-1;Bloom Filter使用k个相互独立的哈希函数,它们分别将集合中的每个元素映射到(1,...,m)的范围中,对任意一个元素x,第i个哈希函数映射的位置就会被置为1,即hi(x)=1,1≤i≤k; 

2)海量动态数据集计数存储方法:将标准Bloom Filter位数组的每一 位扩展为一个小的计数器,在插入元素时给对应的k个Counter的值分别加1,而在删除元素时则给对应的k个Counter的值分别减1: 

hi(x)=counter+1counter-1]]>

3)老化元素加速处理机制:采用前后两个计数窗口的跳跃窗口模式,首先定义两个BF结构体,即 

BFO[1,...,m] 

BFN[1,...,m] 

每个结构体是由m个整数组成的数组; 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210516470.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top