[发明专利]一种基于多维点阵数据空间模型的去重方法有效
申请号: | 201210091651.7 | 申请日: | 2012-03-31 |
公开(公告)号: | CN102708148A | 公开(公告)日: | 2012-10-03 |
发明(设计)人: | 刘威;庄敬伟 | 申请(专利权)人: | 深圳祥云信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市兴科达知识产权代理有限公司 44260 | 代理人: | 杜启刚 |
地址: | 518000 广东省深圳市福田区益*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多维 点阵 数据 空间 模型 方法 | ||
[技术领域]
本发明涉及数据去重,尤其涉及一种基于多维点阵数据空间模型的去重方法。
[背景技术]
去重的技术很多,最常使用的哈希、Bloom这些去重技术都是把需要去重的内容处理后再进行一一匹配。这种集合处理方式可行,但在海量数据中就显得笨重,而且数量在一定程度的情况下,数据重复率就会加速升高,这样数据去重就没有任何意义。去重过程中还需要考虑已去重的数据如何保存,缓存加载等一系列问题。如果已去重的数据不能保存和缓存加载,则重新启动去重服务器都将是一个新的去重工作开始,对已经处理过的数据又是重复的工作,对数据的准确率无形中降低,这样的去重工作也是没有任何意义,如能保存和缓存加载,那么在启动去重服务时面对海量备份的缓存数据又要怎样加载?这些情况是判别一个去重方法的重要指标,一个好的去重方法最少有四个基本条件:效率高、资源消耗少、缓存输出和缓存加载。
由于互联网具有海量信息并且快速增长,提高搜索引擎的信息采集器的数据采集和更新速度有重要意义。
搜索引擎采集数据时,除了URL需要过滤去重,网页内容去重也同样重要,URL和网页内容都由各种符号组成的字符串,但是字符串长度不可能一致,有很大差异,使用数据库或缓存形式去进行匹配过滤去重,在数据不停增加中势必引起效率越来越低,资源也消耗得越来越多。
为了实现数据快速采集,避免重复采集相同的页面,需要记录已经发现的 页面,采集中新发现一个页面,需要判断该页面的URL是否已发现的URL,若不是新发现的URL,则将其丢弃,否则将它放入待采集URL队列。URL检索方法的速度和所占用的内存空间的大小都很重要。如果URL检索方法的速度较慢,就会形成瓶颈,严重影响整个系统的采集速度和可扩展性。在不断增长的海量数据中,检索会因为数据量的越来越庞大,检索速度越来越慢,系统资源消耗也更多,特别在使用HASH这样的算法中,数据量的增长会使数据的碰撞(数据重复)加剧,导致数据误码率上升。数据的长度在效率和资源消耗中是不能忽视的因素,如果每一笔需要去重的数据都是原生数据,那对去重方法来说是致命的,因为没办法预测数据的长度。这时就得需要把数据转换为统一的数据形式,例如HASH,有不少去重方法使用HASH,但是因为碰撞(数据重复)率高,就会使用多种不同的HASH算法组合,把每一笔数据用HASH处理成多个进行去重过滤处理,这样碰撞(数据重复)率降低了,但是效率也跟着降低了,资源消耗也呈相应的几何级增长,而且同时也给已去重的缓存数据的保存和加载增加了难度。
[发明内容]
本发明要解决的技术问题是提供一种能够减少数据重复校验、效率高、资源消耗少的去重方法。
为了解决上述技术问题,本发明采用的技术方案是,一种基于多维点阵数据空间模型的去重方法,包括以下步骤:
101)加载本地缓存数据,根据配置文件所定制的模式建立多维点阵数据空间模型;
102)需要进行去重活动的数据转换为多维点阵数据空间模型所定制的数据格式,并将数据分割成数据点;
103)对转换好格式的数据逐个进行检索;
104)数据检索过程中,检索数据点即是定位数据点在数据模型所对应维面的坐标,检索数据点由数据第1位开始,逐位向下进行,若发现该数据点在数据模型中不存在,则在数据模型中刻画该数据点,同时标识不存在此数据;重复执行检索数据点的过程,直到最后一个数据点检索完成;
105)1个数据遍历数据点完成后,如该数据已标识过不存在,则输出缓存;
106)检索下一个数据,直至全部数据检索完毕。
以上所述的基于多维点阵数据空间模型的去重方法,多维点阵数据空间模型的维面是行和列相等的矩阵,格式化后数据的数据点由对应于所述行和列数字组成的坐标表示;所有格式化后数据的长度相等,多维点阵数据空间模型的维面数量与格式化后数据数据点的数量相同。
以上所述的基于多维点阵数据空间模型的去重方法,所述多维点阵数据空间模型的维面是行和列都等于16的矩阵,格式化后数据的数据点由两个0至F的16位数字组成的坐标表示,每个数据点二进制的长度限定为8的倍数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳祥云信息科技有限公司,未经深圳祥云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210091651.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置