[发明专利]一种基于链接特征的链接去重方法在审
申请号: | 201710158156.6 | 申请日: | 2017-03-16 |
公开(公告)号: | CN108628871A | 公开(公告)日: | 2018-10-09 |
发明(设计)人: | 王志刚 | 申请(专利权)人: | 哈尔滨英赛克信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 布隆过滤器 链接特征 哈希 链接 去重 格式特征 误判率 重复 | ||
本发明提供了一种基于链接特征的链接去重方法,包括如下步骤:S1、根据URL的格式特征,将URL的域名部分,目录部分以及文件名部分拆分重组,重组成三种URL形式;S2、建立一个布隆过滤器集,包含三个子布隆过滤器;S3、使用这三个子布隆过滤器分别对步骤S 1生成的三种形式的URL进行查重操作;S4、分别判断三个子布隆过滤器的置1位占比是否超过50%;S5、新建一个布隆过滤器,将URL经过多次哈希后存入该布隆过滤器,并将相应的置1位数量进行更改,转到S7;S6、将URL经过多次哈希后存入布隆过滤器,并将相应的置1位数量进行更改;S7、重复步骤S1‑ S6,直至查重结束。能够显著降低布隆过滤器的误判率。
技术领域
本发明涉及集合去重技术领域,尤其涉及一种基于链接特征的链接去重方法。
背景技术
网页链接去重的准确性在很大程度上决定着整个网络爬虫系统的性能。人们在网页链接去重方面做了大量的研究,提出了许多各种各样的方法。例如基于哈希表、MD5压缩映射存储、数据库、布隆过滤器等的链接去重方法。但这些去重方法普遍存在内存消耗过大且查询时间较长的缺点,并不能很好满足网络爬虫链接去重的需求。像基于哈希表的链接去重方法,在集合规模很大时,所消耗的内存资源也会变得十分巨大。基于MD5压缩映射存储的链接去重方法,将所有的链接都映射为16或32位字符串,虽然相比于基于哈希表的链接去重方法能够有效的降低内存占用率,但是由于其进行MD5压缩映射的过程十分耗时,并且当链接规模很大时其内存消耗同样十分巨大,同样不能适用于高性能网络爬虫的链接去重。另外,MD5压缩映射具有碰撞性,使用这种方法进行链接去重会存在一定的误判率。使用数据库的链接去重方法虽然能够解决其他几种方法内存消耗巨大的问题,但是带来了查询性能的降低的损失。在数据规模很大时,数据库查询的时间消耗将会十分巨大。使用布隆过滤器进行链接去重能够有效降低内存消耗,并且降低查询的时间消耗。但是布隆过滤器具有误识别的缺点,并且随着集合规模的不断增大,误判率将会呈指数级的增长。
关于链接去重方法的专利文件较多,各有其优缺点。如申请号201610277708.0的专利文件中公开的《基于分布式数据库的网页URL去重方法》能够避免内存溢出以及误判的问题,但需要使用磁盘存储数据库表信息进行去重,因此需要较大的IO交互时延,在集合规模很大的情况下的性能难以保证。再如申请号为201510185467.2的专利文件中公开的《基于动态可分裂Bloom Filter的网络爬虫URL去重方法》,对经典布隆过滤器进行动态扩展,但其动态扩展的操作需要将已存储的位信息重新部署到新扩展的子布隆过滤器上,扩展操作过于耗时。
发明内容
本发明的目的在于提供一种具有更低误判率并且能够适用于集合数量动态变化情形下的集合去重方法。
为解决上述技术问题,本发明提供了1、一种基于链接特征的链接去重方法,其特征在于,包括如下步骤:
S1、根据URL的格式特征,将URL的域名部分,目录部分以及文件名部分拆分重组,重组成三种URL形式。其中,第一种形式为原始URL,第二种形式为域名后接文件名,第三种形式为目录名后接文件名;
S2、建立一个布隆过滤器集,包含三个子布隆过滤器;
S3、使用这三个子布隆过滤器分别对步骤S 1生成的三种形式的URL进行查重操作,当三个子布隆过滤器的查重结果都显示URL已存在时,认为这条URL已经存在,转到步骤S7,否则转到步骤S4;
S4、分别判断三个子布隆过滤器的置1位占比是否超过50%,如果超过50%,转到S5,否则转到S6;
S5、新建一个布隆过滤器,将URL经过多次哈希后存入该布隆过滤器,并将相应的置1位数量进行更改,转到S7;
S6、将URL经过多次哈希后存入布隆过滤器,并将相应的置1位数量进行更改;
S7、 重复步骤S1- S6,直至查重结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨英赛克信息技术有限公司,未经哈尔滨英赛克信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710158156.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页预览方法和装置
- 下一篇:基因分析数据库批量数据导入方法和系统