[发明专利]分布式爬虫系统及其提取网页数据的方法无效
| 申请号: | 201010224671.8 | 申请日: | 2010-07-07 |
| 公开(公告)号: | CN102314463A | 公开(公告)日: | 2012-01-11 |
| 发明(设计)人: | 贾海禄 | 申请(专利权)人: | 北京瑞信在线系统技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/08 |
| 代理公司: | 隆天国际知识产权代理有限公司 72003 | 代理人: | 张浴月;刘文意 |
| 地址: | 100007 北京市东城区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分布式 爬虫 系统 及其 提取 网页 数据 方法 | ||
1.一种分布式爬虫系统,其特征在于,包括爬虫服务器、消息队列服务器、至少一个下载端和统一资源定位符URL过滤器,其中,
所述爬虫服务器,用于发布未处理URL队列,并对所述分布式爬虫系统进行逻辑控制;
所述消息队列服务器,用于从所述爬虫服务器接收URL队列,并将所述URL队列向所述下载端发送;
所述下载端,用于根据从所述消息队列服务器中接收的URL队列下载网页,并将下载的网页数据发送至所述爬虫服务器;以及
所述URL过滤器,用于对所述爬虫服务器收到的网页数据进行排重。
2.根据权利要求1所述的分布式爬虫系统,其特征在于,所述消息队列服务器向所述下载端下达URL队列或根据所述下载端的请求向其提供URL队列。
3.根据权利要求1所述的分布式爬虫系统,其特征在于,还包括本地文件子系统,用于存储所述爬虫服务器收到的所述网页数据。
4.根据权利要求3所述的分布式爬虫系统,其特征在于,还包括分布式文件子系统,用于同步所述本地文件子系统中的网页数据。
5.根据权利要求1所述的分布式爬虫系统,其特征在于,还包括监控端,用于监控和管理所述爬虫服务器。
6.根据权利要求1-5中任一项权利要求所述的分布式爬虫系统,其特征在于,所述URL过滤器为基于二进制数组bitSet的过滤器。
7.一种提取网页数据的方法,其特征在于,其基于权利要求1所述的系统,包括以下步骤:
S1.爬虫服务器发布未处理URL队列;
S2.所述消息队列服务器接收URL队列并将其发送到至少一个下载端;
S3.所述下载端根据接收的URL队列下载网页,并将下载的网页数据发送至所述爬虫服务器;以及
S4.对所述爬虫服务器收到的网页数据进行排重。
8.根据权利要求7所述的提取网页数据的方法,其特征在于,
所述步骤S1中,爬虫服务器发布的未处理URL队列包括种子URL队列;
所述步骤S3中,所述下载端下载的网页数据包括种子URL对应页面上的超链接URL。
9.根据权利要求8所述的提取网页数据的方法,其特征在于,步骤S4具体为:
S411.爬虫服务器从超链接URL中取出一条URL数据;
S412.爬虫服务器判断该URL数据是否与其最近最少使用LRU缓存中的数据一致,若不一致,则执行步骤S413,若一致,则抛弃该URL数据并执行步骤S411;
S413.URL过滤器对所述URL数据进行排重,若排重未命中,则执行步骤S51,若排重命中,则抛弃该URL数据并执行步骤S411;
步骤S4之后包括步骤S51:
将排重通过的URL数据放入所述爬虫服务器的未处理URL队列中并执行步骤S411。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京瑞信在线系统技术有限公司,未经北京瑞信在线系统技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010224671.8/1.html,转载请声明来源钻瓜专利网。





