[发明专利]一种分布式爬虫集群中的节点和系统有效

专利信息
申请号: 201310006486.5 申请日: 2013-01-08
公开(公告)号: CN103067521A 公开(公告)日: 2013-04-24
发明(设计)人: 陈君;黄志敏;吴京洪;王玲芳 申请(专利权)人: 中国科学院声学研究所
主分类号: H04L29/08 分类号: H04L29/08;H04L12/803;G06F17/30
代理公司: 北京亿腾知识产权代理事务所 11309 代理人: 陈霁
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 分布式 爬虫 集群 中的 节点 系统
【说明书】:

技术领域

发明涉及计算机数据挖掘领域,具体涉及一种分布式爬虫集群方法。

背景技术

爬虫作为搜索引擎数据采集的最重要的工具,在如今信息爆炸的时代,传统的客户端(C)/服务器(S)模式下的爬虫已经很难抓取到网络中的全部数据;而且,如果增加爬虫的数量则服务器将承受更大的负载而导致系统无法提升服务性能。在这样的背景下,分布式爬虫集群的方法渐渐进入人们的视野。

当前对分布式爬虫集群的研究主要集中在主从模式下的分布式爬虫系统,即会存在部分核心的管理节点负责任务管理、统一资源定位符url去重及负载均衡等问题,这样的主从模式依然无法解决性能瓶颈和大规模拓展的难题。另一种分布式爬虫模式为结构化对等网络p2p,即每个运行网络爬虫节点的主机都可以自由通信,没有控制节点,就不存在系统瓶颈,可以进行大规模拓展,但由于缺少管理,节点间的协作、url去重和网络负载均衡成为难以解决的问题。

发明内容

本发明的目的在于提出一种能够进一步改进系统可拓展性和容错性的节点和系统。

为此,在第一方面,本发明实施例提供一种基于结构化p2p的分布式爬虫集群中的节点,所述节点包括底层覆盖网,基于p2p组织方式,执行节点间分发url和接收url的协议;爬行模块,基于被分发的url,负责从互联网抓取对应的资源;控制中心,执行分发url和接收url的功能。

在第二方面,本发明实施例还提供一种分布式爬虫集群系统,包括如第一方面所述的节点。

本发明实施例中,每个节点地位平等且功能一致,依靠节点内部机制实现爬虫协作,所以单节点加入网络无需系统外的额外操作,整个网络可以随意拓展爬虫节点数量,实现大规模分布式爬虫集群。

附图说明

图1是本发明实施例的爬虫节点内部的结构图。

图2是爬虫节点分发url的工作流程图。

图3是爬虫节点接收url的工作流程图。

图4是爬虫节点进行负载均衡方法的工作流程图。

图5是爬虫节点处理节点加入和退出的工作流程图。

具体实施方式

下面结合附图对本发明的具体实施例做进一步详细的说明。

本发明实施例通过利用结构化p2p算法kademlia搭建底层覆盖网,建立起节点间的通信机制;在每个节点上独立运行一套完整的爬行模块,负责网页抓取,数据解析和链接抽取等工作;同时,每个节点上配置一个控制中心,负责接收和分发url,负载均衡及处理url历史记录的转移。由于每个节点地位平等且功能一致,依靠节点内部机制实现爬虫协作,所以单节点加入网络无需系统外的额外操作,整个网络可以随意拓展爬虫节点数量,实现大规模分布式爬虫集群。

图1是本发明实施例的爬虫节点内部的结构图。如图1所示,基于结构化p2p的分布式爬虫集群方法中的单节点包括底层覆盖网,爬行模块和控制中心三部分。

底层覆盖网是每个节点进行路由通信的基础部件,基于例如结构化p2p算法kademlia而实现的p2p组织方式,可实现数据定位和路由查找的功能。根据本发明实施例,增加了以下通信协议:节点间分发url和接收url的协议。

爬行模块是爬虫节点进行基本爬虫工作的基础,根据上层应用的需求,负责从互联网抓取对应的资源。具体来说,爬虫模块从接收队列中获取url,下载对应的网页数据,解析网页内容获取目标内容,根据实际应用进行相应的处理,再解析网页内容获取目标链接,根据url历史记录进行去重操作,将剩余的有效链接添加到发送队列。此工作可由多个线程并行爬取来实现,可以大大提高网页数据的下载速度。

控制中心是爬虫节点行为的核心控制者,是连接爬行模块和底层覆盖网的枢纽,是爬虫节点间协作机制的实现。控制中心实现的功能包括分发url和接收url。

具体地说,控制中心包括分发url模块,对待分发的url进行哈希,获得关键字;底层覆盖网基于关键字查询目标节点的信息。优选地,分发url模块对待分发的url进行二次哈希,获得关键字;底层覆盖网基于关键字查询备份节点的信息。优选地,分发url模块接收目标节点和/或备份节点的回复。

另外,控制中心可以包括接收url模块,接收其它节点分发的url。

在一个例子中,底层覆盖网还增加以下通信协议:因节点动态加入和退出引起的url历史记录转移的协议;控制中心还增加url历史记录转移的功能。

具体地说,控制中心可以包括节点加入模块,查找接近节点的目标,并且请求属于自己部分的url历史记录。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310006486.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top