[发明专利]自动检测屏蔽的通用分布式爬虫系统有效

专利信息
申请号: 201310431787.2 申请日: 2013-09-22
公开(公告)号: CN103491165B 公开(公告)日: 2017-04-12
发明(设计)人: 肖仰华;梁家卿;汪卫 申请(专利权)人: 复旦大学
主分类号: H04L29/08 分类号: H04L29/08;H04L12/44;G06F9/46
代理公司: 上海正旦专利代理有限公司31200 代理人: 陆飞,王洁平
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自动检测 屏蔽 通用 分布式 爬虫 系统
【权利要求书】:

1.一种自动检测屏蔽的通用分布式爬虫系统,其特征在于:该系统采用星型网

络架构,包括一个核心节点Master和多个从机Slave,所述核心节点Master控制集群中的从机Slave;其中:

核心节点Master负责管理整个集群,包括集群故障状态和被封锁状态的监控、任务管理和调度分发;其通过快照机制来处理单点故障;通过心跳机制检测每一台从机Slave的状态,从而分配调度确保最大程度利用计算资源;

从机Slave负责具体的抓取工作,即访问网络和下载页面的过程;从机Slave只作为执行者,只和核心节点Master进行通信,不保存抓取任务的信息。

2.根据权要求1所述的自动检测屏蔽的通用分布式爬虫系统,其特征在于,所述核心节点Master包括任务指派模块、任务调度模块和错误处理与故障恢复模块模块;其中:

所述任务指派模块负责和从机Slave进行通信,其将具体的任务传输给从机Slave,并传递从从机Slave中接收的关于任务的返回信息给任务调度模块;

    所述任务调度模块分为两个子模块,分别是任务池和调度器;所述任务池保存当前系统中所有正在执行的抓取任务及其状态,接收调度器的指令,往任务指派模块发送被调度的任务,从任务指派模块接收从机Slave进行任务的信息,以同步更新任务池中的任务信息;任务池中还设有和用户交互的接口,用于管理员往任务池中插入新的任务;所述调度器负责在从机Slave空闲时对抓取任务进行调度;

所述错误处理与故障恢复模块设有心跳检测机制和快照机制;心跳检测机制中,核心节点Master每隔一段时间确认每台Slave的状态;快照机制中,核心节点Master每隔一段时间保存一次任务池的状态。

3.根据权利要求1所述的自动检测屏蔽的通用分布式爬虫系统,其特征在于,所述从机Slave上设有全自动屏蔽检测模块,用于及时发现当前抓取任务是否被屏蔽。

4.根据权利要求2所述的自动检测屏蔽的通用分布式爬虫系统,其特征在于:所述调度器负责在当有空闲Slave时对Job进行恰当合理的调度,以达到以下几个要求:

1)优先度高的比优先级度低的有更多的抓取资源,即有更高的机会被指派开始抓取;

2)一个Job会被尽量平均地分配到各个Slave上,以尽量避免某台Slave因为高速连续访问而被服务器封锁;

3)若发现某个服务器(某个域名)封锁了某个Slave,那么在一段时间内绝对不会将和该服务器(域名)有关的Job指派到这个Slave上。

5.根据权利要求3所述的自动检测屏蔽的通用分布式爬虫系统,其特征在于:所述全自动屏蔽检测模块中采用全自动检测被屏蔽页面的算法,其是通过检测爬虫下载的页面的大小和Token编辑距离的分布的随机性,来检测是否出现异常情况,以自动分辨当前获取的页面是否是有效数据的算法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310431787.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top