[发明专利]自动检测屏蔽的通用分布式爬虫系统有效
申请号: | 201310431787.2 | 申请日: | 2013-09-22 |
公开(公告)号: | CN103491165B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 肖仰华;梁家卿;汪卫 | 申请(专利权)人: | 复旦大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L12/44;G06F9/46 |
代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,王洁平 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动检测 屏蔽 通用 分布式 爬虫 系统 | ||
1.一种自动检测屏蔽的通用分布式爬虫系统,其特征在于:该系统采用星型网
络架构,包括一个核心节点Master和多个从机Slave,所述核心节点Master控制集群中的从机Slave;其中:
核心节点Master负责管理整个集群,包括集群故障状态和被封锁状态的监控、任务管理和调度分发;其通过快照机制来处理单点故障;通过心跳机制检测每一台从机Slave的状态,从而分配调度确保最大程度利用计算资源;
从机Slave负责具体的抓取工作,即访问网络和下载页面的过程;从机Slave只作为执行者,只和核心节点Master进行通信,不保存抓取任务的信息。
2.根据权要求1所述的自动检测屏蔽的通用分布式爬虫系统,其特征在于,所述核心节点Master包括任务指派模块、任务调度模块和错误处理与故障恢复模块模块;其中:
所述任务指派模块负责和从机Slave进行通信,其将具体的任务传输给从机Slave,并传递从从机Slave中接收的关于任务的返回信息给任务调度模块;
所述任务调度模块分为两个子模块,分别是任务池和调度器;所述任务池保存当前系统中所有正在执行的抓取任务及其状态,接收调度器的指令,往任务指派模块发送被调度的任务,从任务指派模块接收从机Slave进行任务的信息,以同步更新任务池中的任务信息;任务池中还设有和用户交互的接口,用于管理员往任务池中插入新的任务;所述调度器负责在从机Slave空闲时对抓取任务进行调度;
所述错误处理与故障恢复模块设有心跳检测机制和快照机制;心跳检测机制中,核心节点Master每隔一段时间确认每台Slave的状态;快照机制中,核心节点Master每隔一段时间保存一次任务池的状态。
3.根据权利要求1所述的自动检测屏蔽的通用分布式爬虫系统,其特征在于,所述从机Slave上设有全自动屏蔽检测模块,用于及时发现当前抓取任务是否被屏蔽。
4.根据权利要求2所述的自动检测屏蔽的通用分布式爬虫系统,其特征在于:所述调度器负责在当有空闲Slave时对Job进行恰当合理的调度,以达到以下几个要求:
1)优先度高的比优先级度低的有更多的抓取资源,即有更高的机会被指派开始抓取;
2)一个Job会被尽量平均地分配到各个Slave上,以尽量避免某台Slave因为高速连续访问而被服务器封锁;
3)若发现某个服务器(某个域名)封锁了某个Slave,那么在一段时间内绝对不会将和该服务器(域名)有关的Job指派到这个Slave上。
5.根据权利要求3所述的自动检测屏蔽的通用分布式爬虫系统,其特征在于:所述全自动屏蔽检测模块中采用全自动检测被屏蔽页面的算法,其是通过检测爬虫下载的页面的大小和Token编辑距离的分布的随机性,来检测是否出现异常情况,以自动分辨当前获取的页面是否是有效数据的算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310431787.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种破碎清洗输送管道
- 下一篇:一种具有拉伸腔体载带专用的聚碳酸酯薄膜