[发明专利]一种可扩展型分布式热拔插部署网络爬虫服务模型及其控制方法在审

专利信息
申请号: 202110604575.4 申请日: 2021-05-31
公开(公告)号: CN113312216A 公开(公告)日: 2021-08-27
发明(设计)人: 郑炎;陈耿生;萨冰珍;刘泳 申请(专利权)人: 中电福富信息科技有限公司
主分类号: G06F11/20 分类号: G06F11/20;G06F16/951
代理公司: 福州君诚知识产权代理有限公司 35211 代理人: 彭东
地址: 350000 福建省福州*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 扩展 分布式 热拔插 部署 网络 爬虫 服务 模型 及其 控制 方法
【说明书】:

发明公开一种可扩展型分布式热拔插部署网络爬虫服务模型及其控制方法,模型包括主控服务器以及至少一台热备主控服务器,主控服务器分别连接任务下发中心和爬虫采集服务集群,任务下发中心用于发布采集任务至当前主控服务器;主控服务用于采集任务下发、动态调整爬虫采集服务集群的负载策略以及同步信息至热备主控服务器;热备主控服务器在主控服务宕机时接替主控服务器以负责采集任务下发、动态调整爬虫采集服务集群的负载策略以及同步信息。本发明比起一般的分布式爬虫可以动态增减爬虫节点而不需要重启系统,同时每个爬虫节点互为热备,主控也有对应的热备服务,所以任何一个设备出现故障,对这个系统的稳定性没有影响。

技术领域

本发明涉及网络信息技术领域,尤其涉及一种可扩展型分布式热拔插部署网络爬虫服务模型及其控制方法。

背景技术

目前市面上的网络爬虫主要分为两种:1.单机部署模式,这种也是最简单的网络爬虫模式,以单机的形式开启多个线程来模拟Http的请求以获取应答内容从而实现对网站内容的爬取,优点是部署简单,开发成本低,缺点也很明显,面对互联网海量的信息,爬取的性能就显得力不从心,单机的机制意味着爬虫的主要瓶颈在于网络的吞吐性能。2.分布式部署方案,也就是在单机模式的实现基础上由主控服务负责将要爬取的网站发送给各个爬虫节点,爬虫节点将爬取后的结果上报给主控服务,由主控服务负责持久化处理。这种模式弥补了单机模式的性能瓶颈。但是由于这种模式需要实现配置好一台的主控服务与N台爬虫节点,也就是说需要在部署的前期就要设计好网络拓扑和对服务器的规划。如果主控服务出现宕机,那么爬虫系统就会崩盘。如果是某台爬虫节点出现宕机,那就会使得后续原本应该交于该节点的任务就无法送达爬虫节点。

发明内容

本发明的目的在于提供一种可扩展型分布式热拔插部署网络爬虫服务模型及其控制方法,通过一致性Hash算法来动态增减节点,以心跳来实现网络拓扑变化的实时变更。

本发明采用的技术方案是:

一种可扩展型分布式热拔插部署网络爬虫服务模型,其包括主控服务器以及至少一台热备主控服务器,主控服务器分别连接任务下发中心和爬虫采集服务集群,任务下发中心用于发布采集任务至当前主控服务器;主控服务用于采集任务下发、动态调整爬虫采集服务集群的负载策略以及同步信息至热备主控服务器;热备主控服务器在主控服务宕机时接替主控服务器以负责采集任务下发、动态调整爬虫采集服务集群的负载策略以及同步信息。

进一步地,作为一种较优实施方式,爬虫采集服务集群由若干爬虫节点组成。

进一步地,作为一种较优实施方式,爬虫节点与主控服务器之间通过心跳来交互信息,热备主控服务器与主控服务器之间通过心跳来交互信息。

进一步地,作为一种较优实施方式,增加或减少热备主控服务器时,热备主控服务器将发送心跳于主控服务,再由主控服务通过心跳Ack将热备信息发送给各个爬虫节点;同时由主控服务器将信息同步给热备主控服务器。

一种可扩展型分布式热拔插部署网络爬虫服务模型的控制方法,其包括以下步骤;

步骤1,任务下发中心下发采集任务至主控服务器,

步骤2,主控服务器根据采集任务需求确定任务负载,并将采集任务下发至爬虫采集服务集群中选定的爬虫节点;

步骤3,选定的爬虫节点接收并执行采集任务,同时返回接收任务响应至主控服务器;

步骤4,爬虫采集服务集群的所有爬虫节点周期性向主控服务器通知爬虫节点的存活信息;

步骤5,主控服务器更新对应爬虫节点的存活信息,并同步爬虫节点的存活消息至热备主控服务器的同时向对应的爬虫节点返回响应信息;

步骤6,对应的爬虫节点检查是否在指定时间内收到主控服务器的返回响应信息;是则,保持当前主控服务器不变;否则,判断当前主控服务器宕机同时将后续请求发送至热备主控服务器;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电福富信息科技有限公司,未经中电福富信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110604575.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top