[发明专利]一种爬虫集群监控方法、装置、存储介质及计算机设备在审
| 申请号: | 202010713832.3 | 申请日: | 2020-07-22 |
| 公开(公告)号: | CN112035721A | 公开(公告)日: | 2020-12-04 |
| 发明(设计)人: | 徐志威 | 申请(专利权)人: | 大箴(杭州)科技有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F11/30;G06F11/32 |
| 代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威;贾依娇 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 爬虫 集群 监控 方法 装置 存储 介质 计算机 设备 | ||
本发明公开了一种爬虫集群监控方法、装置、存储介质及计算机设备,涉及计算机技术领域,主要目的在于解决爬虫集群监控过程中主节点无法对子节点返回的结果信息进行监控,导致爬虫集群监控效率较低,且浪费大量时间与人力成本的问题。方法包括:获取子节点发送的结果信息,结果信息中携带有身份标识和节点状态标识;利用身份标识在本地配置文件中查找相应的结果信息类型以及节点状态类型,配置文件中预先配置有与各子节点相关联的结果信息类型和节点状态类型;依据子节点对应的结果信息和节点状态标识,以及所述结果信息类型和节点状态类型,判断子节点是否为异常子节点;若是,则对异常子节点进行删除和重建处理。本发明适用于爬虫集群的监控。
技术领域
本发明涉及计算机技术领域,特别是涉及一种爬虫集群监控方法、装置、存储介质及计算机设备。
背景技术
爬虫装置的使用需部署至子节点中,即爬虫集群。子节点在执行信息爬取后再将结果信息返回至主节点,为了保证子节点的可用性,通常通过多节点集群监控的方式,即多个节点组成一个集群,向每个节点执行监控操作,收集结果分析节点状态。而对于爬虫装置,节点的运行状态正常并不能表示其爬虫正常,还需对其输出的结果信息进行检测。然而,传统的集群监控无法对此进行监控处理,对于接收子节点推送结果的主节点来说,同时核对结果信息的完整性并对子节点进行检测维护将是一大难题,日常需要人员投入辅助监控和操作,导致爬虫集群监控效率较低,且浪费大量时间与人力成本。
发明内容
有鉴于此,本发明提供一种爬虫集群监控方法、装置、存储介质及计算机设备,主要目的在于能够解决爬虫集群监控过程中主节点无法对子节点返回的结果信息进行监控,导致爬虫集群监控效率较低,且浪费大量时间与人力成本的问题。
依据本发明一个方面,提供了一种爬虫集群监控方法,包括:
获取子节点发送的结果信息,其中,所述结果信息中携带有所述子节点对应的身份标识和节点状态标识;
利用所述身份标识在本地配置文件中匹配相应的结果信息类型以及节点状态类型,其中,所述配置文件中预先配置有与各子节点相关联的结果信息类型和节点状态类型;
依据匹配得到的所述结果信息类型和节点状态类型,以及所述子节点发送的结果信息和节点状态标识,判断所述子节点是否为异常子节点;
若是,则对所述异常子节点进行删除和重建处理。
进一步地,所述根据所述身份标识在本地配置文件中匹配预设的结果信息类型以及节点状态类型,包括:
读取本地配置文件;
根据所述身份标识在所述配置文件中匹配相应的子节点;
提取与所述子节点相关联的结果信息类型以及节点状态类型。
进一步地,所述依据匹配得到的所述结果信息类型和节点状态类型,以及所述子节点发送的结果信息类型和节点状态类型,判断所述子节点是否为异常子节点,包括:
分别判断所述结果信息与所述结果信息类型、所述节点状态标识与所述节点状态类型是否一致;
若所述结果信息与所述结果信息类型不一致,和/或所述节点状态标识与节点状态类型不一致,则将所述子节点确定为异常子节点。
进一步地,所述若是,则对所述异常子节点进行删除和重建处理,包括:
提取所述异常子节点的路径信息;
根据所述路径信息,删除目标位置的异常子节点;
在所述目标位置重新创建子节点;
根据所述重新创建的子节点对本地配置文件进行更新;
读取所述更新后的配置文件,以将所述子节点添加至爬虫集群监控中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大箴(杭州)科技有限公司,未经大箴(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010713832.3/2.html,转载请声明来源钻瓜专利网。





