[发明专利]一种地址去重方法、相关设备及存储介质有效
申请号: | 201910839093.X | 申请日: | 2019-09-05 |
公开(公告)号: | CN112448991B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 曾庆维 | 申请(专利权)人: | 顺丰科技有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F16/951;G06F16/955 |
代理公司: | 深圳紫藤知识产权代理有限公司 44570 | 代理人: | 吴金 |
地址: | 518000 广东省深圳市南山区学府路(以南)*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地址 方法 相关 设备 存储 介质 | ||
本申请实施例公开一种地址去重方法、相关设备及存储介质,方法包括:接收所述第一从服务器的去重请求,所述去重请求包括待定地址列表,所述待定地址列表为所述第一从服务器对爬取的新地址去重得到的待定地址;向所述分布式系统中的至少一个所述第二从服务器发送所述待定地址列表;接收各第二从服务器发送的目标地址列表,所述目标地址列表为所述第二从服务器对所述待定地址列表去重得到的地址;根据各第二从服务器发送的目标地址列表生成多个爬虫任务,向所述分布式系统中的各从服务器分发爬虫任务。本方案能够降低分布式系统因地址去重造成的性能影响。
技术领域
本申请实施例涉及互联网技术领域,尤其涉及一种地址去重方法、相关设备及存储介质。
背景技术
现有机制中,基于爬虫系统对地址进行爬取任务时,需要处理重复的地址,以避免和重复和无效的爬取任务。爬虫系统采用的架构是一个中心服务器和多个子服务器,由中心服务器负责处理重复的地址,然后将地址的爬取任务分配给这些子服务器进行爬去操作。
在对现有技术的研究和实践过程中,本申请实施例的发明人发现,中心服务器采用布隆过滤器、md5等方法处理重复的地址时,需要长时间消耗非常多的内存资源,并且,中心服务器需要保存历史爬取过的所有地址,当子服务器通过执行爬虫任务得到一个新地址后,会上报给中心服务器,中心服务器再基于保存的历史地址进行遍历查询,整个过程耗时较长,效率较低。
发明内容
本申请实施例提供了一种地址去重方法、相关设备及存储介质,能够提高分布式系统的地址去重效率和系统性能,以及对地址去重实现负载均衡。
第一方面中,本申请实施例提供一种地址去重方法,所述方法应用于分布式系统,所述分布式系统包括中心服务器和多个从服务器,所述多个从服务器中包括第一服务器和第二服务器;所述方法由所述中心服务器执行;所述方法包括:
接收所述第一从服务器的去重请求,所述去重请求包括待定地址列表,所述待定地址列表为所述第一从服务器对爬取的新地址去重得到的待定地址;
向所述分布式系统中的至少一个所述第二从服务器发送所述待定地址列表;
接收各第二从服务器发送的目标地址列表,所述目标地址列表为所述第二从服务器对所述待定地址列表去重得到的地址;
根据各第二从服务器发送的目标地址列表生成多个爬虫任务,向所述分布式系统中的各从服务器分发爬虫任务。
一种可能的设计中,所述根据各第二从服务器发送的目标地址列表生成多个爬虫任务,向所述分布式系统中的各从服务器分发爬虫任务,包括:
接收所述分布式系统中的各从服务器上报的负载状态;
基于各从服务器的负载状态,向负载低于预设负载的第二从服务器分发所述待定地址列表;
接收至少一个所述第二从服务器上报的目标地址列表;
汇总从至少一个所述第二从服务器接收的目标地址列表,基于汇总的目标地址列表生成多个爬虫任务,向所述分布式系统中的各从服务器分发所述多个爬虫任务。
一种可能的设计中,所述方法还包括:
基于区块链共享机制创建地址文件夹并保存在区块链数据库中;
接收多个第二从服务器发送的响应消息,所述响应消息用于指示对所述第一从服务器更新所述地址文件夹的更新请求的响应;
当预设比例的响应消息为同意所述第一从服务器更新所述地址文件夹时,向所述分布式系统中的从服务器发送指示消息,所述指示消息用于指示同意所述第一从服务器更新所述地址文件夹的更新请求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910839093.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种SBFD会话的建立方法、设备及系统
- 下一篇:一种阅读支架笔盒