[发明专利]一种地址去重方法、相关设备及存储介质有效
申请号: | 201910839093.X | 申请日: | 2019-09-05 |
公开(公告)号: | CN112448991B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 曾庆维 | 申请(专利权)人: | 顺丰科技有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F16/951;G06F16/955 |
代理公司: | 深圳紫藤知识产权代理有限公司 44570 | 代理人: | 吴金 |
地址: | 518000 广东省深圳市南山区学府路(以南)*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地址 方法 相关 设备 存储 介质 | ||
1.一种地址去重方法,其特征在于,所述方法应用于分布式系统,所述分布式系统包括中心服务器和多个从服务器,所述多个从服务器中包括第一从服务器和第二从服务器;所述方法由所述中心服务器执行;所述方法包括:
接收所述第一从服务器的去重请求,所述去重请求包括待定地址列表,所述待定地址列表为所述第一从服务器对爬取的新地址去重得到的待定地址;
向所述分布式系统中的至少一个所述第二从服务器发送所述待定地址列表;
接收各第二从服务器发送的目标地址列表,所述目标地址列表为所述第二从服务器对所述待定地址列表去重得到的地址,所述第二从服务器对所述待定地址列表去重,包括:
计算所述待定地址列表中URL的模糊值、以及本地URL列表中URL的模糊值,根据所述待定地址列表中URL的模糊值和本地URL列表中URL的模糊值对所述待定地址列表进行去重;或者,
基于卷积特征和多重哈希函数映射的快速特征映射算法,建立一个位集合BitSet,所述位集合BitSet包括卷积位集合和哈希位集合;
将所述待定地址列表中每个URL都进行卷积运算和使用多个哈希函数进行映射,得到卷积运算输出的多个卷积值和哈希函数的输出;
根据多个卷积值对卷积位集合进行赋值,根据哈希函数基于每一个字符的输出对哈希位集合赋值;
将赋值后的BitSet作为URL的关键字或者标签,根据赋值后的BitSet识别待定地址列表中的URL是否被第二从服务器爬取过;或者,
将本地URL列表存储在布隆过滤器中;
第二从服务器提取待定地址列表中URL的隐含特征;
将URL的隐含特征与布隆过滤器进行比对,若查询到布隆过滤器中未存储与隐含特征对应的特征,则标记该隐含特征对应的URL,识别出所述待定地址列表中所有的未被第二从服务器爬取过的新URL;
根据各第二从服务器发送的目标地址列表生成多个爬虫任务,向所述分布式系统中的各从服务器分发爬虫任务,包括:接收所述分布式系统中的各从服务器上报的负载状态;
基于各从服务器的负载状态,向负载低于预设负载的第二从服务器分发所述待定地址列表;
接收至少一个所述第二从服务器上报的目标地址列表;
汇总从至少一个所述第二从服务器接收的目标地址列表,基于汇总的目标地址列表生成多个爬虫任务,向所述分布式系统中的各从服务器分发所述多个爬虫任务;所述方法还包括:
基于区块链共享机制创建地址文件夹并保存在区块链数据库中;
接收多个第二从服务器发送的响应消息,所述响应消息用于指示对所述第一从服务器更新所述地址文件夹的更新请求的响应;
当确定预设比例的响应消息为同意所述第一从服务器更新所述地址文件夹时,向所述分布式系统中的从服务器发送指示消息,所述指示消息用于指示同意所述第一从服务器更新所述地址文件夹的更新请求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910839093.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种SBFD会话的建立方法、设备及系统
- 下一篇:一种阅读支架笔盒