[发明专利]一种爬虫程序的代理获取的方法及装置有效

专利信息
申请号: 201710993998.3 申请日: 2017-10-23
公开(公告)号: CN107832355B 公开(公告)日: 2019-03-26
发明(设计)人: 吕光增;柳超 申请(专利权)人: 北京金堤科技有限公司
主分类号: G06F16/953 分类号: G06F16/953;G06F11/34
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 王莹;吴欢燕
地址: 100086 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 爬虫 程序 代理 获取 方法 装置
【说明书】:

发明的实施例公开了一种爬虫程序的代理获取的方法及装置,该方法针对第一队列中的可用代理,通过第二检测得到有效代理。在接收到爬虫程序通过有效代理抓取待抓取网页的返回信息后,根据该返回信息更新该有效代理的评价参数。通过评价参数将“高质量”的代理添加至第二队列。由于从第二队列中每隔第一预设时间段将“高质量”代理添加至第一队列,避免了该网络爬虫频繁从第一队列中获取该代理导致该有效代理被禁的情况。该方法通过第二队列实现了对代理按照“质量”进行层次区分,第二队列每隔第一预设时间段向第一队列添加有效代理,避免了对“高质量”代理的频繁使用,也及时补充了第一队列中的代理数量,提高了爬虫程序的采集信息的效率。

技术领域

本发明实施例涉及大数据分析技术领域,尤其是涉及一种爬虫程序的代理获取的方法及装置。

背景技术

爬虫是一种按照一定的规则,自动地抓取信息的程序或者脚本。随着大数据产业的发展,用于数据信息采集的爬虫技术成为重要环节。爬虫程序通常使用大批第三方代理IP轮寻切换以采集信息,从而避免使用过于频繁而被禁。

然而,通常所获得的大批第三方代理并不一定都是有效可用的,有很多都是无效代理;而且有的代理访问速度慢,采集效率低;有时频繁使用同一代理,导致了代理被封。而且代理提供商提供的代理大致在3-5分钟内失效,需要不断地补充代理队列,但有时不能及时填补,这些都对爬虫采集效率造成了很大影响。在现有技术中,会通过降低“低质量”代理的使用次数来提高效率。例如,为了提高爬虫的采集效率,频繁使用“高质量”代理,易导致“高质量”代理失效,降低爬虫的采集效率。另一方面,对爬虫程序对应的代理队列没有及时更新措施,常常导致爬虫程序无代理可用。

在实现本发明实施例的过程中,发明人发现现有的爬虫程序对代理的使用缺乏基于“质量”的区分层次且无法及时补充爬虫程序对应的代理队列,导致爬虫的采集效率较低。

发明内容

本发明所要解决的技术问题是如何解决现有的爬虫程序对代理的使用缺乏基于“质量”的区分层次且无法及时补充爬虫程序对应的代理队列,导致爬虫的采集效率较低的问题。

针对以上技术问题,本发明的实施例提供了一种爬虫程序的代理获取的方法,包括:

获取经第一检测合格的代理作为可用代理,将可用代理添加到第一队列,从所述第一队列中获取经第二检测合格的可用代理,作为有效代理,将所述有效代理发送给预设的爬虫程序,并将所述有效代理从所述第一队列移除;

接收到所述爬虫程序返回的通过所述有效代理是否成功抓取待抓取网页的返回信息后,根据所述返回信息更新与通过所述有效代理抓取信息对应的成功率相关的评价参数,若所述评价参数大于或等于第一阈值,则将所述有效代理添加到第二队列;

每隔第一预设时间段,从所述第二队列中获取预设数量的代理,作为待添加代理,将所述待添加代理添加至所述第一队列,并将所述待添加代理从所述第二队列移除。

可选地,所述获取经第一检测合格的代理作为可用代理,将可用代理添加到第一队列,包括:

每隔第二预设时间段,根据预设的代理库中的代理生成代理列表,针对所述代理列表中的每一代理进行所述第一检测,将所述代理列表中第一检测合格的代理作为可用代理添加到所述第一队列。

可选地,所述将所述代理列表中第一检测合格的代理作为可用代理添加到所述第一队列,包括:

获取所述第一队列中每一可用代理对应的评价参数,得到评价参数大于或等于第二阈值的可用代理,作为第一待检测代理,并将评价参数小于所述第二阈值的可用代理从所述第一队列移除;

针对每一所述第一待检测代理,获取所述第一待检测代理最近一次添加至所述第一队列的添加时间点,若所述添加时间点和当前时间点之间的时间间隔大于第三预设时间段,则移除所述第一待检测代理;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金堤科技有限公司,未经北京金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710993998.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top