[发明专利]一种爬虫程序的代理获取的方法及装置有效
申请号: | 201710993998.3 | 申请日: | 2017-10-23 |
公开(公告)号: | CN107832355B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 吕光增;柳超 | 申请(专利权)人: | 北京金堤科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F11/34 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100086 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的实施例公开了一种爬虫程序的代理获取的方法及装置,该方法针对第一队列中的可用代理,通过第二检测得到有效代理。在接收到爬虫程序通过有效代理抓取待抓取网页的返回信息后,根据该返回信息更新该有效代理的评价参数。通过评价参数将“高质量”的代理添加至第二队列。由于从第二队列中每隔第一预设时间段将“高质量”代理添加至第一队列,避免了该网络爬虫频繁从第一队列中获取该代理导致该有效代理被禁的情况。该方法通过第二队列实现了对代理按照“质量”进行层次区分,第二队列每隔第一预设时间段向第一队列添加有效代理,避免了对“高质量”代理的频繁使用,也及时补充了第一队列中的代理数量,提高了爬虫程序的采集信息的效率。 | ||
搜索关键词: | 一种 爬虫 程序 代理 获取 方法 装置 | ||
【主权项】:
1.一种爬虫程序的代理获取的方法,其特征在于,包括:获取经第一检测合格的代理作为可用代理,将可用代理添加到第一队列,从所述第一队列中获取经第二检测合格的可用代理,作为有效代理,将所述有效代理发送给预设的爬虫程序,并将所述有效代理从所述第一队列移除;接收到所述爬虫程序返回的通过所述有效代理是否成功抓取待抓取网页的返回信息后,根据所述返回信息更新与通过所述有效代理抓取信息对应的成功率相关的评价参数,若所述评价参数大于或等于第一阈值,则将所述有效代理添加到第二队列;每隔第一预设时间段,从所述第二队列中获取预设数量的代理,作为待添加代理,将所述待添加代理添加至所述第一队列,并将所述待添加代理从所述第二队列移除;所述从所述第一队列中获取经第二检测合格的可用代理,作为有效代理,包括:循环从所述第一队列中获取未被遍历的可用代理,作为第四待检测代理,执行所述第二检测,直到得到所述第二检测合格的可用代理,或者遍历了所述第一队列中的所有可用代理,将所述第二检测合格的可用代理作为有效代理;其中,所述第二检测包括:循环执行通过所述第四待检测代理抓取所述待抓取网页对应的测试页的操作,直到通过所述第四待检测代理抓取所述测试页成功,或者通过所述第四待检测代理抓取所述测试页的次数大于预设次数;若检测到通过所述第四待检测代理抓取所述测试页成功,则对所述第四待检测代理进行第二检测的检测结果为合格;若检测到通过所述第四待检测代理抓取所述测试页的次数大于所述预设次数,则对所述第四待检测代理进行第二检测的检测结果为不合格。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金堤科技有限公司,未经北京金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710993998.3/,转载请声明来源钻瓜专利网。