[发明专利]一种定向信息抓取场景中大规模IP地址资源使用方法有效

专利信息
申请号: 201610182957.1 申请日: 2016-03-28
公开(公告)号: CN105721631B 公开(公告)日: 2019-04-30
发明(设计)人: 时金桥;谭庆丰;王学宾 申请(专利权)人: 中国科学院信息工程研究所
主分类号: H04L29/12 分类号: H04L29/12
代理公司: 北京君尚知识产权代理事务所(普通合伙) 11200 代理人: 余功勋
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 定向 信息 抓取 场景 大规模 ip 地址 资源 使用方法
【说明书】:

发明提供一种定向信息抓取场景中大规模IP地址资源使用方法。包括以下步骤:针对设置了访问频率限制的网络资源,建立包含IP地址集合L中全部IP地址的优先队列;分配可用IP地址时,取出优先队列中优先级最高的IP地址,并更新该IP地址的下次可访问该网络资源的时刻,若当前时刻大于或等于t,则当前任务可立即使用该IP地址;针对每个IP地址维护该IP地址的使用次数un和访问失败次数fn,当从优先队列中取出的优先级最高的IP地址时,以1‑fn/un的概率选用,fn/un的概率放弃。既实现IP地址访问能力充分利用;又提高网络信息获取任务的成功率。

技术领域

本发明涉及特定网络信息获取领域,具体涉及一种定向信息抓取场景中大规模IP地址资源使用方法,能够在单IP对特定网络资源访问频率受限,大量任务并发执行的情况下,高效使用和分配大量IP地址资源。

背景技术

随着互联网的快速发展,网络上的数据资源也急剧膨胀。在某些需要对网络资源进行集中获取的场景中,例如搜索引擎的爬虫爬取某个网站的网页,由于目标网页数量巨大,简单地单一线程串行执行获取任务已经远远不能达到性能上的要求。此时较为常用的方法是同时执行多个信息获取任务,提高系统的吞吐量,从而缩短批量任务的总体完成时间。常见地并发执行多个网络任务的方法包括使用多线程或者事件驱动(IO复用)的编程模型。多任务并发执行的一个直接结果是加快了爬取程序对目标网站的访问频率。而通常目标网站从系统能力的角度出发,为了保证普通用户对网站的正常访问,会在发现某个IP地址过于频繁地访问网站后对其进行拒绝,使其不能获取网站正常的响应,即通常情况下单个IP地址对某个特定网络资源(例如某个域名、URL或者符合特定模式的URL)的访问频率是受限制的,不能高于某个特定的值。因此爬取程序的吞吐量一方面依赖于其执行任务的并发程度(通常取决于CPU、内存和网卡等硬件资源的配置以及所采用并发模型的效率),另一方面则依赖于其所拥有的IP地址的数量,因为在给定IP地址数量为n,单个IP地址对网络资源的最高访问频率为q每秒的情况下,爬取程序吞吐量所能达到的理论上界为n*q每秒。

因此,通常情况下在进行特定网络资源集中采集的场景中会同时使用多个IP地址并发地执行获取任务。若程序的并发能力上界高于多IP地址总体吞吐量上界,即系统并发能力不构成系统总体吞吐量的限制因素时,此时程序设计所面临的问题是如何向多个并发执行的信息抓取任务有效地分配IP地址,使得所有IP地址接近其访问频率上限,既不因为访问过慢造成资源的浪费,又不因为访问过快而造成IP地址被目标网站屏蔽。

同时在实际的场景中,为了节约抓取成本,大量的IP地址通常是互联网上公开的代理(HTTP或者Socks代理),代理的质量和稳定性通常无法控制,甚至会出现整体可用率较差的情况,若在抓取过程中不加区别地使用将造成大量无谓的访问异常。

发明内容

基于以上定向信息抓取场景中存在的问题,本发明的目的是提供一种定向信息抓取场景中大规模IP地址资源使用方法。解决两个方面的问题,首先着力解决并发任务中IP地址的分配问题,在访问频率的约束下实现IP地址访问能力充分利用;其次提供IP地址可用性的评估机制,提高网络信息获取任务的成功率。

为达上述目的,本发明采取的具体技术是:

一种定向信息抓取场景中大规模IP地址资源使用方法,包括以下步骤:

针对设置了访问频率限制的网络资源,根据一IP地址集合L中每个IP地址下次可访问该网络资源的时刻建立包含L中全部IP地址的优先队列;

在向某个网络信息采集任务分配可用IP地址时,取出优先队列中优先级最高的IP地址,设其下次可访问该网络资源的时刻为t,并更新该IP地址的下次可访问该网络资源的时刻,重新将其放入优先队列;若当前时刻大于或等于t,则当前任务可立即使用该IP地址,否则当前任务阻塞直至当前时刻大于或等于t,方可使用该IP地址;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610182957.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top