[发明专利]从网站中多个不同IP的服务器抓取网页的方法及系统有效

专利信息
申请号: 201010546334.0 申请日: 2010-11-15
公开(公告)号: CN102469132A 公开(公告)日: 2012-05-23
发明(设计)人: 李湘军;于晓明;杨建武;吴新丽 申请(专利权)人: 北大方正集团有限公司;北京大学;北京北大方正电子有限公司
主分类号: H04L29/08 分类号: H04L29/08;H04L29/12;G06F17/30
代理公司: 北京天悦专利代理事务所(普通合伙) 11311 代理人: 田明;任晓航
地址: 100871 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网站 中多个 不同 ip 服务器 抓取 网页 方法 系统
【权利要求书】:

1.一种从网站中多个不同IP的服务器抓取网页的方法,包括以下步骤:

(1)为客户端的网页抓取任务分配目标网站服务器的IP,所述网页抓取任务包括待抓取网页的网页地址;

(2)判断所述网页抓取任务是否符合所述服务器的礼貌访问条件;如果符合,则利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页。

2.如权利要求1所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(1)中所述网页抓取任务可随时加载到抓取任务队列中;定时刷新抓取任务队列;如果抓取任务队列不空,则遍历抓取任务队列,获取符合所述礼貌访问条件的网页抓取任务。

3.如权利要求2所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:所述礼貌访问条件包括如下两个方面:①使用该IP的并发数不超过设定的并发数限制;②向该IP发送请求的时间间隔不小于设定的时间间隔限制。

4.如权利要求3所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:如果当前网页抓取任务符合所述礼貌访问条件,则从抓取任务队列中取下该网页抓取任务,并累加该网页抓取任务所使用IP的并发数;如果当前网页抓取任务不符合所述礼貌访问条件,则继续判断抓取任务队列中下一个网页抓取任务。

5.如权利要求1所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(1)中所述为网页抓取任务分配目标网站服务器的IP的过程如下:

判断客户端缓存中与所述网页地址对应的主机名是否有IP列表;如果没有IP列表,则预分配使用第一个IP;如果有IP列表且已知IP列表中所有IP的抓取速度,则分配一个可用的且抓取速度最快的IP,否则轮询分配一个IP。

6.如权利要求5所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:如果网页抓取任务没有与该网页地址对应的主机名的IP列表,则对该主机名进行DNS解析,获取IP列表,将预分配的第一个IP转换为IP列表中实际的第一个IP;然后将所述主机名和IP列表进行缓存。

7.如权利要求2所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(2)中,在利用所述IP建立与所述服务器的连接过程中,如果连接成功,则缓存该连接,下次使用该连接时,直接从缓存中获取该连接;如果连接失败,则对该IP进行标记,并将该网页抓取任务加载到失败任务队列。

8.如权利要求7所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:缓存该连接后,记录每次使用该连接的时间,当使用该连接的时间超过了设定的有效期限时,则删除该连接。

9.如权利要求7所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:如果连接失败的次数超过设定的阈值M时,标记该IP不可用,下次分配IP时不再分配该IP。

10.如权利要求9所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:当不可用的IP个数超过了IP列表中IP总个数的设定比例N时,重新进行DNS解析,获取新的IP列表。

11.如权利要求2所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(2)中,在建立与所述服务器的连接后,访问所述网页地址的网页;如果访问成功,则抓取网页内容,并标记该连接可以重用;如果访问失败,则关闭该连接,并将该网页抓取任务加载到失败任务队列。

12.如权利要求7或11所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:定时将所述失败任务队列中的任务加载到抓取任务队列中。

13.如权利要求11所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(2)中,在抓取网页内容后,记录该网页抓取任务所使用IP的本次抓取速度,并统计所述IP的综合抓取速度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010546334.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top