[发明专利]从网站中多个不同IP的服务器抓取网页的方法及系统有效
| 申请号: | 201010546334.0 | 申请日: | 2010-11-15 |
| 公开(公告)号: | CN102469132A | 公开(公告)日: | 2012-05-23 |
| 发明(设计)人: | 李湘军;于晓明;杨建武;吴新丽 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/12;G06F17/30 |
| 代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
| 地址: | 100871 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网站 中多个 不同 ip 服务器 抓取 网页 方法 系统 | ||
1.一种从网站中多个不同IP的服务器抓取网页的方法,包括以下步骤:
(1)为客户端的网页抓取任务分配目标网站服务器的IP,所述网页抓取任务包括待抓取网页的网页地址;
(2)判断所述网页抓取任务是否符合所述服务器的礼貌访问条件;如果符合,则利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页。
2.如权利要求1所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(1)中所述网页抓取任务可随时加载到抓取任务队列中;定时刷新抓取任务队列;如果抓取任务队列不空,则遍历抓取任务队列,获取符合所述礼貌访问条件的网页抓取任务。
3.如权利要求2所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:所述礼貌访问条件包括如下两个方面:①使用该IP的并发数不超过设定的并发数限制;②向该IP发送请求的时间间隔不小于设定的时间间隔限制。
4.如权利要求3所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:如果当前网页抓取任务符合所述礼貌访问条件,则从抓取任务队列中取下该网页抓取任务,并累加该网页抓取任务所使用IP的并发数;如果当前网页抓取任务不符合所述礼貌访问条件,则继续判断抓取任务队列中下一个网页抓取任务。
5.如权利要求1所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(1)中所述为网页抓取任务分配目标网站服务器的IP的过程如下:
判断客户端缓存中与所述网页地址对应的主机名是否有IP列表;如果没有IP列表,则预分配使用第一个IP;如果有IP列表且已知IP列表中所有IP的抓取速度,则分配一个可用的且抓取速度最快的IP,否则轮询分配一个IP。
6.如权利要求5所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:如果网页抓取任务没有与该网页地址对应的主机名的IP列表,则对该主机名进行DNS解析,获取IP列表,将预分配的第一个IP转换为IP列表中实际的第一个IP;然后将所述主机名和IP列表进行缓存。
7.如权利要求2所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(2)中,在利用所述IP建立与所述服务器的连接过程中,如果连接成功,则缓存该连接,下次使用该连接时,直接从缓存中获取该连接;如果连接失败,则对该IP进行标记,并将该网页抓取任务加载到失败任务队列。
8.如权利要求7所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:缓存该连接后,记录每次使用该连接的时间,当使用该连接的时间超过了设定的有效期限时,则删除该连接。
9.如权利要求7所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:如果连接失败的次数超过设定的阈值M时,标记该IP不可用,下次分配IP时不再分配该IP。
10.如权利要求9所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:当不可用的IP个数超过了IP列表中IP总个数的设定比例N时,重新进行DNS解析,获取新的IP列表。
11.如权利要求2所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(2)中,在建立与所述服务器的连接后,访问所述网页地址的网页;如果访问成功,则抓取网页内容,并标记该连接可以重用;如果访问失败,则关闭该连接,并将该网页抓取任务加载到失败任务队列。
12.如权利要求7或11所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:定时将所述失败任务队列中的任务加载到抓取任务队列中。
13.如权利要求11所述的从网站中多个不同IP的服务器抓取网页的方法,其特征在于:步骤(2)中,在抓取网页内容后,记录该网页抓取任务所使用IP的本次抓取速度,并统计所述IP的综合抓取速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010546334.0/1.html,转载请声明来源钻瓜专利网。





