[发明专利]从网站中多个不同IP的服务器抓取网页的方法及系统有效
| 申请号: | 201010546334.0 | 申请日: | 2010-11-15 |
| 公开(公告)号: | CN102469132A | 公开(公告)日: | 2012-05-23 |
| 发明(设计)人: | 李湘军;于晓明;杨建武;吴新丽 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/12;G06F17/30 |
| 代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
| 地址: | 100871 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种从网站中多个不同IP的服务器抓取网页的方法及系统。本发明首先为客户端的网页抓取任务分配目标网站服务器的IP,所述网页抓取任务包括待抓取网页的网页地址;然后判断所述网页抓取任务是否符合所述服务器的礼貌访问条件;如果符合,则利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页。本发明的访问策略基于IP级,更便于控制采集工作线程对网站进行礼貌地访问;通过缓存DNS,同时使用多个IP并优先分配速度最快IP的方式,极大地提高了网页抓取的效率;而且当目标网站有个别服务器不能访问时能够及时切换到其他IP的服务器,提高了容错能力。 | ||
| 搜索关键词: | 网站 中多个 不同 ip 服务器 抓取 网页 方法 系统 | ||
【主权项】:
一种从网站中多个不同IP的服务器抓取网页的方法,包括以下步骤:(1)为客户端的网页抓取任务分配目标网站服务器的IP,所述网页抓取任务包括待抓取网页的网页地址;(2)判断所述网页抓取任务是否符合所述服务器的礼貌访问条件;如果符合,则利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010546334.0/,转载请声明来源钻瓜专利网。





