[发明专利]从网站中多个不同IP的服务器抓取网页的方法及系统有效
| 申请号: | 201010546334.0 | 申请日: | 2010-11-15 |
| 公开(公告)号: | CN102469132A | 公开(公告)日: | 2012-05-23 |
| 发明(设计)人: | 李湘军;于晓明;杨建武;吴新丽 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/12;G06F17/30 |
| 代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
| 地址: | 100871 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网站 中多个 不同 ip 服务器 抓取 网页 方法 系统 | ||
技术领域
本发明涉及一种从网站中抓取网页的方法及系统,尤其是涉及一种从网站中多个不同IP的服务器抓取网页的方法及系统。
背景技术
随着互联网的飞速发展,互联网上的信息规模越来越大,网站访问量也越来越大。大多数信息规模较大或访问量较大的网站,为了满足目前的互联网访问需求,都提供了多台不同IP(Internet Protocol,网络之间互连的协议)的服务器,通过智能DNS(Domain Name System,域名系统)服务器,按照负载均衡的策略返回不同顺序的服务器IP列表,客户端会使用第一个服务器进行访问,从而将用户的访问请求分散到不同的服务器上。为了防止服务器压力过大或者被恶意攻击,这些网站尤其是论坛和博客,会对并发过大或者频率过快的访问采取临时性地拒绝服务或永久性地封杀对方IP的措施。对于一个客户端而言,如果该客户端发送的多个访问请求被分配到了网站的同一台服务器上,则可能会因为该服务器的限制而被拒绝服务,甚至被封杀IP。
现有的爬虫系统一般都按照网站来控制访问策略,由于受到网站访问并发数的限制,所以采集效率较低,如果增加抓取网页的工作线程数量又容易触发网站的限制访问条件,造成抓取失败或被封杀IP。
发明内容
针对现有技术中存在的缺陷,本发明要解决的技术问题是提供一种从网站中多个不同IP的服务器抓取网页的方法与系统,该方法及系统能够在礼貌访问网站的前提下,成倍地提高网页抓取的效率。
为解决上述技术问题,本发明采用的技术方案如下:
一种从网站中多个不同IP的服务器抓取网页的方法,包括以下步骤:
(1)为客户端的网页抓取任务分配目标网站服务器的IP,所述网页抓取任务包括待抓取网页的网页地址;
(2)判断所述网页抓取任务是否符合所述服务器的礼貌访问条件;如果符合,则利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页。
一种从网站中多个不同IP的服务器抓取网页的系统,包括为客户端的网页抓取任务分配目标网站服务器IP的分配装置,所述网页抓取任务包括待抓取网页的网页地址;
用于判断所述网页抓取任务是否符合所述服务器的礼貌访问条件的判断装置;
用于利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页的抓取装置。
本发明所述的方法及系统,访问策略基于IP级,更便于控制采集工作线程对网站进行礼貌地访问;通过缓存DNS,同时使用多个IP并优先分配速度最快IP的方式,极大地提高了网页抓取的效率;当目标网站有个别服务器不能访问时能够及时切换到其他IP的服务器,提高了容错能力。
附图说明
图1是本发明所述从网站中多个不同IP的服务器抓取网页的系统结构框图;
图2是本发明所述从网站中多个不同IP的服务器抓取网页的方法流程图;
图3是本发明所述方法一具体实施方式的流程图。
具体实施方式
下面结合具体实施方式和附图对本发明进行详细描述。
图1示出了本发明所述从网站中多个不同IP的服务器抓取网页的系统结构。如图1所示,该系统包括分配装置11,与分配装置11连接的判断装置12,与判断装置12连接的抓取装置13。
分配装置11用于为客户端的网页抓取任务分配目标网站服务器IP。所述网页抓取任务包括待抓取网页的URL(网页地址);所述目标网站是指待抓取网页所在的网站。
判断装置12用于判断网页抓取任务是否符合服务器的礼貌访问条件。所述礼貌访问条件包括如下两个方面:①使用该IP的并发数不超过设定的并发数限制;②向该IP发送请求的时间间隔不小于设定的时间间隔限制。
抓取装置13用于利用分配的IP建立与该IP的服务器的连接,从该IP的服务器中抓取所述URL的网页。
图2示出了采用图1所示系统从网站中多个不同IP的服务器抓取网页的方法流程。该方法首先为客户端的网页抓取任务分配目标网站服务器的IP;然后判断该网页抓取任务是否符合被分配IP的服务器的礼貌访问条件;如果符合,则利用所述IP建立与所述服务器的连接,从所述服务器中抓取所述网页地址的网页。
图3示出了本发明所述方法一具体实施方式的流程。客户端可随时将网页抓取任务加载到抓取任务队列中,所述网页抓取任务包括待抓取网页的URL。如图3所示,对抓取任务队列中的网页抓取任务进行如下操作:
(1)定时刷新抓取任务队列,如果抓取任务队列为空,则重复该步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010546334.0/2.html,转载请声明来源钻瓜专利网。





