[发明专利]一种测试网络爬虫的方法及系统有效

申请号：	201410655647.8	申请日：	2014-11-18
公开（公告）号：	CN105656707B	公开（公告）日：	2019-03-26
发明（设计）人：	王辉	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	H04L12/26	分类号：	H04L12/26
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	党晓林;李永强
地址：	英属开曼***	国省代码：	开曼群岛;KY
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种测试网络爬虫方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种测试网络爬虫的方法及系统，所述方法包括：第一服务器配置预设数量的顶级域名，并将所述顶级域名设置为指向第二服务器的IP地址；网络爬虫服务器读取所述顶级域名并根据所述顶级域名扩展出海量域名；网络爬虫服务器遍历所述海量域名，并针对每个域名向第二服务器发起抓取请求；第二服务器选取网站，并将所述网站提供给网络爬虫服务器抓取。本申请实施例公开的测试网络爬虫的方法及系统，可以在不对真实网站形成打扰的情况下，检测网络爬虫抓取海量网站页面时的工作性能。

技术领域

本申请涉及互联网搜索引擎技术领域，特别涉及一种测试网络爬虫的方法及系统。

背景技术

随着互联网信息爆炸式的增长，搜索引擎扮演着越来越重要的角色。搜索引擎技术中，网络爬虫是重要的组成部分。网络爬虫可以按照一定的规则，自动地抓取页面信息。

网络爬虫工作的基本步骤包括：将需要抓取的URL(Uniform Resource Locator，统一资源定位符)放入待抓取队列；从待抓取队列中取出一个URL；从所述URL指向的网站上抓取相关页面信息；将抓取到的页面信息保存至页面库中；将已经抓取完的URL放入已抓取URL队列。一些网络爬虫每天需要抓取数万甚至百万、千万级别的网站，其抓取的页面数量更是可以达到亿级。为了检测网络爬虫在抓取海量网站页面时的工作性能，需要对其进行测试。

现有技术在测试网络爬虫工作性能时，会准备少量的测试网站提交给网络爬虫抓取；也可以直接提供大量的真实网站给网络爬虫进行抓取。

在实现本申请过程中，发明人发现现有技术至少存在如下问题：

上述现有技术的测试网络爬虫工作性能的方法，若只通过对少量的测试网站进行抓取测试，由于网络爬虫测试抓取少量测试网站时负荷较低，检测到的性能仅能代表低负荷时的性能，即无法代表网络爬虫在处理海量网站时处于较高负荷状态下的工作性能；若使用大量的真实网站进行测试，那么将对这些真实网站形成打扰，可能会被真实网站屏蔽访问。

发明内容

本申请提供一种测试网络爬虫的方法及系统，目的在于不对真实网站形成打扰前提下，检测网络爬虫抓取海量网站页面时的工作性能。

为解决上述技术问题，本申请实施例提供的一种测试网络爬虫的方法及系统是这样实现的：

一种测试网络爬虫的方法，包括：

第一服务器配置预设数量的顶级域名，并将所述顶级域名设置为指向第二服务器的IP地址；

网络爬虫服务器读取所述顶级域名并根据所述顶级域名扩展出海量域名；

网络爬虫服务器将存储的DNS服务器地址设置为所述第一服务器的地址；

网络爬虫服务器遍历所述海量域名，并针对每个域名向第一服务器发起所述域名到第二服务器IP地址的转换请求；

网络爬虫服务器接收第一服务器发来的根据所述域名转换的第二服务器IP地址，并根据所述第二服务器的IP地址对第二服务器发起抓取请求；

第二服务器选取网站，并将所述网站提供给网络爬虫服务器抓取。

一种测试网络爬虫的方法，包括：

网络爬虫服务器建立海量域名，并将所述海量域名设置为指向第二服务器的IP地址；