[发明专利]一种网络爬虫率的自动化测试方法及装置有效
| 申请号: | 201510957702.3 | 申请日: | 2015-12-17 |
| 公开(公告)号: | CN105630673B | 公开(公告)日: | 2018-12-25 |
| 发明(设计)人: | 徐香联 | 申请(专利权)人: | 北京锐安科技有限公司 |
| 主分类号: | G06F11/36 | 分类号: | G06F11/36 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬;孟金喆 |
| 地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网络 爬虫 自动化 测试 方法 装置 | ||
本发明实施例公开了一种网络爬虫率的自动化测试方法及装置。该方法包括:访问从爬虫程序的爬虫种子库中读取的种子网址关联的网页,并从所述网页的链接属性中获得设定数值个候选链接;对所述候选链接进行筛选,以得到目标链接,并将所述目标链接导入到测试工具中;依据所述测试工具中导入的目标链接和所述爬虫程序的爬虫结果数据,确定所述爬虫程序的爬全率。本发明实施例中的技术方案,相比于现有技术手动验证爬虫程序的性能,提高了对爬虫程序的测试效率。
技术领域
本发明实施例涉及软件测试技术领域,尤其涉及一种网络爬虫率的自动化测试方法及装置。
背景技术
近年来,我国互联网用户呈爆发式增长,各种网站论坛如雨后春笋般蓬勃发展。面对如此海量的信息,需要对有价值的数据进行提取筛选,政府可以用于舆情分析、网络安全监控;企业可以用于市场调研、媒体分析。
在信息爆发式增长的大环境下,网页爬虫技术显得尤为重要。爬虫程序能否及时爬取想要的信息,爬取的网页数据是否完整,信息是否正确,是体现产品性能的重要指标。但是手动验证成千上万个网页的数据是否爬取及时、全面、正确,是否全部入库,费时费力,因此迫切需要一种能够自动化测试网页爬虫爬全率的测试方法,以提高对爬虫程序的测试效率。
发明内容
本发明提供一种网络爬虫率的自动化测试方法及装置,以提高对爬虫程序的测试效率。
第一方面,本发明实施例提供了一种网络爬虫率的自动化测试方法,包括:
访问从爬虫程序的爬虫种子库中读取的种子网址关联的网页,并从所述网页的链接属性中获得设定数值个候选链接;
对所述候选链接进行筛选,以得到目标链接,并将所述目标链接导入到测试工具中;
依据所述测试工具中导入的目标链接和所述爬虫程序的爬虫结果数据,确定所述爬虫程序的爬全率。
第二方面,本发明实施例提供了一种网络爬虫率的自动化测试装置,包括:
候选链接模块,用于访问从爬虫程序的爬虫种子库中读取的种子网址关联的网页,并从所述网页的链接属性中获得设定数值个候选链接;
目标链接模块,用于对所述候选链接进行筛选,以得到目标链接,并将所述目标链接导入到测试工具中;
爬全率模块,用于依据所述测试工具中导入的目标链接和所述爬虫程序的爬虫结果数据,确定所述爬虫程序的爬全率。
本发明实施例提供的技术方案,通过访问爬虫程序的爬虫种子库中种子网址关联的网页,从网页的链接属性中筛选出目标链接,依据目标链接和爬虫程序的爬虫结果数据,确定爬虫程序的爬全率,相比于现有技术手动验证爬虫程序的性能,提高了对爬虫程序的测试效率。
附图说明
图1a是本发明实施例一中的一种网络爬虫率的自动化测试方法的流程图;
图1b是本发明实施例一中的种子网址以及正则表达式的示意图;
图1c是本发明实施例一中的目标链接关联的匹配结果的示意图;
图1d是本发明实施例一中的excel格式的目标链接示意图;
图2是本发明实施例二中的一种网络爬虫率的自动化测试方法的流程图;
图3是本发明实施例三中的一种网络爬虫率的自动化测试装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510957702.3/2.html,转载请声明来源钻瓜专利网。





