[发明专利]一种基于爬虫的自动化差异检测方法及装置有效

申请号：	201310250701.6	申请日：	2013-06-21
公开（公告）号：	CN103365967B	公开（公告）日：	2017-02-08
发明（设计）人：	孙彬;吴甜甜;范桂群;黄始韬	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F11/34
代理公司：	北京铭硕知识产权代理有限公司11286	代理人：	罗延红,王占杰
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于爬虫自动化差异检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种自动化差异检测方法及装置，更具体地说，涉及一种基于爬虫的自动化差异检测方法及装置。

背景技术

互联网上的Web系统经常会升级，有些升级仅影响了少数的页面，由于页面实现底层可能有耦合关系，为了保证整个Web系统的质量，测试人员往往需要回归所有的页面，人力消耗很大。

差异（Diff）检测，是通过找出新旧系统的不同来进行回归检测的方法。现有的Web检测技术一般是通过浏览器驱动器操作页面，通过对HTML页面进行分析，定义一些断言的方式进行web自动化检测。例如，selenium、watir框架可提供这种web自动化检测方法。

上述方案需要人工开发测试用例，但页面变化时，经常导致用例不可用，需要更新维护，人力成本较大；上述方案一般对页面的代码进行分析，如果不符合预期即认为是bug，而Web服务最终展现给用户的是可视化的页面，上述方案无法对页面的可视化效果进行验证；上述方案只能对指定的点进行验证。因此，为了减少人力成本，需要一种自动找出变化和不变的页面，同时保证回归检测的效率和质量的差异检测方法。

发明内容

本发明提供了一种自动化差异检测方法及装置。该方法可以对新旧两套Web系统进行自动化测试，快速产生差异测试报告，帮助用户直观准确地定位有差异的部分。

根据本发明示例性实施例的一方面，提供了一种基于爬虫的自动化差异检测方法，所述方法包括：获取第一Web系统的第一初始统一资源定位符（URL）以及第二Web系统的第二初始URL；基于爬虫分别对第一初始URL和第二初始URL进行遍历，以不断抓取第一web系统下的第一页面和第二web系统下的第二页面，其中，在遍历过程中，执行以下处理：对抓取的第一页面和相应的第二页面进行渲染，分别产生第一网页图像和第二网页图像，对第一网页图像和第二网页图像进行相似性比较，当第一网页图像和第二网页图像不同时，产生差异页面信息，并且将所述差异页面信息存储在差异页面信息数据库中。

所述差异页面信息可包括指示所述第一网页图像与所述第二网页图像不同的图像。

所述差异页面信息还可包括与所述第一网页图像对应的第一网页的URL和与所述第二网页图像对应的第二网页的URL，和/或与所述第一网页图像对应的第一网页和与所述第二网页图像对应的第二网页。

进行相似性比较的步骤可包括：将第一网页图像与相应的第二网页图像分别转换为第一灰度图像和第二灰度图像；逐个比较第一灰度图像和第二灰度图像中的每个像素；如果第一灰度图像和第二灰度图像的不同像素数量超过预定阈值，则确定第一网页图像与相应的第二网页图像不同。

可使用第一灰度图像中的与第二灰度图像不同的像素来产生所述差异页面信息。

在所述遍历过程中，可跳过第一Web系统下的非本地URL和第二Web系统下的非本地URL。

如果第一Web系统下的本地URL的后缀与第二Web系统下的相应的本地URL的后缀相同，则可确定所述第一Web系统下的本地URL与所述第二Web系统下的相应的本地URL相同。

在所述遍历过程中，如果从第一页面中提取的URL与从第二页面中提取的相应的URL不相同，则可跳过所述从第一页面中提取的URL和所述从第二页面中提取的相应的URL，并可产生差异页面信息，将差异页面信息存储在差异页面信息数据库中。

所述差异页面信息可包括所述第一页面的URL和所述第二页面的URL，和/或所述第一页面和所述第二页面。

所述方法还可包括：从差异页面信息数据库读取差异页面信息，根据所述差异页面信息产生相应的报告。

根据本发明示例性实施例的一方面，提供了一种基于爬虫的自动化差异检测装置，所述装置包括：URL获取单元，获取第一Web系统的第一初始统一资源定位符（URL）以及第二Web系统的第二初始URL；遍历比较单元，基于爬虫分别对第一初始URL和第二初始URL进行遍历，以不断抓取第一页面和第二页面，其中，在遍历过程中，执行以下处理：对抓取的第一页面和相应的第二页面进行渲染，分别产生第一网页图像和第二网页图像，对第一网页图像和第二网页图像进行相似性比较，当第一网页图像和第二网页图像不同时，产生差异页面信息，并且将所述差异页面信息存储在差异页面信息数据库中。

所述装置还可包括报告产生单元，从差异页面信息数据库读取差异页面信息，根据所述差异页面信息产生相应的报告。

附图说明

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于百度在线网络技术（北京）有限公司，未经百度在线网络技术（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310250701.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于爬虫的自动化差异检测方法及装置有效

专利文献下载