[发明专利]一种数据探测方法及装置有效

专利信息
申请号: 202010627728.2 申请日: 2020-07-02
公开(公告)号: CN111737629B 公开(公告)日: 2020-12-29
发明(设计)人: 田启航;王滨;万里;毕志城;周少鹏 申请(专利权)人: 杭州海康威视数字技术股份有限公司
主分类号: G06F16/958 分类号: G06F16/958;G06F16/955;G06F16/951
代理公司: 北京博思佳知识产权代理有限公司 11415 代理人: 杨春香
地址: 310051 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 探测 方法 装置
【说明书】:

本申请提供一种数据探测方法及装置,所述方法应用于爬虫系统,所述爬虫系统包括爬虫节点、代理节点,所述方法包括:所述代理节点在检测到数据探测任务时,建立所述代理节点与客户端的代理关系;在通过所述爬虫节点执行所述数据探测任务时,触发所述客户端通过所述代理节点向被测系统发送请求信息,其中,所述被测系统响应所述请求信息产生交互数据;所述代理节点捕获所述客户端的请求信息和所述被测系统的交互数据。应用该方法,可以实现对被测系统进行全面探测。

技术领域

本申请涉及互联网技术领域,尤其涉及一种数据探测方法及装置。

背景技术

目前,可以通过浏览器与网站进行交互获取网站的数据,这里,网站的数据可以是网站提供的静态网页、采用后端渲染方式渲染而成的网页,或者针对浏览器发送的AJAX请求而返回的AJAX响应数据,其中,当浏览器获取到网站的AJAX响应数据后,采用前端渲染方式对获取到的数据进行渲染而生成网页。进而,通过爬虫以获取网页内容的方式实现对网站的探测。

可见,传统的爬虫探测到的仅仅是网页内容,并无法探测到浏览器与网站交互过程中的原始交互数据,比如浏览器向网站发送的AJAX请求、网站向浏览器返回的AJAX响应数据等,这就导致应用目前的数据探测方法无法对被测系统进行全面探测。

发明内容

有鉴于此,本申请提供一种数据探测方法及装置,以解决应用目前的数据探测方法无法对被测系统进行全面探测的问题。

根据本申请实施例的第一方面,提供一种数据探测方法,应用于爬虫系统,所述爬虫系统包括爬虫节点、代理节点,所述数据探测方法包括:

所述代理节点在检测到数据探测任务时,建立所述代理节点与客户端的代理关系;

在通过所述爬虫节点执行所述数据探测任务时,触发所述客户端通过所述代理节点向被测系统发送请求信息,其中,所述被测系统响应所述请求信息产生交互数据;

所述代理节点捕获所述客户端的请求信息和所述被测系统的交互数据。

可选的,所述爬虫节点执行所述数据探测任务,包括:

所述爬虫节点从所述数据探测任务的任务信息中获取被测系统的根URL地址;

所述爬虫节点触发所述客户端通过所述代理节点基于所述根URL地址向被测系统发送请求信息,其中,所述请求信息用于请求获取所述被测系统的页面资源,所述被测系统响应所述请求信息向所述客户端返回页面资源。

可选的,所述爬虫节点触发所述客户端通过所述代理节点基于所述根URL地址向被测系统发送请求信息,包括:

所述爬虫节点将所述根URL地址作为当前URL地址,触发所述客户端通过所述代理节点向所述被测系统发送针对当前URL地址的访问请求,其中,所述被测系统响应所述针对当前URL地址的访问请求向客户端返回所述当前URL地址的页面资源;

所述爬虫节点爬取所述页面资源中包含的URL地址;

所述爬虫节点检查爬取的URL地址中是否存在未被访问过的URL地址;如果是,则选择任意一个未被访问过的URL地址作为当前URL地址,返回执行所述触发所述客户端通过所述代理节点向被测系统发送针对当前URL地址的访问请求,直至爬取的URL地址中不存在未被访问过的URL地址。

可选的,所述方法还包括:

所述爬虫节点爬取所述页面资源中包含的表单元素;

所述爬虫节点基于爬取的表单元素触发所述客户端通过所述代理节点向所述被测系统发送AJAX请求报文,其中,所述被测系统响应所述AJAX请求报文向所述客户端返回AJAX响应报文。

可选的,在所述爬虫节点从所述数据探测任务的任务信息中获取被测系统的根URL地址之前,所述方法还包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010627728.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top