[发明专利]一种网络数据的爬取方法、装置、存储介质和终端设备在审
申请号: | 201910294104.0 | 申请日: | 2019-04-12 |
公开(公告)号: | CN110162682A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 廖盼盼 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F9/4401 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 郭鸿 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 内容数据 网络数据 显示页面 终端设备 控件 跳转 标识信息 存储介质 计算机技术领域 服务器发送 数据抓取 数据资源 页面跳转 封装 页面 服务器 关联 返回 | ||
本发明涉及计算机技术领域,提出一种网络数据的爬取方法、装置、存储介质和终端设备。该网络数据的爬取方法包括:在接收到服务器发送的包含标识信息的数据抓取请求之后,唤起与所述标识信息关联的APP;控制已唤起的APP依次跳转至其各个显示页面;每跳转至一个显示页面,识别页面上包含的控件;提取封装在所述控件中的内容数据;将所述内容数据返回至所述服务器。上述过程能够自动唤起终端设备上安装的APP,并控制APP在各个显示页面之间跳转;在页面跳转的过程中,识别并提取每个页面控件包含的内容数据,从而获取到存于APP中的数据资源。
技术领域
本发明涉及计算机技术领域,尤其涉及一种网络数据的爬取方法、装置、存储介质和终端设备。
背景技术
爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直至满足一定的停止条件。可见,传统爬虫是基于URL爬取数据,然而现在大量的数据资源都存于APP中,传统爬虫无法爬取到这些数据资源。
发明内容
有鉴于此,本发明实施例提供了一种网络数据的爬取方法、装置、存储介质和终端设备,能够获取存于APP中的数据资源。
本发明实施例的第一方面,提供了一种网络数据的爬取方法,包括:
在接收到服务器发送的包含标识信息的数据抓取请求之后,唤起与所述标识信息关联的APP;
控制已唤起的APP依次跳转至其各个显示页面;
每跳转至一个显示页面,识别页面上包含的控件;
提取封装在所述控件中的内容数据;
将所述内容数据返回至所述服务器。
本发明实施例的第二方面,提供了一种网络数据的爬取装置,包括:
APP唤起模块,用于在接收到服务器发送的包含标识信息的数据抓取请求之后,唤起与所述标识信息关联的APP;
页面跳转控制模块,用于控制已唤起的APP依次跳转至其各个显示页面;
控件识别模块,用于每跳转至一个显示页面,识别页面上包含的控件;
数据提取模块,用于提取封装在所述控件中的内容数据;
数据返回模块,用于将所述内容数据返回至所述服务器。
本发明实施例的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如本发明实施例的第一方面提出的网络数据的爬取方法的步骤。
本发明实施例的第四方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如本发明实施例的第一方面提出的网络数据的爬取方法的步骤。
本发明提出一种网络数据的爬取方法,包括:在接收到服务器发送的包含标识信息的数据抓取请求之后,唤起与所述标识信息关联的APP;控制已唤起的APP依次跳转至其各个显示页面;每跳转至一个显示页面,识别页面上包含的控件;提取封装在所述控件中的内容数据;将所述内容数据返回至所述服务器。上述过程能够自动唤起终端设备上安装的APP,并控制APP在各个显示页面之间跳转;在页面跳转的过程中,识别并提取每个页面控件包含的内容数据,从而获取到存于APP中的数据资源。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910294104.0/2.html,转载请声明来源钻瓜专利网。