[发明专利]一种浏览器页面数据采集方法、终端设备及存储介质在审
| 申请号: | 202110158353.4 | 申请日: | 2021-02-05 |
| 公开(公告)号: | CN112800311A | 公开(公告)日: | 2021-05-14 |
| 发明(设计)人: | 卓世界;王仁斌;陈镇国 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F9/455 |
| 代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
| 地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 浏览器 页面 数据 采集 方法 终端设备 存储 介质 | ||
1.一种浏览器页面数据采集方法,其特征在于,包括以下步骤:
S1:启动浏览器扩展的后台程序,并轮询任务中心的任务列表以获取页面数据采集任务;
S2:浏览器扩展根据任务中包含的URL链接打开浏览器页面,判断页面访问是否正常,当页面访问正常时,进入S4;当页面无法访问或访问出错时,给出错误信息,结束;当页面访问受限时,进入S3;
S3:根据页面访问受限的类型,采用对应的规则解除页面访问受限状态后,正常访问页面,进入S4;
S4:在页面中执行JavaScript脚本,以采集页面中需要采集的数据;
S5:将数据采集结果根据浏览器扩展中配置的处理方式进行相应处理。
2.根据权利要求1所述的浏览器页面数据采集方法,其特征在于:步骤S1在打开浏览器扩展的后台程序后,还包括对浏览器扩展进行配置,包括:
(1)配置每台服务器上同时打开的标签页小于1000个;
(2)配置自动识别并去掉页面中的干扰信息;
(3)配置利用浏览器API控制浏览器开启和关闭目标网页;
(4)配置利用浏览器API和JavaScript脚本,进行页面操作;
(5)配置数据采集结果的处理方式。
3.根据权利要求1所述的浏览器页面数据采集方法,其特征在于:步骤S3中解除页面访问受限状态的规则包括:
当页面访问受限类型为IP被限定时,降低网页的访问频率,或构建IP代理池,更换IP进行访问;
当页面访问受限类型为需要验证码时,采用绕过验证码、验证码图像自动识别或手动输入的方式;
当页面访问受限类型为需要登陆Cookie时,预先注册页面需要的账号,并在浏览器扩展中进行配置,在需要登陆Cookie时,根据配置自动模拟登陆或手动输入账号登陆。
4.根据权利要求1所述的浏览器页面数据采集方法,其特征在于:步骤S4中还包括将采集的文本、表格数据、图片链接和视频链接保存为JSON格式的文本数据,将采集的图片和视频保存为图片和视频的原始格式。
5.根据权利要求1所述的浏览器页面数据采集方法,其特征在于:步骤S4采集页面中需要采集的数据的过程包括:自动识别页面的分页方式,根据识别到的分页方式自动点击并打开下一页页面;通过模拟鼠标滚动以获取每一页中更多数据。
6.根据权利要求1所述的浏览器页面数据采集方法,其特征在于:步骤S4中当采集的数据中包括链接时,提取链接生成新的任务后,发送到任务中心,任务中心对接收到任务进行排重后,将其添加至任务列表内。
7.根据权利要求1所述的浏览器页面数据采集方法,其特征在于:步骤S5中数据采集结果的处理方式包括:发送至服务器并保存、导出和打印。
8.根据权利要求1所述的浏览器页面数据采集方法,其特征在于:还包括S6:任务处理技术后,关闭浏览器页面,销毁资源占用。
9.一种浏览器页面数据采集终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~8中任一所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~8中任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110158353.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





