[发明专利]一种基于异步处理框架的具有自动测试功能的数据爬取方法在审
申请号: | 202110059894.1 | 申请日: | 2021-01-18 |
公开(公告)号: | CN112612943A | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 康辉;孙鑫;赵旭;李佳辉;卢凌锋 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958 |
代理公司: | 长春吉大专利代理有限责任公司 22201 | 代理人: | 朱世林 |
地址: | 130012 吉林省长春市*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 异步 处理 框架 具有 自动 测试 功能 数据 方法 | ||
1.一种基于异步处理框架的具有自动测试功能的数据爬取方法,包括以下步骤:
A、确定请求目标网站所需信息
包括目标网站请求链接、用户代理、请求方式和请求参数;
B、确定网页加载特性
查看网页源代码,确定源代码是否与当前网页所呈现内容一致;
C、确定爬取数据的代码段区域
定位网页需要爬取数据的位置以及各字段信息;
D、部署非结构化数据库信息
确定非结构化数据库地址、端口以及存放爬取数据的数据库名称;
E、配置Selenium自动测试工具
Selenium是一个用于测试网站应用程序的自动化测试工具,Selenium的测试可以直接在浏览器中运行,模仿用户对浏览器进行操作;
安装Selenium工具包和对应版本的浏览器驱动webdriver;
F、搭建基于Scrapy技术的爬虫框架
Scrapy框架是适用于Python的一个快速、高层次的网页爬取框架,其模块之间耦合程度低,可扩展性极强,用于爬取网站并从网页中提取结构化的数据。
2.根据权利要求1所述的一种基于异步处理框架的具有自动测试功能的数据爬取方法,其特征在于:
步骤A,所述的确定请求目标网站所需信息包括以下步骤:
A1、打开目标网站的浏览器开发者模式,点击“Network”选项卡,刷新当前页面;
A2、点击与该页面浏览器导航栏路径一致的条目;
A3、记录下开发者模式窗口右侧的网站请求链接、用户代理、请求方式和请求参数的信息。
3.根据权利要求1所述的一种基于异步处理框架的具有自动测试功能的数据爬取方法,其特征在于:
步骤B,所述的确定网页加载特性包括以下步骤:
B1、打开目标网页源代码;
B2、将目标网页中需要爬取的数据与源代码中对应标签的内容进行比较,看二者否相同;若相同,则属于静态的前端网页;若不同,则是由javascript脚本以及一些加密算法渲染出来的动态网页。
4.根据权利要求3所述的一种基于异步处理框架的具有自动测试功能的数据爬取方法,其特征在于:
步骤B2,当确定目标网页是通过javascript脚本以及一些加密算法渲染出来的动态网页时,在该目标网页以及相关网页的请求链接下载之前,经过下载中间件,需要引入自动测试技术以返回经过脚本或加密算法渲染过的网页的结果。
5.根据权利要求1所述的一种基于异步处理框架的具有自动测试功能的数据爬取方法,其特征在于:
步骤C,所述的确定爬取数据的代码段区域包括以下步骤:
C1、打开目标网站的浏览器开发者模式,点击“Elements”选项卡,展示已经过脚本渲染之后的网页源代码;
C2、通过浏览器自动定位代码的功能,依次找到各个需要爬取的数据,分别声明字段名称,并且记录对应代码段区域的定位元素。
6.根据权利要求1所述的一种基于异步处理框架的具有自动测试功能的数据爬取方法,其特征在于:
步骤D,所述的部署非结构化数据库信息包括以下步骤:
D1、非结构化数据库可能部署在本地计算机,也可能部署在服务器上,需要确定一个数据库地址和部署时设置的指定端口号才能够连接到数据库;
D2、连接已部署的非结构化数据库,创建被用来存储爬取数据的数据库并记录其名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110059894.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种牲畜兽医用灌药器
- 下一篇:一种矿用履带式可伸缩自移机尾