[发明专利]一种基于爬虫网络框架的数据采集储存系统及其方法在审
申请号: | 202111489435.3 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114238734A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 周毅;李威;王鸥;宁亮;何金;程蕾;柳璐;孙海波;张磊;张东芳 | 申请(专利权)人: | 国网辽宁省电力有限公司信息通信分公司;国家电网有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 沈阳维特专利商标事务所(普通合伙) 21229 | 代理人: | 陈福昌 |
地址: | 110006 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 爬虫 网络 框架 数据 采集 储存 系统 及其 方法 | ||
1.一种基于爬虫网络框架的数据采集储存系统,其特征在于,包括爬虫引擎、调度器、下载器、解析器、存储管道,所述调度器、所述下载器、所述解析器分别与所述爬虫引擎信号连接;
所述通道包括项目管道、业务逻辑模块;所述业务逻辑模块在所述项目管道中分拣结构化数据和非结构数据,并将不同类别的数据存储至不用的存储模块中;
所述调度器与所述下载器中间设置有去重模块,所述去重模块采用MD5算法对URL去重。
2.根据权利要求1所述的一种基于爬虫网络框架的数据采集储存系统,其特征在于,所述存储模块包括MongoDB集群和MySQL模块;
所述业务逻辑模块将结构化数据分拣至所述MySQL模块中;
所述业务逻辑模块将非结构化数据分拣至所述MongoDB集群中。
3.根据权利要求1所述的一种基于爬虫网络框架的数据采集储存系统,其特征在于,所述调度器与所述爬虫引擎之间设置有调度器中间件,所述下载器与所述爬虫引擎之间设置有下载器中间件,所述解析器与所述爬虫引擎之间设置有解析器中间件。
4.根据权利要求1所述的一种基于爬虫网络框架的数据采集储存系统,其特征在于,所述下载器在request回调函数中使用所述解析器完成网页内容的下载和解析。
5.一种基于爬虫网络框架的数据采集储存方法,其特征在于,包括如下步骤:
S1:爬虫引擎将待爬取URL队列中的目标URL读取至调度器;
S2:所述调度器对目标URL发起访问请求,并将发送的请求交送至下载器;
S3:所述下载器响应所述调度器请求完成网页内容下载;
S4:在回调函数中,所述解析器完成所述网页内容的解析;
S5:所述存储通道抽取并存储所述步骤S4中解析后的数据,与此同时,所述解析器的新请求发送至调度器中,所述调度器根据新请求在所述爬虫引擎中重新提取URL,所述去重模块通过MD5算法对重新提取的URL进行去重,去重后的URL队列重复所述步骤S2至S5;
直至触发网络爬虫的终止爬取条件时,结束爬取过程。
6.根据权利要求5所述的一种基于爬虫网络框架的数据采集储存方法,其特征在于,所述存储通道包括项目管道和业务逻辑模块,所述业务逻辑模块在所述项目管道中提取结构化数据或非结构数据。
7.根据权利要求6所述的一种基于爬虫网络框架的数据采集储存方法,其特征在于,所述存储通道还包括MongoDB集群和MySQL模块;
所述业务逻辑模块将结构化数据分拣至所述MySQL模块中;
所述业务逻辑模块将非结构化数据分拣至所述MongoDB集群中。
8.根据权利要求7所述的一种基于爬虫网络框架的数据采集储存方法,其特征在于,所述MongoDB集群包括至少一个路由服务器、至少一个配置服务器、至少一个分片主节点、至少一个分片仲裁、至少一个复制集。
9.根据权利要求6所述的一种基于爬虫网络框架的数据采集储存方法,其特征在于,当数据存储至所述MySQL模块通道后,所述MongoDB集群接受所述MySQL模块中的合并后的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网辽宁省电力有限公司信息通信分公司;国家电网有限公司,未经国网辽宁省电力有限公司信息通信分公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111489435.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种在有权社交网络上查找最稀疏群体方法
- 下一篇:一种USB连接器