[发明专利]一种基于爬虫网络框架的数据采集储存系统及其方法在审

申请号：	202111489435.3	申请日：	2021-12-08
公开（公告）号：	CN114238734A	公开（公告）日：	2022-03-25
发明（设计）人：	周毅;李威;王鸥;宁亮;何金;程蕾;柳璐;孙海波;张磊;张东芳	申请（专利权）人：	国网辽宁省电力有限公司信息通信分公司;国家电网有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955
代理公司：	沈阳维特专利商标事务所(普通合伙) 21229	代理人：	陈福昌
地址：	110006 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于爬虫网络框架数据采集储存系统及其方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于爬虫网络框架的数据采集储存系统，其特征在于，包括爬虫引擎、调度器、下载器、解析器、存储管道，所述调度器、所述下载器、所述解析器分别与所述爬虫引擎信号连接；

所述通道包括项目管道、业务逻辑模块；所述业务逻辑模块在所述项目管道中分拣结构化数据和非结构数据，并将不同类别的数据存储至不用的存储模块中；

所述调度器与所述下载器中间设置有去重模块，所述去重模块采用MD5算法对URL去重。

2.根据权利要求1所述的一种基于爬虫网络框架的数据采集储存系统，其特征在于，所述存储模块包括MongoDB集群和MySQL模块；

所述业务逻辑模块将结构化数据分拣至所述MySQL模块中；

所述业务逻辑模块将非结构化数据分拣至所述MongoDB集群中。

3.根据权利要求1所述的一种基于爬虫网络框架的数据采集储存系统，其特征在于，所述调度器与所述爬虫引擎之间设置有调度器中间件，所述下载器与所述爬虫引擎之间设置有下载器中间件，所述解析器与所述爬虫引擎之间设置有解析器中间件。

4.根据权利要求1所述的一种基于爬虫网络框架的数据采集储存系统，其特征在于，所述下载器在request回调函数中使用所述解析器完成网页内容的下载和解析。

5.一种基于爬虫网络框架的数据采集储存方法，其特征在于，包括如下步骤：

S1：爬虫引擎将待爬取URL队列中的目标URL读取至调度器；

S2：所述调度器对目标URL发起访问请求，并将发送的请求交送至下载器；

S3：所述下载器响应所述调度器请求完成网页内容下载；

S4：在回调函数中，所述解析器完成所述网页内容的解析；

S5：所述存储通道抽取并存储所述步骤S4中解析后的数据，与此同时，所述解析器的新请求发送至调度器中，所述调度器根据新请求在所述爬虫引擎中重新提取URL，所述去重模块通过MD5算法对重新提取的URL进行去重，去重后的URL队列重复所述步骤S2至S5；

直至触发网络爬虫的终止爬取条件时，结束爬取过程。

6.根据权利要求5所述的一种基于爬虫网络框架的数据采集储存方法，其特征在于，所述存储通道包括项目管道和业务逻辑模块，所述业务逻辑模块在所述项目管道中提取结构化数据或非结构数据。

7.根据权利要求6所述的一种基于爬虫网络框架的数据采集储存方法，其特征在于，所述存储通道还包括MongoDB集群和MySQL模块；

所述业务逻辑模块将结构化数据分拣至所述MySQL模块中；

所述业务逻辑模块将非结构化数据分拣至所述MongoDB集群中。

8.根据权利要求7所述的一种基于爬虫网络框架的数据采集储存方法，其特征在于，所述MongoDB集群包括至少一个路由服务器、至少一个配置服务器、至少一个分片主节点、至少一个分片仲裁、至少一个复制集。

9.根据权利要求6所述的一种基于爬虫网络框架的数据采集储存方法，其特征在于，当数据存储至所述MySQL模块通道后，所述MongoDB集群接受所述MySQL模块中的合并后的数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国网辽宁省电力有限公司信息通信分公司;国家电网有限公司，未经国网辽宁省电力有限公司信息通信分公司;国家电网有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111489435.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载