[发明专利]分布式互联网信息采集系统及方法在审
申请号: | 201910848301.2 | 申请日: | 2019-09-09 |
公开(公告)号: | CN110769026A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 李善平 | 申请(专利权)人: | 河南拓普计算机网络工程有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 41123 河南科技通律师事务所 | 代理人: | 樊羿;张晓辉 |
地址: | 450000 河南省郑州市金*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 采集 任务调度模块 脚本 数据存储模块 服务框架 脚本编制 下载节点 分布式互联网 信息采集系统 采集系统 互相通信 技术效果 节点分配 任务解析 数据采集 下载内容 加载 存储 传送 分配 | ||
本发明公开了一种分布式互联网信息采集系统及方法,旨在解决现有数据采集速度慢、适用范围窄的技术问题。本发明采集系统包括采集脚本编制模块、任务调度模块、微服务框架、数据存储模块,采集脚本编制模块用于生成记载采集需求的采集脚本;任务调度模块用于调整上述采集脚本的执行顺序;微服务框架与任务调度模块互相通信,用于接收采集脚本并分配至不同的下载节点;数据存储模块用于存储下载节点传送的下载内容。采集方法包括任务加载、任务解析、节点分配。本发明的有益技术效果在于:适用范围广、适用性强、采集效率高。
技术领域
本发明涉及互联网信息技术领域,具体涉及一种分布式互联网信息采集系统及方法。
背景技术
互联网中含有大量各行各业用户需要的有价值的信息,用户采集这些信息通常有三种方式:(1)内容管理系统,简称cms,如织梦、帝国等品牌,该系统包括采集服务,在系统后台提供有针对通用型新闻网站的简单采集服务;但是其使用范围有限,灵活性不差强人意,而且还需要手动配置响应的正则匹配抽取规则,操作比较繁琐;(2)针对专门网站的信息采集系统,该系统可以根据不同网站发布的网页信息结构需求,进行定制化开发,以最大限度采集到所需数据,但是由于其针对性强,通用性差,需要很多套采集应用支持,维护成本比较高,特别是当被采集的网站升级改版时,随之进行的更新工作量更大;(3)单机信息采集平台,在针对专门网站的信息采集系统的基础上,将采集分为网页结构识别逻辑、通用下载、数据清洗、数据存储等,其中网页结构识别逻辑由不同的脚本实现,对于不同的网站只需要开发相应的采集脚本,其它部分可以不做修改,这样就减少了工作量,但是该系统采集速度慢,无法完成大规模、高并发的采集任务。
发明内容
本发明提供一种分布式互联网信息采集系统及方法,以解决现有数据采集速度慢、适用范围窄的技术问题。
为解决上述技术问题,本发明采用如下技术方案:
设计一种分布式互联网信息采集系统,包括采集脚本编制模块、任务调度模块、微服务框架、数据存储模块,采集脚本编制模块用于生成记载采集需求的采集脚本;任务调度模块用于调整上述采集脚本的执行顺序;微服务框架与任务调度模块互相通信,用于接收采集脚本并分配至不同的下载节点;数据存储模块用于存储上述下载节点传送的下载内容。
进一步的,采集脚本包括资源下载单元和逻辑编制单元。
进一步的,逻辑编制单元包括登录信息、页面跳转信息、请求头设定信息。
进一步的,任务调度模块包括:
脚本加载单元,用于根据采集脚本的优先级确定脚本执行顺序;
逻辑执行单元,用于将所述采集脚本发送至虚拟机中编译并将所述资源下载单元通过所述微服务框架分配至下载节点; 结果处理单元,用于接收所述下载节点返回的下载数据。
进一步的,下载数据包括所述下载脚本中记载的下载内容以及是/否下载正确的信息。
还设计一种信息采集的方法,包括以下步骤:
S1,将记载有待采集内容的采集脚本加载至任务调度模块;
S2,确定上述采集脚本的执行顺序,分配硬件资源;
S3,解析脚本内容,将需要下载的请求通过微服务框架发送至下载节点;
S4,下载节点解析下载请求,下载请求内容并将下载结果返回至微服务框架;
S5,微服务框架将下载结果返回至任务调度模块并将该结果存储于数据存储模块。
进一步的,所述步骤S4中若返回出错信息,则该下载节点重新下载。
进一步的,若上述重新下载设定次数后仍无法完成下载,则将错误结果传送至微服务框架,微服务框架根据错误结果重新切换下载节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南拓普计算机网络工程有限公司,未经河南拓普计算机网络工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910848301.2/2.html,转载请声明来源钻瓜专利网。