[发明专利]基于分布式网络爬虫的地理空间数据获取系统及方法有效
申请号: | 202110640002.7 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113254747B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 杜志强;呙维 | 申请(专利权)人: | 南京北斗创新应用科技研究院有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9537;G06F16/29;G06F16/25;G06F9/50 |
代理公司: | 南京创略知识产权代理事务所(普通合伙) 32358 | 代理人: | 闫方圆 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 网络 爬虫 地理 空间 数据 获取 系统 方法 | ||
1.基于分布式网络爬虫的地理空间数据获取系统,其特征在于:包括用户需求发布模块、调度引擎服务模块、可执行爬虫程序集模块、HTCondor集群模块和分布式爬虫数据库模块,
所述用户需求发布模块,用于支持用户在选择获取数据的类型、设置获取数据的时空范围,配置数据抓取的周期参数,并编辑完成后提交调度引擎服务模块,并由调度引擎服务模块将用户需求保存分布式爬虫数据库模块;
所述调度引擎服务模块,用于接收用户需求,并将用户需求拆解为可执行的爬虫子任务,同时支持向HTCondor集群模块提交爬虫任务,并监控爬虫任务的执行状态,对不同的任务状态做出针对性的响应操作;
所述可执行爬虫程序集模块,用于执行各类数据的任务拆分、数据源解析、数据抓取、数据下载入数据库的过程,并由各个定制化的爬虫小程序来完成,将定制化爬虫程序集合在一起,构成可执行程序集,便于可执行爬虫程序集模块分发任务提交HTCondor集群模块执行;
所述HTCondor集群模块,用于将当前提交的所有爬虫子任务,有序分配到符合爬虫程序资源要求的计算机节点下执行,执行结果通过分布式爬虫数据库模块输出到指定路径下,具体是通过一个任务提交节点、一个中央管理节点匹配若干个任务执行节点的配置,该任务提交节点可同时为中央管理节点;
所述分布式爬虫数据库模块,包括任务数据库、去重数据库,所述任务数据库,用于负责存储用户需求配置信息和爬虫任务的状态记录信息;所述去重数据库,用于存储各类定制化爬虫程序,且保存爬虫获取抓取数据的唯一标识键值对信息,辅助爬虫进行数据抓取时的元数据比对,去重数据库已有的数据爬虫将不再重复爬取。
2.根据权利要求1所述的基于分布式网络爬虫的地理空间数据获取系统,其特征在于:所述用户需求发布模块,用于支持用户在选择获取数据的类型、设置获取数据的时空范围,配置数据抓取的周期参数,具体为:
数据的类型为GE影像,其的支持用户配置包括空间范围:经纬度矩形范围; 层级范围:瓦片切割层级;时间范围:影像发布年限范围;下载周期:可设置一次性抓取或按指定频率循环抓取,
数据的类型为鸽群卫星影像,其的支持用户配置包括空间范围:经纬度矩形范围;层级范围:瓦片切割层级;数据来源:可多选,为10个影像源;下载周期:可设置一次性抓取或按指定频率循环抓取,
数据的类型为AIS船舶动态数据,其的支持用户配置包括空间范围:经纬度矩形范围;时间范围:船舶行驶轨迹的时间范围;精准监测:可输入船舶id、或船舶名称;下载周期:可设置一次性抓取或按指定频率循环抓取,
数据的类型为水深测量重磁力数据其的支持用户配置包括空间范围:经纬度矩形范围;层级范围:瓦片切割层级;下载周期:可设置一次性抓取或按指定频率循环抓取。
3.根据权利要求2所述的基于分布式网络爬虫的地理空间数据获取系统,其特征在于:所述调度引擎服务模块,包括用户需求管理单元、任务分割单元、HTCondor作业提交单元和HTCondor任务监控单元,
所述用户需求管理单元,用于任务调度引擎响应用户在前端提交的数据获取需求,将需求保存入分布式爬虫数据库模块,并在对应需求在整个爬虫任务调度执行过程中的状态进行同步更新和维护;
所述任务分割单元,用于任务调度引擎根据用户提交需求中的配置信息,驱动对应的爬虫程序完成子任务分割,并将分割生成的子任务保存入分布式爬虫数据库模块;
所述HTCondor作业提交单元,用于任务调度引擎从分布式爬虫数据库模块中读取未提交任务,并驱动HTCondor集群模块内的节点来完成任务的提交,该过程已HTCondor集群模块分配该作业执行节点为终点;
所述HTCondor任务监控单元,用于在爬虫任务创建后,任务调度引擎轮询HTCondor集群模块作业状态,并根据HTCondor集群模块下对应每个任务的状态、进度更新对应数据库记录,并对异常状态进行对应处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京北斗创新应用科技研究院有限公司,未经南京北斗创新应用科技研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110640002.7/1.html,转载请声明来源钻瓜专利网。