[发明专利]一种分布式数据管理系统在审
| 申请号: | 202011100162.4 | 申请日: | 2020-10-15 |
| 公开(公告)号: | CN112231602A | 公开(公告)日: | 2021-01-15 |
| 发明(设计)人: | 徐雷 | 申请(专利权)人: | 镇江睿知信息科技有限公司 |
| 主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/958;H04L29/06 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 212000 江苏省镇*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分布式 数据管理 系统 | ||
本发明公开了一种分布式数据管理系统,本系统包括URL动态调配模块、反爬策略调度模块、数据标记解析模块、数据格式化模块。本系统的研发能够高效获取互联网热点信息,并依照差异化、个性化的需求,为用户提供及时、精细化的数据。本系统中以以Storm实时流处理、数据库中间件、Hadoop批处理和ELK数据可视化结合的框架,提升了系统的兼容性、容错性和可扩展性,提高系统对差异化需求的适应性。
技术领域
本发明涉及计算机技术领域,尤其涉及一种分布式数据管理系统。
背景技术
当下互联网时代数据量激增,大量有价值的数据信息被淹没,用户难以及时、有效并且低成本的获取自己所需的数据信息,同时庞大的数据量,人工难以支持数据筛选和采集工作。因此随着时代的发展,依靠线下数据集以及公共免费数据集,难以满足用户对于数据及时性的需求,因此可提供高质量、及时性的线上数据管理系统成为不可或缺的一部分。
发明内容
本发明提供一种分布式数据管理系统,其特征在于,包括URL动态调配模块、反爬策略调度模块、数据标记解析模块、数据格式化模块。
所述的URL动态调配模块,通过数据配置信息生成URL种子库;
所述的反爬策略调度模块,实现了4道反爬取对抗的功能;
所述的数据标记解析模块,负责对信息路径进行解析,并标记web数据;
所述的数据格式化模块,负责将处理后的时间信息存入数据库中。
所述的URL动态调配模块,其特征在于,规避程序爬取重复,提高数据采集效率。
所述的反爬策略调度模块,其特征在于,解决了IP封禁问题,利用IP代理池功能,抓取数据。
所述的数据标记解析模块,其特征在于,扩大可针对数据面,精确提取目标数据。
所述的数据格式化模块,其特征在于,可直接读取数据进行分析,提升数据格式化处理及系统分析处理效率。
本发明有益效果如下:
本发明通过一台完整的分布式数据管理系统,通过稳定运行的系统,提高数据采集系统的准确性,为用户创造一个稳定、及时、高效的数据获取渠道。同时为用户提供及时、精细化的数据,提升数据利用率,助力社会智能化话发展。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的系统流程图。
具体实施方式
为使本发明的技术方案更加清晰明确,下面结合实施例对本发明进行进一步描述,任何对本发明技术方案的技术特征进行等价替换和常规推理得出的方案均落入本发明保护范围。
一种分布式数据管理系统,其特征在于,包括URL动态调配模块、反爬策略调度模块、数据标记解析模块、数据格式化模块。
所述的URL动态调配模块,通过数据配置信息生成URL种子库;
所述的反爬策略调度模块,实现了4道反爬取对抗的功能;
所述的数据标记解析模块,负责对信息路径进行解析,并标记web数据;
所述的数据格式化模块,负责将处理后的时间信息存入数据库中。
所述的URL动态调配模块,其特征在于,规避程序爬取重复,提高数据采集效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江睿知信息科技有限公司,未经镇江睿知信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011100162.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种坯布生产用洗涤烘干一体机
- 下一篇:基于学习路径图的知识运营系统及方法





