[发明专利]一种分布式数据管理系统在审
| 申请号: | 202011100162.4 | 申请日: | 2020-10-15 |
| 公开(公告)号: | CN112231602A | 公开(公告)日: | 2021-01-15 |
| 发明(设计)人: | 徐雷 | 申请(专利权)人: | 镇江睿知信息科技有限公司 |
| 主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/958;H04L29/06 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 212000 江苏省镇*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分布式 数据管理 系统 | ||
1.一种分布式数据管理系统,其特征在于,包括URL动态调配模块、反爬策略调度模块、数据标记解析模块、数据格式化模块;
所述的URL动态调配模块,通过数据配置信息生成URL种子库;
所述的反爬策略调度模块,实现了4道反爬取对抗的功能;
所述的数据标记解析模块,负责对信息路径进行解析,并标记web数据;
所述的数据格式化模块,负责将处理后的时间信息存入数据库中。
2.根据权利要求1所述的URL动态调配模块,其特征在于,规避程序爬取重复,提高数据采集效率。
3.根据权利要求1所述的反爬策略调度模块,其特征在于,解决了IP封禁问题,利用IP代理池功能,抓取数据。
4.根据权利要求1所述的数据标记解析模块,其特征在于,扩大可针对数据面,精确提取目标数据。
5.根据权利要求1所述的数据格式化模块,其特征在于,可直接读取数据进行分析,提升数据格式化处理及系统分析处理效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江睿知信息科技有限公司,未经镇江睿知信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011100162.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种坯布生产用洗涤烘干一体机
- 下一篇:基于学习路径图的知识运营系统及方法





