[发明专利]用于大规模网络数据采集的监控与统计分析方法和系统有效
申请号: | 201811634634.7 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109819019B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 贺广福;程学旗;孟剑;俞晓明;史存会;姜世勇;肖若晗;郭岩;周秀花;余智华;刘悦 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 大规模 网络 数据 采集 监控 统计分析 方法 系统 | ||
1.一种用于大规模网络数据采集的监控与统计分析方法,其特征在于,包括:
将参与数据采集的节点注册为采集节点或调度节点,根据采集任务通过该调度节点的调度器,调度该采集节点拉取采集器并对该采集器进行配置;通过该采集器执行该采集任务,获取结构化数据;
监控并统计采集状态信息,并根据用户的查询请求将该采集状态信息发送给该用户;
获取从信源所采集的结构化数据的相似度,通过该相似度对该信源进行相似度打分,以得到相似度分值;获取该信源最近m个采集量的变化量,该信源最近p个该相似度分值的变化量,其中m、p为正整数;若该采集量的变化量大于第一阈值,或该相似度分值的变化量大于第二阈值,则判断该信源为潜在失效信源,并将该信源推送给该用户。
2.如权利要求1所述的监控与统计分析方法,其特征在于,该采集状态信息包括该采集节点的工作状态、该调度节点的工作状态、该采集任务的工作状态、针对该信源的采集量、该信源的活跃等级该采集状态信息、该采集任务的采集任务信息和该采集任务的信源统计信息。
3.如权利要求2所述的监控与统计分析方法,其特征在于,按照预设的采集时间粒度,统计以该结构化数据,以获取该采集量;其中该采集时间粒度的设定包括分、小时、天、周、月;按照预设的活跃度时间粒度,获取该信源的最近n个活跃度时间粒度的数据采集量,以计算该活跃等级;该活跃度时间粒度的设定包括分、小时、天、周、月,其中n为正整数。
4.一种用于大规模网络数据采集的监控与统计分析系统,其特征在于,包括:
数据获取模块,用于将参与数据采集的节点注册为采集节点或调度节点,根据采集任务通过该调度节点的调度器,调度该采集节点拉取采集器并对该采集器进行配置,通过该采集器执行该采集任务,获取结构化数据;
监控统计模块,用于监控并统计采集状态信息,并根据用户的查询请求将该采集状态信息发送给该用户;
信源失效检测模块,用于通过比较采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,当该实时状态为潜在失效信源时,将该信源推送给该用户;该信源失效检测模块包括:相似度分值获取模块,用于获取从该信源所采集的结构化数据的相似度,通过该相似度对该信源进行相似度打分,以得到相似度分值;并获取该信源最近m个该采集量的变化量,以及该信源最近p个该相似度分值的变化量,其中m、p为正整数;潜在失效信源判断模块,用于判断该信源的有效性,若该采集量的变化量大于第一阈值,或该相似度分值的变化量大于第二阈值,则判断该信源为潜在失效信源。
5.如权利要求4所述的监控与统计分析系统,其特征在于,该采集状态信息包括该采集节点的工作状态、该调度节点的工作状态、该采集任务的工作状态、针对该信源的采集量、该信源的活跃等级该采集状态信息、该采集任务的采集任务信息和该采集任务的信源统计信息。
6.如权利要求5所述的监控与统计分析系统,其特征在于,该统计模块包括:
采集量统计模块,用于按照预设的采集时间粒度,统计以该结构化数据,以获取该采集量;其中该采集时间粒度的设定包括分、小时、天、周、月;
活跃度等级统计模块,用于按照预设的活跃度时间粒度,获取该信源的最近n个活跃度时间粒度的数据采集量,以获取该活跃等级;该活跃度时间粒度的设定包括分、小时、天、周、月,其中n为正整数。
7.一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行如权利要求1~3任一项所述的用于大规模网络数据的监测与统计分析方法。
8.一种数据处理设备,包括如权利要求7所述的计算机可读存储介质,该数据处理设备调取并执行该计算机可读存储介质中的计算机可执行指令,进行大规模网络数据采集的监测与统计分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811634634.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置