[发明专利]基于低水位滑动时间窗口的离群数据发现方法及系统有效

专利信息
申请号: 201710284487.4 申请日: 2017-04-25
公开(公告)号: CN107124329B 公开(公告)日: 2020-05-05
发明(设计)人: 马坤;周劲;于自强;纪科 申请(专利权)人: 济南大学
主分类号: H04L12/26 分类号: H04L12/26;H04L12/24
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 黄海丽
地址: 250022 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 水位 滑动 时间 窗口 离群 数据 发现 方法 系统
【说明书】:

发明公开了基于低水位滑动时间窗口的离群数据发现方法及系统;包括:数据分发:接收外部数据流,然后将外部数据流分发给各个数据处理节点;数据处理:数据处理节点对接收到的外部数据流进行处理;定义低水位滑动时间窗口,以时间戳为水平坐标轴,随着时间推移,低水位滑动时间窗口在时间戳水平坐标轴上从左往右不断移动,在任意时间点,低水位滑动时间窗口水平坐标轴上方为未处理数据,水平坐标轴下方为已处理数据;然后根据当前数据处理时间戳在低水位滑动时间窗口范围内的位置来发现当前数据处理是否为离群数据;数据聚合:将数据处理的结果进行汇总进行输出。区分可丢弃数据、离群数据与正常待处理数据,提高数据处理可靠性,加速故障恢复。

技术领域

本发明涉及一种离群数据发现方法,尤其涉及基于低水位滑动时间窗口的离群数据发现方法及系统。

背景技术

流处理是对不断变化的数据流进行实时计算。为了应对用户对海量数据的即时处理带来的挑战,解决传统MapReduce为代表的批处理方式在实时处理的瓶颈问题,新兴的流处理方法,在风险管理、营销管理、广告投放、社会化推荐等方面均具有重要的应用价值。

流处理的数据来源由于网络延迟、系统内在并发等原因,同类数据不能保证严格按照时间戳顺序到达数据处理节点,出现数据产生与到达数据处理节点先后不一致的离群数据。大量离群数据,其处理速度慢,对数据处理故障判定产生干扰,增大流处理故障误判概率。

现有技术主要通过日志、热复制、上游备份等方法实现容错,均未讨论离群数据。日志和热复制容错方法使用同步协议增量复制,因此大量离群数据会严重拖垮复制过程;上游备份容错方法会将离群数据当作故障处理,将会启动错误的故障恢复。

现有技术D-Stream采用并行恢复方法发现离群数据,采用推测执行进行故障恢复,其依赖于批处理数据分析堆栈。现有技术给出了一种乱序到达处理方法,通过标点符号和心跳机制等显式方法将乱序数据有序化。现有技术MillWheel系统在此原理基础上提出了低水位概念表示待处理数据的底限,当时间戳小于低水位的数据到达数据处理时,会被直接丢弃。该方法给出了丢失数据的判定方法,但未给出离群数据的判定方法,仅仅用时间点表示低水位无法严格区分离群数据。现有技术Trident通过待处理数据严格有序需求避免产生离群数据,该方法依赖于事务框架,产生大量额外的开销。

发明内容

本发明的目的就是为了解决上述问题,提供基于低水位滑动时间窗口的离群数据发现方法及系统,有效区分可丢弃数据、离群数据与正常待处理数据,提高数据处理可靠性,加速故障恢复。

为了实现上述目的,本发明采用如下技术方案:

基于低水位滑动时间窗口的离群数据发现方法,包括:

步骤(1):数据分发:接收外部数据流,然后将外部数据流分发给各个数据处理节点;

步骤(2):数据处理:数据处理节点对接收到的外部数据流进行处理;

定义低水位滑动时间窗口,低水位滑动时间窗口的时间戳起始于低水位初值,低水位滑动时间窗口的宽度为w;低水位滑动时间窗口的时间戳范围为[低水位初值,低水位初值+低水位滑动时间窗口的宽度w];

以时间戳为水平坐标轴,随着时间推移,低水位滑动时间窗口在时间戳水平坐标轴上从左往右不断移动,在任意时间点,低水位滑动时间窗口水平坐标轴上方为未处理数据,水平坐标轴下方为已处理数据;然后根据当前数据处理时间戳在低水位滑动时间窗口范围内的位置来发现当前数据处理是否为离群数据;

步骤(3):数据聚合:将数据处理的结果进行汇总进行输出。

步骤(2)中来自不同关键词的数据流能够并发在不同的数据处理节点上进行处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710284487.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top