[发明专利]基于低水位滑动时间窗口的离群数据发现方法及系统有效

专利信息
申请号: 201710284487.4 申请日: 2017-04-25
公开(公告)号: CN107124329B 公开(公告)日: 2020-05-05
发明(设计)人: 马坤;周劲;于自强;纪科 申请(专利权)人: 济南大学
主分类号: H04L12/26 分类号: H04L12/26;H04L12/24
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 黄海丽
地址: 250022 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 水位 滑动 时间 窗口 离群 数据 发现 方法 系统
【权利要求书】:

1.基于低水位滑动时间窗口的离群数据发现方法,其特征是,包括:

步骤(1):数据分发:接收外部数据流,然后将外部数据流分发给各个数据处理节点;

步骤(2):数据处理:数据处理节点对接收到的外部数据流进行处理;

定义低水位滑动时间窗口,低水位滑动时间窗口的时间戳起始于低水位初值,低水位滑动时间窗口的宽度为w;低水位滑动时间窗口的时间戳范围为[低水位初值,低水位初值+低水位滑动时间窗口的宽度w];

所述低水位滑动时间窗口大小w是根据数据处理能容忍的最大数据延迟达到时间来设定的;

以时间戳为水平坐标轴,随着时间推移,低水位滑动时间窗口在时间戳水平坐标轴上从左往右不断移动,在任意时间点,低水位滑动时间窗口水平坐标轴上方为未处理数据,水平坐标轴下方为已处理数据;然后根据当前数据处理时间戳在低水位滑动时间窗口范围内的位置来发现当前数据处理是否为离群数据;

根据当前数据处理时间戳在低水位滑动时间窗口范围内的位置来发现当前数据处理是否为离群数据的步骤为:

如果当前数据处理时间戳在[低水位,低水位+滑动时间窗口宽度/2)范围,则未处理数据包为离群数据;

如果当前数据处理时间戳在[低水位+滑动时间窗口宽度/2,低水位+滑动时间窗口宽度]范围,则未处理数据包为正常待处理数据;

如果当前数据处理时间戳小于低水位,则未处理数据为可丢弃数据;

步骤(3):数据聚合:将数据处理的结果进行汇总进行输出。

2.如权利要求1所述的基于低水位滑动时间窗口的离群数据发现方法,其特征是,

步骤(2)中来自不同关键词的数据流能够并发在不同的数据处理节点上进行处理。

3.如权利要求1所述的基于低水位滑动时间窗口的离群数据发现方法,其特征是,

所述低水位初值的获取步骤为:标识当前数据处理中最早的未被处理的数据包的时间戳为当前数据处理的低水位;标识当前数据处理的上游数据处理中最早的未被处理的数据包的时间戳为上游数据处理的低水位;然后比较当前数据处理的低水位与当前数据处理的上游数据处理的低水位二者的大小,将小的低水位作为当前数据处理的低水位,然后,沿流处理网络拓扑追溯上游数据处理,最终通过递归,找到整个流处理网络的最早未处理数据,并以整个流处理网络的最早未处理数据时间戳作为低水位初值。

4.基于低水位滑动时间窗口的离群数据发现系统,其特征是,包括:

数据分发模块:接收外部数据流,然后将外部数据流分发给各个数据处理节点;

数据处理模块:数据处理节点对接收到的外部数据流进行处理;

定义低水位滑动时间窗口,低水位滑动时间窗口的时间戳起始于低水位初值,低水位滑动时间窗口的宽度为w;低水位滑动时间窗口的时间戳范围为[低水位初值,低水位初值+低水位滑动时间窗口的宽度w];

所述低水位滑动时间窗口大小w是根据数据处理能容忍的最大数据延迟达到时间来设定的;

以时间戳为水平坐标轴,随着时间推移,低水位滑动时间窗口在时间戳水平坐标轴上从左往右不断移动,在任意时间点,低水位滑动时间窗口水平坐标轴上方为未处理数据,水平坐标轴下方为已处理数据;然后根据当前数据处理时间戳在低水位滑动时间窗口范围内的位置来发现当前数据处理是否为离群数据;

根据当前数据处理时间戳在低水位滑动时间窗口范围内的位置来发现当前数据处理是否为离群数据的步骤为:

如果当前数据处理时间戳在[低水位,低水位+滑动时间窗口宽度/2)范围,则未处理数据包为离群数据;

如果当前数据处理时间戳在[低水位+滑动时间窗口宽度/2,低水位+滑动时间窗口宽度]范围,则未处理数据包为正常待处理数据;

如果当前数据处理时间戳小于低水位,则未处理数据为可丢弃数据;

数据聚合模块:将数据处理的结果进行汇总进行输出。

5.如权利要求4所述的基于低水位滑动时间窗口的离群数据发现系统,其特征是,

数据处理模块中来自不同关键词的数据流能够并发在不同的数据处理节点上进行处理。

6.如权利要求4所述的基于低水位滑动时间窗口的离群数据发现系统,其特征是,

所述低水位初值的获取步骤为:标识当前数据处理中最早的未被处理的数据包的时间戳为当前数据处理的低水位;标识当前数据处理的上游数据处理中最早的未被处理的数据包的时间戳为上游数据处理的低水位;然后比较当前数据处理的低水位与当前数据处理的上游数据处理的低水位二者的大小,将小的低水位作为当前数据处理的低水位,然后,沿流处理网络拓扑追溯上游数据处理,最终通过递归,找到整个流处理网络的最早未处理数据,并以整个流处理网络的最早未处理数据时间戳作为低水位初值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710284487.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top