[发明专利]基于低水位滑动时间窗口的离群数据发现方法及系统有效
| 申请号: | 201710284487.4 | 申请日: | 2017-04-25 |
| 公开(公告)号: | CN107124329B | 公开(公告)日: | 2020-05-05 |
| 发明(设计)人: | 马坤;周劲;于自强;纪科 | 申请(专利权)人: | 济南大学 |
| 主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L12/24 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
| 地址: | 250022 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 水位 滑动 时间 窗口 离群 数据 发现 方法 系统 | ||
1.基于低水位滑动时间窗口的离群数据发现方法,其特征是,包括:
步骤(1):数据分发:接收外部数据流,然后将外部数据流分发给各个数据处理节点;
步骤(2):数据处理:数据处理节点对接收到的外部数据流进行处理;
定义低水位滑动时间窗口,低水位滑动时间窗口的时间戳起始于低水位初值,低水位滑动时间窗口的宽度为w;低水位滑动时间窗口的时间戳范围为[低水位初值,低水位初值+低水位滑动时间窗口的宽度w];
所述低水位滑动时间窗口大小w是根据数据处理能容忍的最大数据延迟达到时间来设定的;
以时间戳为水平坐标轴,随着时间推移,低水位滑动时间窗口在时间戳水平坐标轴上从左往右不断移动,在任意时间点,低水位滑动时间窗口水平坐标轴上方为未处理数据,水平坐标轴下方为已处理数据;然后根据当前数据处理时间戳在低水位滑动时间窗口范围内的位置来发现当前数据处理是否为离群数据;
根据当前数据处理时间戳在低水位滑动时间窗口范围内的位置来发现当前数据处理是否为离群数据的步骤为:
如果当前数据处理时间戳在[低水位,低水位+滑动时间窗口宽度/2)范围,则未处理数据包为离群数据;
如果当前数据处理时间戳在[低水位+滑动时间窗口宽度/2,低水位+滑动时间窗口宽度]范围,则未处理数据包为正常待处理数据;
如果当前数据处理时间戳小于低水位,则未处理数据为可丢弃数据;
步骤(3):数据聚合:将数据处理的结果进行汇总进行输出。
2.如权利要求1所述的基于低水位滑动时间窗口的离群数据发现方法,其特征是,
步骤(2)中来自不同关键词的数据流能够并发在不同的数据处理节点上进行处理。
3.如权利要求1所述的基于低水位滑动时间窗口的离群数据发现方法,其特征是,
所述低水位初值的获取步骤为:标识当前数据处理中最早的未被处理的数据包的时间戳为当前数据处理的低水位;标识当前数据处理的上游数据处理中最早的未被处理的数据包的时间戳为上游数据处理的低水位;然后比较当前数据处理的低水位与当前数据处理的上游数据处理的低水位二者的大小,将小的低水位作为当前数据处理的低水位,然后,沿流处理网络拓扑追溯上游数据处理,最终通过递归,找到整个流处理网络的最早未处理数据,并以整个流处理网络的最早未处理数据时间戳作为低水位初值。
4.基于低水位滑动时间窗口的离群数据发现系统,其特征是,包括:
数据分发模块:接收外部数据流,然后将外部数据流分发给各个数据处理节点;
数据处理模块:数据处理节点对接收到的外部数据流进行处理;
定义低水位滑动时间窗口,低水位滑动时间窗口的时间戳起始于低水位初值,低水位滑动时间窗口的宽度为w;低水位滑动时间窗口的时间戳范围为[低水位初值,低水位初值+低水位滑动时间窗口的宽度w];
所述低水位滑动时间窗口大小w是根据数据处理能容忍的最大数据延迟达到时间来设定的;
以时间戳为水平坐标轴,随着时间推移,低水位滑动时间窗口在时间戳水平坐标轴上从左往右不断移动,在任意时间点,低水位滑动时间窗口水平坐标轴上方为未处理数据,水平坐标轴下方为已处理数据;然后根据当前数据处理时间戳在低水位滑动时间窗口范围内的位置来发现当前数据处理是否为离群数据;
根据当前数据处理时间戳在低水位滑动时间窗口范围内的位置来发现当前数据处理是否为离群数据的步骤为:
如果当前数据处理时间戳在[低水位,低水位+滑动时间窗口宽度/2)范围,则未处理数据包为离群数据;
如果当前数据处理时间戳在[低水位+滑动时间窗口宽度/2,低水位+滑动时间窗口宽度]范围,则未处理数据包为正常待处理数据;
如果当前数据处理时间戳小于低水位,则未处理数据为可丢弃数据;
数据聚合模块:将数据处理的结果进行汇总进行输出。
5.如权利要求4所述的基于低水位滑动时间窗口的离群数据发现系统,其特征是,
数据处理模块中来自不同关键词的数据流能够并发在不同的数据处理节点上进行处理。
6.如权利要求4所述的基于低水位滑动时间窗口的离群数据发现系统,其特征是,
所述低水位初值的获取步骤为:标识当前数据处理中最早的未被处理的数据包的时间戳为当前数据处理的低水位;标识当前数据处理的上游数据处理中最早的未被处理的数据包的时间戳为上游数据处理的低水位;然后比较当前数据处理的低水位与当前数据处理的上游数据处理的低水位二者的大小,将小的低水位作为当前数据处理的低水位,然后,沿流处理网络拓扑追溯上游数据处理,最终通过递归,找到整个流处理网络的最早未处理数据,并以整个流处理网络的最早未处理数据时间戳作为低水位初值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710284487.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网闸系统中启动仲裁机的方法和装置
- 下一篇:数据下载控制方法及系统





