[发明专利]一种估算滑动窗口下的数据流平均值的方法与系统在审
| 申请号: | 201410315983.8 | 申请日: | 2014-07-02 |
| 公开(公告)号: | CN104090952A | 公开(公告)日: | 2014-10-08 |
| 发明(设计)人: | 王非;陈岁迪 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 武汉东喻专利代理事务所(普通合伙) 42224 | 代理人: | 方放 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 估算 滑动 窗口 数据流 平均值 方法 系统 | ||
技术领域
本发明属于数据流分析技术领域,更具体地,涉及一种估算滑动窗口下的数据流平均值的方法与系统。
背景技术
近年来,数据流分析技术被广泛应用到传感器网络通信,web服务器点击日志、网络安全监控与异常检测、通话记录、证券股票交易等领域,数据流分析已成为国内外各界研究的热点。
数据流不同于传统数据,不是存储在磁盘上的有限数据集合,而是无限的、连续的、快速的、实时的,以流的形式出现的数据集合。实际应用中,存储空间是有限的,但是数据流却是源源不断的到达。数据流的应用场景对实时性有较高要求,但是传统的静态数据挖掘往往需要多次扫描数据来获得查询结果,耗时较长。传统的数据挖掘技术不能满足动态的快速变化的数据流分析要求,数据流挖掘面临着实时性、空间性和近似性等技术挑战。
平均值的计算是数据流统计分析中的一个重要问题。但是目前的解决方法需要扫描窗口中的历史数据而且需要保存一段窗口内的全部数据,对内存和计算能力要求较高,远远不能满足源源不断到达的无限的数据流以及实时性的应用要求,所以有必要提出基于单次扫描的实时计算方法。
发明内容
为了解决现有上述的技术问题,本发明需要提供一种能够满足实时性要求的估算滑动窗口下数据流平均值的方法与系统。
为了实现上述目的,按照本发明的一个方面,提供了一种估算滑动窗口下数据流平均值的方法,包括以下步骤:
(1)、初始化指数直方图:所述指数直方图把数据元素划分到不同的层次上,每层由若干个桶组成,所述桶用来存储数据流中一段时间内的数据集合信息,所述信息包括数据集合对应的时间戳和容量,所述时间戳表示的是数据集合中距离当前时刻最近的数据的时间戳,容量表示的是数据集合中所有数据元素的和;
(2)、将数据流的信息储存在桶中:所述桶在指数直方图中的位置由时间戳决定:层数越高,所述层上的桶的时间戳越旧,层数越低,所述层上的桶的时间戳越新;所述桶的时间戳越旧,表示桶中数据元素离当前时刻越远;桶的时间戳越新,表示桶中数据元素离当前时刻越近;同一层中的桶按时间戳新旧顺序排列;随着数据的不断流入,当有新的数据添加以及旧的数据删除时,进行桶的合并与分解操作,合并分解规则以桶的容量为参考;
(3)、查询指数直方图,输出近似平均值:首先计算指数直方图中所有桶的容量之和SUM,如果指数直方图只有一层,则输出近似平均值计算公式为其中N是滑动窗口的大小;如果指数直方图不只一层,则查询时间戳最旧的桶的容量C,输出近似平均值其计算公式为其中N是滑动窗口的大小。
本方法输出的近似结果的最大相对误差为1/k,其中k是用户预定义的参数。
在本发明的一个实施例中,所述步骤(2)包括以下子步骤:
(2.1)、检查是否存在已经超过当前滑动窗口的范围的桶,如存在则从指数直方图中删除其信息;
(2.2)、从数据流中取出当前到达的数据项,根据用户自定义的精度将数据流中当前到达的数据项转换成整数值;如果转换之后的数据不等于0,则执行步骤(2.3);如果等于0,则不必执行步骤(2.3);
(2.3)、更新指数直方图中的桶存储的信息,按照桶的分解合并规则对指数直方图中的桶进行分解合并。
在本发明的一个实施例中,所述步骤(2.1)中检查是否存在桶已经超过当前滑动窗口的时间范围,具体的是通过检查时间戳最旧的桶的时间戳与(t+1)mod(N)是否相等,若两者相等,则表示时间戳最旧的桶超过了当前滑动窗口的时间范围,其中t为当前时刻,N为窗口的大小,其中mod表示取两个整数相除后结果的余数。
在本发明的一个实施例中,所述步骤(2.3)包括以下子步骤:
(2.3.1)、根据用户自定义的精度将数据流中当前到达的数据项转换成整数值;新建一个桶,时间戳为(t+1)mod(N),容量为当前到达的数据项转换后的值的大小,其中t为当前时刻,N为滑动窗口的大小,将所述桶插入到指数直方图的最低层B0中,用Bi表示指数直方图中的第i层,i从0开始计数;然后从B0层开始逐步检查Bi层中所有桶的容量之和;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410315983.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:查询信息推荐方法和装置
- 下一篇:一种基于云计算的数据库访问方法及系统





