[发明专利]在时间序列数据库中查找给定时间序列的近似序列的方法有效
申请号: | 201210197177.6 | 申请日: | 2012-06-15 |
公开(公告)号: | CN102737124B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 王鹏;汪卫;汪洋;祝然威 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,盛志范 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时间 序列 数据库 查找 给定 近似 方法 | ||
技术领域
本发明属于数据挖掘技术领域,具体涉及在海量时间序列数据库中查找给定时间序列的近似序列的方法。
背景技术
近似时间序列查询是数据挖掘中的热点问题,对于在数据库中的海量时间序列,如何迅速准确地找出与给定序列最为近似的时间序列,在交通网络、传感器网络、金融分析等场合具有重要意义。在数据库中对时间序列构建索引,能够对时间序列进行有效的降维和查询剪枝,从而准确迅速地执行查询。
构建索引的基本思路包括两方面,一方面是以类似空间数据库多维索引的方式,通过对时间序列的每一维的取值空间进行划分,来减少搜索空间。另一方面是对时间序列数据采取降维操作,从而减少存储空间。从这两方面思路着手,目前已有PAA,APCA,SAX,iSAX等算法对时间序列进行压缩存储。PAA(Piecewise Aggregate Approximation)算法将时间序列分成等长的子序列,对于每一段子序列以子序列的平均值代替整段子序列,从而达到降维的目的。APCA(Adaptive Piecewise Constant Approximation)算法于PAA算法相近,区别在于APCA算法所划分的子序列并非等长的子序列,它根据数据的波动情况自适应性地调整子序列的长度。结合高斯分布的统计学理论,SAX算法在PAA算法的基础上将时间序列每一维的取值空间划分成若干块区域,以指定的符号代替落在这一区域的所有平均值。长时间序列经过SAX转换后变成一条短符号序列,便于近似距离比较。iSAX算法在SAX中引入树这一索引中常用的重要数据结构,并将SAX算法中的符号改为二进制数值,以实现划分区域的分裂和索引的扩展。
在SAX和iSAX算法中,每一段子序列的长度都事先确定,空间区域也严格地按照高斯分布划分。在事实数据中,常常会出现高低起伏时急时缓,固定长度加上平均值的简单划分模式无法很好地反映数据的真实情况,导致近似查询中出现较大的误差甚至错误。
在已有的包括SAX和iSAX的索引算法中,索引都仅能提供索引序列与原序列距离的下界,以保证查询结果集的完备性,但尚未有索引在给出距离下界的同时能给出上界,以保证算法的效率。本发明将提出构建一个自适应的时间序列索引方法,根据时间序列的数据分布情况调整索引子序列长度和维度,新的索引表示方式也满足提供距离上界的需求,大幅提高查询效率。
发明内容
本发明的目的是解决海量时间序列近似查询的问题,提供一种在海量时间序列数据库中查找给定时间序列的近似序列的方法。
本发明提供的在海量时间序列数据库中查找给定时间序列的近似序列的方法,主要着眼于对海量时间序列建立一个有效的自适应的索引,以降低算法的复杂度,提升计算效率。具体内容如下:
1、采用树状索引的结点表示方式,具体为:
对于时间序列X,将它分成不相交的m段: ,每一段Xi以的形式表示,i=1,2,…m。其中表示本段序列Xi的时间末端,表示本段序列Xi的平均值,表示本段序列的标准差。对于时间序列Y,按照对于时间序列X同样分法,分为m段:(Y1,Y2,…,Ym), 每一段Yi以与Xi同样的形式表示,i=1,2,…m。记每一段Xi和Yi的长度为ni,根据这种时间序列表示方式可以得出:
同样长度的两段时间序列X,Y之间距离平方上界为: (1)
同样长度的两段时间序列X,Y之间距离平方下界为: (2);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210197177.6/2.html,转载请声明来源钻瓜专利网。