[发明专利]一种基于特征点符号聚集近似的时间序列异常挖掘方法有效
申请号: | 201210337740.5 | 申请日: | 2012-09-13 |
公开(公告)号: | CN102867052A | 公开(公告)日: | 2013-01-09 |
发明(设计)人: | 朱跃龙;刘千;张鹏程 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 符号 聚集 似的 时间 序列 异常 挖掘 方法 | ||
技术领域
本发明涉及一种时间序列异常挖掘的技术,具体是一种基于特征点符号聚集近似的时间序列异常挖掘方法,使用时间序列的符号化方法以及在此基础上对于时间序列距离的度量。
背景技术
时间序列是一个由随时间变化的序列值或事件数据组成的集合,反映了属性值在时间顺序上的特征,这些记录集合往往采用等时间间隔进行度量,他们具有数据量大、维数高、更新速度快等特点,在医疗、气象、经济等领域普遍存在。在时间序列数据挖掘中,大部分挖掘任务是为了发现那些频繁出现的模式,期望发现某种规律,异常数据通常被作为噪声而忽略。但在一些领域中,尽管异常数据与正常数据相比并不是经常发生,但其发生的背后可能隐藏着一些重要的信息,异常数据的发现往往能带给人们更有价值和启发意义的知识。
目前,时间序列异常挖掘的主要方法主要存在以下的不足:
基于距离的方法所需对时间复杂度较大,效率不能保证;
生物学方法在正常数据越来越多样化的情况下,可能导致挖掘失败;
基于频率的方法需要给出一组标准的参考值;
支持向量机技术不仅理论复杂,而且对于建模过程要求也十分苛刻;
基于TSA-tree的方法无法保证挖掘结果的全面性和正确性。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于特征点符号聚集近似的时间序列异常挖掘方法,在保证挖掘结果全面正确的前提下,克服基于距离的时间序列异常挖掘方法计算量大、时间复杂度高的劣势,将复杂的时间序列分析问题尽可能地简单化。
技术方案:一种基于特征点符号聚集近似的时间序列异常挖掘方法,包括特征点符号聚集近似方法和符号串间距离的度量方法;
所述特征点符号聚集近似方法为:
a)时间序列降维,通过提取时间序列的特征点来表征该序列,所述特征点由三部分构成,即序列的起点和终点、极值特征点以及均值特征点。其中,选取保持时间段与时间序列长度之比大于等于阈值L的极值点,以及包含N个极值点的分段子序列平均值作为该序列的特征点,达到降维的目的。L的取值根据原始时间序列的长度、不同领域知识以及关注角度而定,一般情况下为0.01~0.1;N的取值最小为1,最大为该序列的所有极值特征点个数。
b)符号化:采用符号化聚集近似(Symbolic Aggregate Approximation,SAX)方法划分若干个个等概率空间,通过对时间序列的标准化使其满足标准正态分布,然后按照上述a)中的时间序列降维方法选取合适的特征点,逐一将特征点映射到对应的一个概率区间,处于同一概率区间的序列值用相同的符号表示,最后得到一个长度与特征点个数相同的符号串。
所述符号串间距离的度量方法为:根据动态时间弯曲(Dynamic Time Warping,DTW)方法,采用字符间距离代替原来的欧式距离,得出两个符号串之间的距离,进而得到任意一个符号串与其余符号串之间的距离之和,称其为累积距离,从而根据该累积距离值的大小挖掘出异常数据。
有益效果:与现有的技术相比,本发明所提供的基于特征点符号聚集近似的时间序列异常挖掘方法,突出了符号化简便快速地表征时间序列的特点,将复杂的时间序列转化为抽象化的字符串,继而为后续的进一步挖掘节省了大量计算时间,挖掘结果不仅具有典型的代表意义,而且全部符合实际,类型多样。
附图说明
图1为本发明实施例的整体框架图;
图2为本发明实施例的降维方法流程图;
图3为本发明实施例的符号化方法流程图;
图4为本发明实施例的的距离度量方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本实施例提供的时间序列异常挖掘方法包含了三个主要模块:降维技术、符号化方法和距离度量方法,其中降维技术和符号化方法两部分组成了特征点符号聚集近似的主要内容。
如图2所示,待提取的特征点由以下三个部分组成:序列的起点和终点、符合保持极值时间段的极值特征点以及包含确定数目极值点的序列分段均值特征点。
符合提取条件的极值特征点需满足下面两个条件:
A)此点必须是该序列的极值点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210337740.5/2.html,转载请声明来源钻瓜专利网。