[发明专利]基于后缀树的时间序列变长模体挖掘方法在审
申请号: | 202110870995.7 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113722374A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 王继民;保宏程;崔明星 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 罗运红 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 后缀 时间 序列 变长 挖掘 方法 | ||
本申请涉及一种基于后缀树的时间序列变长模体挖掘方法。该方法包括:通过基于斜率进行模式表示,设定变化率阈值,提取所有的边缘点,获得边缘点集合;利用所述边缘点集合的边缘点构建后缀树,利用所述后缀树统计边缘点子序列频率,频率最大的边缘点子序列即为频繁模式;将所述频繁模式映射回原时间序列,记录变长模体位置;根据所述变长模体位置,计算变长模体之间的Matrix Profile值,所述Matrix Profile值最小的即为有效模体,加入有效模体的提取,解决了符号化隐藏极值点信息而引发的模体发现精度低的问题,提高了时间序列变长模体挖掘精度。
技术领域
本申请涉及信息处理技术领域,特别是涉及一种基于后缀树的时间序列变长模体挖掘方法。
背景技术
时间序列数据挖掘属于数据挖掘的范畴,其主要目标是从时间序列数据中发现有意义的信息,需要完成诸如聚类、分类、相似性搜索、异常检测和模体挖掘等任务。其中,时间序列模体挖掘是在不需要任何有关其位置或形状的先验信息的条件下,寻找时间序列中重复出现的未知模式。此外,时间序列模体挖掘不仅适用于一维或多维数据,同样能够适用于不同类型的序列数据,例如空间序列数据,时间序列数据以及流数据。并且时间序列模体挖掘技术在遗传学、医学、数学、音乐等诸多领域也得到应用
模体被定义为重复的模式、频繁的趋势、或者近似重复的序列、形状、片段、子序列等。Mueen给出了其对模体的定义:模体是一段长时间序列中,一对彼此最相似的时间序列子序列。目前大致可以将模体的定义可分为两类:k-motif和最近邻模体。
k-motif,给定一个时间序列T,一个子序列长度n和一个范围R,T中最重要的模体(又称为1-motif)是子序列C1,它具有最高的非平凡匹配计数。在T中,第K个最重要的模体是子序列CK(又称为K-motif),它具有最高的非平凡匹配计数,并且当1≤i≤K时,D(CK,Ci)2R。
最近邻模体,在长度为n的时间序列S中,长度为m的最近邻居模体是子序列Si(1≤i≤n–m+1)与它的非平凡最近邻Sj(1≤j≤n–m+1),它们之间的距离最小。
这两个定义的主要区别在于,最近邻模体指的是距离最小即最相似的一对子序列,而不是拥有最多非平凡匹配的子序列,拥有最多非平凡匹配数的子序列即为1-motif。
然而,现有的模体发现算法仍存在一些不足。近似模体发现算法根据数据集的特点进行时间序列离散化,在符号化的字符串中发现频繁模式以减少计算量,降低执行时间,但符号化隐藏了极值点信息,所以时间序列变长模体挖掘精度较低。如随机投影进行模体发现是计算序列均值,根据均值进行符号表示后发现频繁模式,因此只能保证模体的总体变化趋势相同,无法确保结果之间的相似性,导致时间序列变长模体挖掘精度比较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高时间序列变长模体挖掘精度的基于后缀树的时间序列变长模体挖掘方法。
一种基于后缀树的时间序列变长模体挖掘方法,所述方法包括:
基于斜率进行模式表示,设定变化率阈值,提取所有的边缘点,获得边缘点集合;
利用所述边缘点集合的边缘点构建后缀树,利用所述后缀树统计边缘点子序列频率,频率最大的边缘点子序列即为频繁模式;
将所述频繁模式映射回原时间序列,记录变长模体位置;
根据所述变长模体位置,计算变长模体之间的Matrix Profile值,所述MatrixProfile值最小的即为有效模体。
在其中一个实施例中,所述基于斜率进行模式表示,设定变化率阈值,提取所有的边缘点,获得边缘点集合的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110870995.7/2.html,转载请声明来源钻瓜专利网。