[发明专利]一种挖掘最大重复序列的方法及装置有效
申请号: | 201410200896.8 | 申请日: | 2014-05-13 |
公开(公告)号: | CN105095276B | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 梁辰;范伟 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 张娜 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 挖掘 最大 重复 序列 方法 装置 | ||
本发明实施例提供一种挖掘最大重复序列的方法及装置,基于流水线和后缀树确定最大重复序列,实现增量式挖掘,提高了计算效率。本发明实施例提供的挖掘最大重复序列的方法包括:获取字符;将字符追加到流水线集合中的每个流水线中,分别判断追加字符后的每个流水线中的序列与后缀树上对应的序列是否相同;在流水线集合中,若存在第一流水线,在追加字符后的序列与后缀树上对应的序列不同,则根据第一预设策略以及所述第一流水线中的序列确定最大重复序列;若存在第二流水线,在追加所述字符后的序列与后缀树上对应的序列相同,则根据所述第二流水线的位置指针以及第二预设策略确定最大非串联重复序列。
技术领域
本发明涉及数据挖掘领域,尤其涉及一种挖掘最大重复序列的方法及装置。
背景技术
模式挖掘指在一组序列数据中,寻找一些特定的便于人们理解与解释的基本序列模式,实现将所处理的长序列数据进行分解,便于后期各种建模和再分析,降低在大数据流量中人为干预的程度,提高序列处理的效率和准确度,因此,模式挖掘在以软件控制的设备中起到了非常重要的作用,例如,模式挖掘在智能手机的用户行为建模、传感器数据流分析、金融系统欺诈交易识别、生物基因序列检测等多种领域中被广泛使用。在模式挖掘的实际应用中,人们通常将序列数据中包含最多信息且做成结构最小的序列模式-最大重复序列作为基本序列模式,但是,在模式挖掘中,有一类数据随着时间的变化而不断有新的数据产生,例如,手机设备所携带的传感器可以记录每时每刻用户的位置、通话、上网浏览记录等,这类数据根据时间先后顺序排列,并且以序列化的方式呈现,尤其是,随着大数据与移动互联网的蓬勃发展,这些序列数据产生的数量和速度都成倍增长,如何从这些序列数据中实时动态地挖掘出基本序列模式(即最大重复序列)成为亟待解决的问题。
目前,挖掘序列数据中最大重复序列的方法为:根据一段时间内的序列数据建立相应的后缀树,再在后缀上查找最大重复序列;其中,后缀树是一种数据结构,能快速解决很多关于字符串的问题,用来支持有效的字符匹配和查询;例如,将序列数据“abcabxa$”用图1所示的后缀树来表示,即后缀树的根节点到每一个叶子节点的路径表示序列“abcabxa$”中的每一个后缀子序列;然后,寻找存在不同左边元素的两个叶子节点,并标记出来;从叶子节点开始自下而上遍历后缀树上的每一个节点,如果一个节点下的子树中存在已标记的节点,则此节点也被标记;如果一个节点下的子树中没有被标记的节点,则检查此节点下孩子节点的左元素;如果此节点下孩子节点的左元素不同,则标记当前节点;用这个方法扫描所有节点直至根节点,并将所有非标记节点剔出,所剩下的树就是最大重复序列;由此可知,在现有技术中,需要通过对整个后缀树进行遍历和标记来确定最大重复序列,且当下一时刻有新数据加入到原来的序列数据中时,除了根据后缀树的建立规则在原有的后缀树上增加相应的节点结构之外,之前遍历标记的结果也需要进行重新统计和标识,即需要重新对增加节点后的后缀树进行遍历和标记,增大计算量。
发明内容
本发明实施例提供一种挖掘最大重复序列的方法及装置,基于流水线和后缀树确定最大重复序列,实现增量式挖掘,提高了计算效率。
为达到上述目的,本发明采用的技术方案是,
第一方面,本发明实施例提供一种挖掘最大重复序列的方法,包括:
获取字符;
将所述字符追加到流水线集合中的每个流水线中,分别判断追加所述字符后的每个流水线中的序列与后缀树上对应的序列是否相同,其中,所述流水线集合包含至少一个流水线,所述流水线包含序列以及位置指针,所述序列包含与所述字符所在的字符串中所述字符之前的字符相同的字符,所述位置指针指向所述流水线包含的序列的尾字符在所述后缀树上的位置;
在所述流水线集合中,若存在第一流水线,在追加所述字符后的序列与后缀树上对应的序列不同,则根据第一预设策略以及所述第一流水线中的序列确定最大重复序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410200896.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:跨领域观点数据的分类方法和装置
- 下一篇:一种数据检索方法、装置及终端