[发明专利]一种基于图的存储模式挖掘方法无效
申请号: | 201110040963.0 | 申请日: | 2011-02-18 |
公开(公告)号: | CN102096719A | 公开(公告)日: | 2011-06-15 |
发明(设计)人: | 张敬亮;梁爽 | 申请(专利权)人: | 中国科学院计算技术研究所;天津中科蓝鲸信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 存储 模式 挖掘 方法 | ||
技术领域
本发明涉及存储模式挖掘,尤其涉及基于图的存储模式挖掘方法。
背景技术
应用数据集及存储系统规模的不断扩大对模式分析的效率提出了极高的要求。但现有存储模式挖掘基于数据挖掘领域中的序列模式SP(Sequential Pattern)(参见SP定义)方法进行。现有挖掘方法的巨大开销使其难以在实际系统中应用。这是因为SP模式基于元素间相关性来定义,而对序列中相关性的挖掘是一个NP难题(NP-hard),随着问题规模增大,模式挖掘的时空性能急剧恶化。因而其对大规模数据密集型应用场景中的存储模式挖掘无能为力,更无法满足基于存储模式的实时优化需求。基于SP的存储模式挖掘方法的局限性表现为如下两个方面:
1.时空开销大:由于模式中松耦合关系的定义以及无法避免的对原始序列的多遍扫描,导致了相应的挖掘方法有很高的时空复杂度。更为严重的是,随着问题规模扩大,方法的时空开销会呈现指数剧增。因而对于大规模实际存储系统而言,以往挖掘方法的时空开销导致其基本无法应用。
2.无法支持在线流式挖掘:SP模式的挖掘方式为对序列数据库的整体挖掘而非增量式挖掘。因而在原始序列发生变化时不能在之前挖掘模式的基础上进行模式的增量更新挖掘。基于上述局限性,当前SP方法大都采用静态挖掘方式,将长时间累积的IO序列通过集中挖掘的方式来进行整体模式更新。在海量IO序列信息面前,集中模式挖掘的方式代价高昂,无法支持存储系统中实时在线优化的需求。
另外,与传统数据挖掘不同,存储模式挖掘的目标在于将模式应用于后续的性能优化,因而其不要求结果精确(比如频度精确),而只要对优化有效即可(频繁出现即可)。同时因为利用模式进行性能优化时模式挖掘处于IO关键路径中,因而要求模式挖掘的效率高且时空复杂度低。紧邻序列模式CISP(Contiguous Item Sequential Pattern)(参见CISP定义)的挖掘方法虽然对于SP模式进行了简化,但要求所挖掘出的模式频度也是精确的,虽然可以部分缩减挖掘空间,但其仍是类SP模式的挖掘方法,所以在对大规模数据密集型应用场景中的存储模式挖掘中仍然无法解决上述问题。
发明内容
本发明的目的在于克服上述现有技术的缺陷,提供一种适合大规模数据密集应用的存储模式挖掘方法,并且可以支持在线流式挖掘。
本发明的目的是通过以下技术方案实现的:
本发明提出了一种基于图的存储模式挖掘方法FPG-Grow(FrequentPattern Graph-Grow),包括以下步骤:
(a)基于原始序列来构建频繁模式图FPG(Frequent Pattern Graph),其中所述原始序列是信息元素的有序集合;所述频繁模式图的节点集合是由具有相同长度的片段的集合构成的,所述片段是原始序列的子序列,所述频繁模式图的边是有后继关系的两个片段之间的有向边,所述有后继关系的两个片段是指后片段的头元素为先片段头元素的后继;边的频度,为此后继关系在原始序列中出现的总次数;
(b)从所述频繁模式图中未被访问的边集合中选取频度最高的边;
(c)沿所述频度最高的边向两侧进行模式扩展,直到不能满足模式生长条件为止;
(d)重复步骤(b)(c)直到所有频度大于最小阈值的边都被访问过为止。
根据本发明优选实施例的基于图的存储模式挖掘方法,在所述步骤(a)中的所述频繁模式图是由原始序列和片段的长度唯一确定的,所述片段的长度可以根据实际应用模式的特点或用户需求进行设置,但必须是大于1的正整数。
根据本发明优选实施例的基于图的存储模式挖掘方法,在所述步骤(d)中的所述最小阈值可以根据实际应用模式的特点,用户需求或内存容量进行设置,但不应低于1。
根据本发明优选实施例的基于图的存储模式挖掘方法,在所述步骤(c)中的所述模式生长条件是指相邻的两条边的权重之和与这两条边的共同节点的所有边的权重总和之间的比值大于给定的阀值。在一些实施例中,所述给定的阀值是可设置的,但必须大于0.5。在本发明的优选实施例中所述给定的阀值为0.85。
根据本发明优选实施例的基于图的存储模式挖掘方法,所述步骤(a)基于原始序列来构建频繁模式图包括以下步骤:
(1)为原始序列设置滑动指针,指向原始序列的初始位置;
(2)从滑动指针所指原始序列位置截取长度为L的片段,将所述片段加入频繁模式图的节点集合,并设置该片段为频繁模式图的当前节点;
(3)滑动指针向前滑动一位;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;天津中科蓝鲸信息技术有限公司,未经中国科学院计算技术研究所;天津中科蓝鲸信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110040963.0/2.html,转载请声明来源钻瓜专利网。