[发明专利]一种基于图的存储模式挖掘方法无效
申请号: | 201110040963.0 | 申请日: | 2011-02-18 |
公开(公告)号: | CN102096719A | 公开(公告)日: | 2011-06-15 |
发明(设计)人: | 张敬亮;梁爽 | 申请(专利权)人: | 中国科学院计算技术研究所;天津中科蓝鲸信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 存储 模式 挖掘 方法 | ||
1.一种基于图的存储模式挖掘方法,其特征在于包括下列步骤:
(a)基于原始序列来构建频繁模式图,其中所述原始序列是信息元素的有序集合;所述频繁模式图的节点集合是由具有相同长度的片段的集合构成的,所述片段是原始序列的子序列,所述频繁模式图的边是有后继关系的两个片段之间的有向边,所述有后继关系的两个片段是指后片段的头元素分别为先片段头元素的后继;边的频度,为此后继关系在原始序列中出现的总次数;
(b)从所述频繁模式图中未被访问的边集合中选取频度最高的边;
(c)沿所述频度最高的边向两侧进行模式扩展,直到不能满足模式生长条件为止;
(d)重复步骤(b)(c)直到所有频度大于最小阈值的边都被访问过为止。
2.根据权利要求1所述的基于图的存储模式挖掘方法,其特征在于在所述步骤(a)中的所述频繁模式图是由原始序列和片段的长度唯一确定的,所述片段的长度可以根据实际应用模式的特点或用户需求进行设置,但必须是大于1的正整数。
3.根据权利要求1所述的基于图的存储模式挖掘方法,其特征在于在所述步骤(d)中的所述最小阈值可以根据实际应用模式的特点,用户需求或内存容量进行设置,但不应低于1。
4.根据权利要求1所述的基于图的存储模式挖掘方法,其特征在于在所述步骤(c)中的所述模式生长条件是指相邻的两条边的权重之和与这两条边的共同节点的所有边的权重总和之间的比值大于给定的阀值。
5.根据权利要求4所述的基于图的存储模式挖掘方法,其特征在于所述给定的阀值是可设置的,但必须大于0.5。
6.根据权利要求4所述的基于图的存储模式挖掘方法,其特征在于所述给定的阀值为0.85。
7.根据权利要求1所述的基于图的存储模式挖掘方法,其特征在于所述步骤(a)基于原始序列来构建频繁模式图包括以下步骤:
(1)为原始序列设置滑动指针,指向原始序列的初始位置;
(2)从滑动指针所指原始序列位置截取长度为L的片段,将所述片段加入频繁模式图的节点集合,并设置该片段为频繁模式图的当前节点;
(3)滑动指针向前滑动一位;
(4)从滑动指针所指原始序列位置截取长度为L的片段,设置该片段为频繁模式图的后续节点;如果所述片段不在频繁模式图的节点集合中,则将所述片段加入频繁模式图的节点集合;
(5)当前节点与该后续节点之间形成自然连边,如果所述边不在频繁模式图的边集合中,则将所述边加入频繁模式图的边集合;如果所述边已在频繁模式图的边集合中,则将边的频度加1;
(6)将该后续节点设置为当前节点;滑动指针向前滑动一位;
(7)重复上述(4)(5)(6)步骤直到滑动指针指向原始序列的末尾。
8.根据权利要求1所述的基于图的存储模式挖掘方法,其特征在于所述步骤(b)之前还包括频度排序步骤,对所述频繁模式图中的所有的边按其频度进行排序,得到有序的边序列。
9.根据权利要求8所述的基于图的存储模式挖掘方法,其特征在于所述频度排序步骤是对频繁模式图中的所有的边按其频度进行逆排,得到逆排序的边序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;天津中科蓝鲸信息技术有限公司,未经中国科学院计算技术研究所;天津中科蓝鲸信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110040963.0/1.html,转载请声明来源钻瓜专利网。