[发明专利]一种基于兴趣度度量的频繁模式挖掘方法在审
| 申请号: | 201510214209.2 | 申请日: | 2015-04-29 |
| 公开(公告)号: | CN104834708A | 公开(公告)日: | 2015-08-12 |
| 发明(设计)人: | 李涛;王丽娜;林陈;周欢乐;范文波 | 申请(专利权)人: | 南京信息工程大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
| 地址: | 210016 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 兴趣 度量 频繁 模式 挖掘 方法 | ||
1.一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,包括如下步骤:
步骤一:用户指定top k结果频繁集合中的元素数量k;
步骤二:用户指定原始数据集,原始数据集即需要进行挖掘的频繁模式数据集;
步骤三:读入原始数据集中的数据;
步骤四:将原始数据集中的出现的元素,按照出现频率从大到小排列,组成元素集合IS;
步骤五:针对元素集合IS,逐个生成备选频繁项集S;并进行检查,检查中符合条件的项集更新到top k结果频繁集合中;
步骤六:输出top k结果频繁集合中的内容。
2.根据权利要求1所述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤五包括:
步骤5a:从元素集合IS中取出当前位置的元素item,形成一个元素个数为1的备选频繁项集S;
步骤5b:将元素集合IS中位于item后面的所有元素,组合成一个备选元素集合ISNew;
步骤5c:基于备选频繁项集S和备选元素集合ISNew,对备选频繁项集S进行检查,检查中符合条件的项集更新到top k结果频繁集合中;
步骤5d:检测元素集合IS中的所有元素是否已经都执行过上述步骤,若存在未执行的项目,则重复步骤5a,否则执行步骤六。
3.根据权利要求2所述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤5c包括:
步骤5c1:读入备选频繁项集S和备选元素集合ISNew;
步骤5c2:初始化新的备选项集ISNewRecursive为空;初始化阈值t=-1;
步骤5c3:从备选元素集合ISNew中逐个选取备选元素,将其放入备选频繁项集S中,形成频繁项集SNew,并对所述频繁项集SNew进行检验,如果符合要求,则将其更新到top k结果频繁集合中;
步骤5c4:从备选项集ISNewRecursive中逐个取出项目,添加到备选频繁项集S,形成新的频繁项集,并对该频繁项集进行校验;
步骤5c5:结束退出。
4.根据权利要求3所述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤5c3包括:
步骤5c3a:初始化新的频繁项集SNew,内容与S相同;
步骤5c3b:从备选项集ISNew中取出当前项目元素i,并添加到频繁项集SNew中;
步骤5c3c:将SNew作为参数,计算SNew的兴趣度;
步骤5c3d:如果SNew的兴趣度大于阈值t,则执行步骤5c3e,否则直接执行步骤步骤5c3i;
步骤5c3e:将SNew更新到top k结果频繁集合中;
步骤5c3f:将项目元素i添加到备选项集ISNewRecursive集合;
步骤5c3g:将top k结果频繁集合中的元素按照各自的兴趣度值从大到小排序;
步骤5c3h:如果top k结果频繁集合中的元素数量大于k,则仅仅保留前k个项目,同时更新t值为结果集合中兴趣度的最小值;
步骤5c3i:检查项目i是否是备选元素集合ISNew中的最后元素;如果不是,则重复执行步骤5c3;否则,执行步骤5c4。
5.根据权利要求4所述的一种基于兴趣度度量的频繁模式挖掘方法,其特征在于,所述步骤5c4包括:
步骤5c4a:从备选项集ISNewRecursive中取出项目元素j,并追加到备选频繁项集S的最后,形成新的频繁项集SCandidate;
步骤5c4b:以频繁项集SCandidate和备选项集ISNew为参数,调用步骤5c1;
步骤5c4c:检查项目j是否是从备选项集ISNewRecursive中的最后元素;如果不是,则重复执行步骤5c4;否则,执行步骤5c5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510214209.2/1.html,转载请声明来源钻瓜专利网。





