[发明专利]一种基于Apriori算法的频繁项集挖掘方法在审
申请号: | 201710462375.3 | 申请日: | 2017-06-19 |
公开(公告)号: | CN107291877A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 仝勖峰;张群;王慧敏;高海乐 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 陕西电子工业专利中心61205 | 代理人: | 韦全生 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 apriori 算法 频繁 挖掘 方法 | ||
技术领域
本发明涉及大数据及数据挖掘的技术领域,尤其涉及一种频繁项集挖掘方法。
背景技术
数据挖掘是指以某种方式分析数据源,通常是指海量数据,从中发现并提取一些潜在的有用的信息。目前,数据挖掘技术在人工智能和大数据领域受到广泛重视。其中,关联规则挖掘是数据挖掘的一个重要课题,顾名思义,它是从数据背后发现事物之间可能存在的关联或者联系。从这些大量事务记录中发现的关联规则,可以帮助人们做出决策。在所有关联规则挖掘的算法中,最有影响的是Apriori算法,该算法通过发现支持度大于用户设定的最小支持度的频繁项目集,再从频繁项目集中挖掘出置信度大于用户设定的最小置信度的关联规则。
Apriori算法的思想主要利用了向下封闭属性:如果一个项目集是频繁项集,那么它的非空子集必定是频繁项集。于是先生成频繁1-项集,再利用频繁1-项集生成频繁2-项集,然后根据频繁2-项集生成频繁3-项集......依次类推,直至生成所有的频繁项集,然后从频繁项集中找出符合条件的关联规则。第一步找出频繁1-项集很容易,只需循环扫描一次事务集合统计出项目集合中每个元素的支持度,然后根据设定的支持度阈值进行筛选即可得到。
下面将具体描述Apiori算法是如何通过频繁(k-1)-项集生成频繁k-项集的。假设某个项目集S={s1,s2,...,sn}是频繁项集,那么它的(n-1)非空子集{s1,s2,...,sn-1},{s1,s2,...,sn-2,sn}...{s2,s3,...,sn}必定都是频繁项集,任何一个含有n个元素的集合A={a1,a2,...,an},它的(n-1)非空子集必行包含两项{a1,a2,...,an-2,an-1}和{a1,a2,...,an-2,an},对比这两个子集可以发现,它们的前(n-2)项是相同的,它们的并集就是集合A。对于频繁2-项集,它的所有1非空子集也必定是频繁项集,那么根据上面的性质,对于频繁2-项集中的任一个,在频繁1-项集中必定存在2个集合的并集与它相同。因此,在所有的1-频繁项集中找出只有最后一项不同的集合,将其合并,即可得到所有的包含2个元素的项目集。然而,得到的这些包含2个元素的项集不一定都是频繁项集,所以需要进行剪枝,剪枝的办法是看候选2-项集的所有1非空子集是否在频繁1-项集中,如果存在1非空子集不在频繁1-项集中,则将该2项集剔除。经过该步骤之后,剩下的则全是频繁项集,即频繁2-项集。依次类推,可以生成频繁3-项集,频繁4-项集,......,直至生成所有的频繁项集。
概括而言,Apriori算法挖掘频繁项集的流程如下:首先扫描事务数据库,根据支持度阈值minsup产生频繁1-项集的集合F1;对集合F1进行连接操作,生成候选2-项集的集合C2;根据支持度阈值minsup对候选项集的集合C2进行剪枝,得到频繁2-项集的集合F2;再由F2得到C3和F3,以此类推,直到Fk为空时结束。
Apriori算法生成候选项集采用Fk-1×Fk-1方法,该方法将两个频繁(k-1)-项集连接成一个候选k-项集。其中,连接操作需满足的条件是:这两个频繁(k-1)-项集除最后一项不同之外,其余(k-2)项均完全相同。该算法存在一个很大的缺陷,它在产生候选k-项集的过程中需要对频繁(k-1)-项集进行反复对比以确定它们是否满足连接条件。该过程必须对(k-1)-项集中的各项进行逐一比对,这意味着将产生大量的重复比对工作,在对海量数据进行挖掘分析时,重复比对的工作量会急剧增加,相应地计算更耗时,严重影响计算效率和算法性能。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710462375.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分布式数据管理方法
- 下一篇:一种分布式存储文件系统的数据删除方法及装置