[发明专利]一种基于改进Apriori算法找出频繁项集的方法在审
申请号: | 201911102820.0 | 申请日: | 2019-11-12 |
公开(公告)号: | CN110807053A | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 徐媛 | 申请(专利权)人: | 深圳易嘉恩科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 陈立志 |
地址: | 518057 广东省深圳市南山区粤海街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 apriori 算法 找出 频繁 方法 | ||
本发明涉及数据挖掘领域,公开了一种基于改进Apriori算法找出频繁项集的方法,用以解决Apriori算法多次扫描数据库导致I/O开销大、效率低、以及产生大量候选项集增加了复杂度。本发明仅扫描数据库一件,扫描之后将数据库映射成布尔矩阵,并对布尔矩阵中的行向量和列向量中1的个数分别计数,得到布尔矩阵的频度;通过删除布尔矩阵列向量频度小于最小支持度的列,得到各个频繁项集;通过同时删除布尔矩阵列向量频度小于最小支持度的列以及行向量频度小于频繁项集维数k的行,生成新的布尔矩阵,不断压缩布尔矩阵,直到下一个频繁项集为空。本发明适用于关联规则获取频繁项集。
技术领域
本发明涉及数据挖掘领域,特别涉及一种基于改进Apriori算法找出频繁项集的方法。
背景技术
目前,在移动终端的应用软件,比如购物应用软件上能够采集到的用户行为数据不断增长,通过分析数据库中这些海量的用户行为数据,获得用户在操作购物应用中潜在的内在联系,这可以为用户推荐产品提供有效参考,不仅能提升用户的购买力和体验性,而且能为公司带来广阔的经济效益。比如,利用数据库中的数据可以分析出,哪些商品可能会被大部分用户在一次购物时同时购买,那么把这些经常被同时购买的商品展示在一起,就能增加这些商品一并销售的几率,另外还可以规划哪些附属商品降价处理,以便刺激跟主体商品的捆绑销售,又或者将某几种可能会被同时购买的商品以套餐的形式推出,提升用户的购买欲望以及增加销售量和减少库存量。
从大量的数据中分析用户的行为并找出隐藏的有用信息,就需要用到数据挖掘。关联规则是利用数据挖掘进行数据分析常用的方法之一。关联规则挖掘最主要的一步是找出频繁项集,特别注意本发明也是围绕得到频繁项集展开。关联规则找出频繁项集的方法是:设定最小支持度minSup,找出数据库中所有大于等于最小支持度的频繁项集,即满足支持度计数Support≧minSup的所有项集。实际上,得到的频繁项集中可能有包含与被包含的关系。一般情况下,只需要关注那些得到的最大频繁项集即可。关联规则挖掘中,最经典的是Apriori算法,它的目的是发现频繁项集。Apriori算法利用了如下属性:如果一个项集是频繁项目集,那么它的非空子集必定是频繁项目集,通过多次扫描数据库,迭代循环使项集的长度不断增长,来逐步发现频繁项集,直到不能产生新的频繁项集(非空集合)时为止。
为了更好的理解传统的Apriori算法的原理,接下来以一个实例来说明Apriori算法的过程。这里要特别说明,实例只是为了说明算法原理,因此这个例子中数据库里的总数据量少,只有四个事务记录,但是实际情况中数据库里面的数据远不止这些,数据非常庞大。给定一个数据库D,里面是采集到的所有用户在购物应用中的行为,设定最小支持度minSup=2,算法执行过程见图1。其中,TID标记每一个不同的用户,项集里的每一条数据表示每一个用户购买的商品,即I1、I2、I3、I4、I5等对应各类商品,比如,I1是饼干、I2是可乐、I3是口香糖等购物应用中在售的任意商品。图中L表示频繁项集,C代表候选项集。
Apriori算法实例运行过程步骤如下:
(1)1维频繁项集L1生成
首先扫描数据库D,对每个候选项进行支持度计数得到1-候选项集C1,可以看出各项集与支持度计数的关系是:{I1}:2、{I2}:2、{I3}:3、{I4}:1、{I5}:2。将每一个项集的支持度计数与最小支持度minSup=2进行比较,删除支持度计数<2的项集{I4},得到1-频繁项集L1。
(2)2维频繁项集L2生成
由L1产生2-候选项集C2,再次扫描数据库D,得到各项集与支持度计数的关系是:{I1,I2}:0、{I1 I3}:2、{I1 I5}:2、{I2 I3}:1、{I2 I5}:0、{I3 I5}:2。同上一个步骤,将每一个项集的支持度计数与最小支持度minSup=2进行比较,删除支持度计数<2的项集{I1,I2}、{I2,I3}和{I2,I5},最终得到2-频繁项集L2。
(3)3维频繁项集L3生成
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳易嘉恩科技有限公司,未经深圳易嘉恩科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911102820.0/2.html,转载请声明来源钻瓜专利网。