[发明专利]一种基于深度剪枝策略的关联规则挖掘方法有效
申请号: | 201710170549.9 | 申请日: | 2017-03-21 |
公开(公告)号: | CN106991141B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 李蕾;陈道新;李琪;吴亚彬 | 申请(专利权)人: | 北京邮电大学;首都信息发展股份有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 剪枝 策略 关联 规则 挖掘 方法 | ||
本发明是一种基于深度剪枝策略的关联规则挖掘方法,用于对大数据集进行关联规则挖掘。本方法借鉴了基于压缩矩阵的Apriori算法的思想,对1‑频繁项集并不按照支持度计数进行排序,而是直接按照值大小对布尔矩阵内的向量进行排序,以确定之后的频繁项集连接的相对顺序;对k‑频繁项集根据事务长度进行压缩,删掉长度小于k的事务;根据项跟位置关系对k‑频繁项集进行剪枝,对于首项为I的k‑频繁项集的前k‑1项,位置在i的项出现的次数必须大于等于k‑i。本发明相对于MTCA算法,处理时间要短很多,并且在支持度较低的情况下比Apriori标准方法节约大量的时间,从大数据集获取关联规则的效率更高。
技术领域
本发明属于计算机信息挖掘及检索技术领域,具体涉及一种基于深度剪枝策略的关联规则挖掘方法。
背景技术
随着大量的数据不停的收集和存储,越来越多的人开始对从他们的数据库中挖掘关联规则的兴趣度逐渐增加。从大量的商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定。比如经典的购物篮分析:通过发现顾客放入购物篮中不同商品之间的关系,分析顾客的购买习惯。并通过发现不同商品之间的关联,来帮助零售商制定营销策略。数据挖掘是指采用某种方式对既定的数据进行分析处理,从中发现一些潜在的有用的信息的过程。关联规则指的是挖掘和发现大量数据中项集之间的有趣的关联或相关的联系。
当前大数据时代的到来,使得数据挖掘更加成为各方面关注的重点研究领域,Apriori算法就是应用最广泛的关联规则挖掘方法之一。快速增长的巨大数据为关联规则挖掘等关键技术带来了新的挑战,其中最为重要的一个问题就是数据规模,传统算法一时之间无法很好地适应。为此,研究者们也从各种角度和思路出发进行了很多探索。
从1994年R.Agrawal和Srikant提出Apriori算法以来,国内外对于关联规则的研究一直没有停歇,目前从挖掘模式的角度分析,主要有以下几种:
(1)宽度优先算法,也称为分层算法,包括由Agrawal等人提出的Apriori[1],AprioriTid[2]和AprioriHybrid[3],Park等人提出的DHP(Direct Hashing and Pruning)[4]算法等。但是分层算法的缺点是需要多次扫描数据库,然后需要生成大量的候选项集。
(2)深度优先算法,常见的有FP-Growth(Frequent Pattern-Growth)[5]算法,OP(Opportunistic Projection)[6]算法,TreeProjection[7]算法等。FP-growth是深度优先算法里面较为高效的算法:它采用了分治策略:两次扫描数据库,将提供频繁项集的事务集压缩到一棵频繁模式树里,该频繁模式树类似于前缀树,相同前缀的路径可以共用,从而达到压缩数据的目的,且不会产生庞大的候选项集,在时间和空间效率上都有明显的提高。但是它同样存在一些问题:在处理很大而且很稀疏的数据库时,无论是挖掘处理还是递归计算,都需要特别大的空间。
(3)数据集划分算法,包括Savasere等人提出的Partition[8]算法,Brin等人提出的DIC(Dynamic Itemset Counting)[9]算法等。Partition算法的好处是可以将整个数据库划分为几个相互独立的数据块,方便将不同的数据块放入内存进行处理。它单独考虑每个逻辑块生成的频繁项集,然后根据“频繁项集至少在一个分区中是频繁的”这一性质,把所有逻辑块生成的频繁项集合并到一起,形成全局候选项集。最后再次扫描数据库计算项集的支持度,进行全局计数。整个过程也只是需要扫描两次数据库,但是却会生成巨大的候选集。DIC算法也是利用将数据库进行划分的方法,将数据库划分为多个部分并在每个部分的开始做标记,便于在扫描数据库过程中在标记点添加候选项集,在计算项集时并行计算可能为频繁项集的支持度。但是,数据集划分算法的问题是执行时,同时产生的频繁项集的精度不高。不过由于其有较高的并行性,而且只需要两次扫描数据库,大大减少了I/O操作从而提高了算法效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;首都信息发展股份有限公司,未经北京邮电大学;首都信息发展股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710170549.9/2.html,转载请声明来源钻瓜专利网。