[发明专利]一种基于Spark框架的增量式频繁项集挖掘方法在审
申请号: | 201811551301.8 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109739897A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 何梦思;唐卓;李肯立;李克勤;付仲明;肖伟 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 频繁项集 增量式 有效解决 挖掘 并行 大规模数据 自适应算法 动态数据 能力不足 频繁模式 增量处理 时效性 数据量 自适应 | ||
本发明公开了一种基于Spark框架的增量式频繁项集挖掘方法,首先实现一种基于Spark的自适应并行Apriori算法,使用自适应算法来寻找具有更高精度和效率的频繁模式,可以有效解决传统Apriori算法在面对大规模数据时处理能力不足的问题。接着,在并行Apriori算法的基础上实现增量式Apriori算法,能够增量处理动态数据集,大幅减少参与计算的数据量,有效解决Apriori频繁项集挖掘方法的时效性问题。
技术领域
本发明涉及一种基于Spark框架的增量式频繁项集挖掘方法。
背景技术
在大数据时代,数据不再是社会产生的“副产物”,而是可以被二次乃至多次加工的原材料,从中可以探索更大的价值,将其变成生产资料。挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀有但珍贵的信息是大数据的一个典型特征。目前,各行各业都在利用数据产生的商业价值改变着我们的生活。因此,如何快速准确地从海量数据中获取所需要的信息成为新的研究问题。
数据挖掘即是一种专门研究如何快速高效的从海量数据中发现知识的新兴技术,而频繁项集挖掘是数据挖掘最受关注的领域之一。随着数据集的大小增加,频繁项级算法的效率大大小下降。因此,处理大型数据集,需要引入并行算法来提高算法的处理效率。另外频繁项集挖掘的时效性在处理动态变化的数据集时也尤为重要。随着应用的不断丰富,数据利用的目的更加多元化,频繁项集挖掘Apriori算法需要处理的数据不再是静态不变的,而是动态的、不断更新的数据集,如天猫超市的购物记录,银行的交易记录等。每当数据发生改变时,若仍然采用传统的Apriori算法反复地处理全量数据集,则每次处理都将会导致大量的运算资源浪费和性能损失。因此,在面对大规模动态数据集时,如何提高Apriori算法的性能成为本课题的重点研究问题。
大数据处理涉及的关键技术有海量数据存储与实时处理。在Hadoop的体系结构中,Mapreduce作为并行编程模型已经成为用于海量数据处理的强大工具。但Hadoop的中间数据不能缓存在内存中,使得对于重复使用的数据集需要频繁I/O,因此对于高迭代计算效率较低。很多机器学习算法比如K-means聚类算法和逻辑回归算法都需要对数据进行迭代计算,针对Mapreduce中出现的各种不足,伯克利大学推出了全新的统一大数据处理框架ApacheSpark,它创新性的提出了RDD概念(一种新的抽象的弹性数据集)。Spark允许将数据缓存在内存中,并应用于多次迭代计算,因此,Spark更适合迭代运算较多的机器学习或数据挖掘算法。
发明内容
本发明提出了一种基于Spark框架的增量式频繁项集挖掘方法,首先实现一种基于Spark的自适应并行Apriori算法,使用自适应算法来寻找具有更高精度和效率的频繁模式,在每次迭代之前制定执行计划,采用最合适的计划来最小化时间和空间复杂性。接着,在并行Apriori算法的基础上,提出一种增量式Apriori算法,利用已有的计算结果,根据新增加的数据对频繁项集进行修改,避免了反复地处理全量数据集。
相关定义:
(1)项目集(项集)
一个项集由多个互不相同的项目(项)组成。项集用t表示,可记作t={i1,i2….,ik},其中ix(x为[1,k]之间的整数])为出现在项集t中的一个项。在t={i1,i2….,ik}中,共有k个项,即|t|=k,因此又称这个t为k元项集。
(2)事务(交易记录)
一个与项集相似的概念,交易记录是一个项集,因此可表示为t={i1,i2….,ik}。交易记录又区别于项集,交易记录是输入数据中实际出现的数据,而项集是多个项目之间任意的数学组合,与是否出现在输入数据中无关。
(3)输入数据集
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811551301.8/2.html,转载请声明来源钻瓜专利网。