[发明专利]FP-Growth优化算法、存储介质及电子装置在审
申请号: | 202010856878.0 | 申请日: | 2020-08-24 |
公开(公告)号: | CN112084012A | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 汪月;刘建辉;乔智;李亚飞;孙军锋 | 申请(专利权)人: | 北京明略昭辉科技有限公司 |
主分类号: | G06F9/46 | 分类号: | G06F9/46;G06F16/182 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 李祺 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | fp growth 优化 算法 存储 介质 电子 装置 | ||
本发明公开了一种基于Spark平台的FP‑Growth优化算法、存储介质及电子装置,FP‑Growth优化算法包括:步骤S1:将事物集转换成弹性数据集,利用所述弹性数据集的键值对操作事务构成键值对;步骤S2:在键值对集合上进行操作构成频繁项集;步骤S3:通过优化分组的策略对频繁项集进行S行分组形成列表组;步骤S4:将列表组中的事务分布到各节点,再在各节点利用优化的项头表结构并行挖掘生成频繁模式序列;步骤S5:将频繁模式序列转换格式合并后写入到分布式文件系统,逐层生成频繁模式序列时,逐层生成强关联规则。本发明有效降低查找时间复杂度,提高并行运算加速比,具有更高的效率。
技术领域
本发明涉及一种FP-Growth优化算法、存储介质及电子装置,具体地说, 尤其涉及一种基于Spark平台的FP-Growth优化算法、存储介质及电子装置。
背景技术
随着互联网的飞速发展,在海量数据产生的今天,传统单机的关联规 则挖掘算法在挖掘步骤上耗时多,甚至无法进行关联规则的挖掘。为解决 这一问题,将优化的关联算法在Spark并行平台上进行海量数据挖掘,提取 出有规律有意义的数据信息,能进一步有效提高大数据时代海量数据分析 的效率。
Apriori算法产生大量数据集,造成算法运行效率低下,而现有的 FP-Growth算法不用反复读取事务集,且不会生成大量的候选项集,既节 省了内存资源又提高了读写效率,适合大数据量的数据挖掘。FP-Growth算 法整个工作过程只进行两次扫描事务集:进行第一次事务集扫描后,利用 支持度次数递减的规则将事务集排序,找出支持度最高的项即频繁1-项集, 将第一次排序的末次项删除;再进行第二次扫描,过滤后将事务插入构建 的FP-Tree中;再从FP-Tree中挖掘频繁项集后按条件迭代生成条件 FPTree,直到FP-Tree中只有一个结点时结束,将挖掘出的频繁项集合得 到频繁项集。在生成上述频繁项集的同时,按A-B=B的置信度大于最小 置信度的原则,生成强关联规则。
虽然FP-Growth算法在时间、空间复杂度和数据挖掘的效率上都有明 显改善,对于数据量较小的数据挖掘,FP-Growth改进算法具有一定优势, 但随着数据量呈指数级增长时,这种串行的操作机制会出现问题:
1.FP-Growth算法面对海量数据挖掘时串行操作机制出现内存瓶颈;
2.FP-Growth算法面对海量数据挖掘时串行操作机制出现数据挖掘失 效。
因此亟需开发一种克服上述缺陷的基于Spark平台的FP-Growth优化算 法、存储介质及电子装置。
发明内容
针对上述问题,本发明提供一种FP-Growth优化算法,其中,包括:
步骤S1:将事物集转换成弹性数据集,利用所述弹性数据集的键值对 操作事务构成键值对;
步骤S2:在键值对集合上进行操作构成频繁项集;
步骤S3:通过优化分组的策略对频繁项集进行S行分组形成列表组;
步骤S4:将列表组中的事务分布到各节点,再在各节点利用优化的项 头表结构并行挖掘生成频繁模式序列;
步骤S5:将频繁模式序列转换格式合并后写入到分布式文件系统,逐 层生成频繁模式序列时,逐层生成强关联规则。
上述的FP-Growth优化算法,其中,所述步骤S1中包括:
步骤S11:将事物集转换成弹性数据集,
步骤S12:在弹性数据集上对事务进行map和reduceByKey操作,构 成TransTransactions,times键值对,其中Transactions事务,times是事 务出现的次数。
上述的FP-Growth优化算法,其中,所述步骤S2包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010856878.0/2.html,转载请声明来源钻瓜专利网。