[发明专利]FP-Growth优化算法、存储介质及电子装置在审

专利信息
申请号: 202010856878.0 申请日: 2020-08-24
公开(公告)号: CN112084012A 公开(公告)日: 2020-12-15
发明(设计)人: 汪月;刘建辉;乔智;李亚飞;孙军锋 申请(专利权)人: 北京明略昭辉科技有限公司
主分类号: G06F9/46 分类号: G06F9/46;G06F16/182
代理公司: 青岛清泰联信知识产权代理有限公司 37256 代理人: 李祺
地址: 100089 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: fp growth 优化 算法 存储 介质 电子 装置
【说明书】:

发明公开了一种基于Spark平台的FP‑Growth优化算法、存储介质及电子装置,FP‑Growth优化算法包括:步骤S1:将事物集转换成弹性数据集,利用所述弹性数据集的键值对操作事务构成键值对;步骤S2:在键值对集合上进行操作构成频繁项集;步骤S3:通过优化分组的策略对频繁项集进行S行分组形成列表组;步骤S4:将列表组中的事务分布到各节点,再在各节点利用优化的项头表结构并行挖掘生成频繁模式序列;步骤S5:将频繁模式序列转换格式合并后写入到分布式文件系统,逐层生成频繁模式序列时,逐层生成强关联规则。本发明有效降低查找时间复杂度,提高并行运算加速比,具有更高的效率。

技术领域

本发明涉及一种FP-Growth优化算法、存储介质及电子装置,具体地说, 尤其涉及一种基于Spark平台的FP-Growth优化算法、存储介质及电子装置。

背景技术

随着互联网的飞速发展,在海量数据产生的今天,传统单机的关联规 则挖掘算法在挖掘步骤上耗时多,甚至无法进行关联规则的挖掘。为解决 这一问题,将优化的关联算法在Spark并行平台上进行海量数据挖掘,提取 出有规律有意义的数据信息,能进一步有效提高大数据时代海量数据分析 的效率。

Apriori算法产生大量数据集,造成算法运行效率低下,而现有的 FP-Growth算法不用反复读取事务集,且不会生成大量的候选项集,既节 省了内存资源又提高了读写效率,适合大数据量的数据挖掘。FP-Growth算 法整个工作过程只进行两次扫描事务集:进行第一次事务集扫描后,利用 支持度次数递减的规则将事务集排序,找出支持度最高的项即频繁1-项集, 将第一次排序的末次项删除;再进行第二次扫描,过滤后将事务插入构建 的FP-Tree中;再从FP-Tree中挖掘频繁项集后按条件迭代生成条件 FPTree,直到FP-Tree中只有一个结点时结束,将挖掘出的频繁项集合得 到频繁项集。在生成上述频繁项集的同时,按A-B=B的置信度大于最小 置信度的原则,生成强关联规则。

虽然FP-Growth算法在时间、空间复杂度和数据挖掘的效率上都有明 显改善,对于数据量较小的数据挖掘,FP-Growth改进算法具有一定优势, 但随着数据量呈指数级增长时,这种串行的操作机制会出现问题:

1.FP-Growth算法面对海量数据挖掘时串行操作机制出现内存瓶颈;

2.FP-Growth算法面对海量数据挖掘时串行操作机制出现数据挖掘失 效。

因此亟需开发一种克服上述缺陷的基于Spark平台的FP-Growth优化算 法、存储介质及电子装置。

发明内容

针对上述问题,本发明提供一种FP-Growth优化算法,其中,包括:

步骤S1:将事物集转换成弹性数据集,利用所述弹性数据集的键值对 操作事务构成键值对;

步骤S2:在键值对集合上进行操作构成频繁项集;

步骤S3:通过优化分组的策略对频繁项集进行S行分组形成列表组;

步骤S4:将列表组中的事务分布到各节点,再在各节点利用优化的项 头表结构并行挖掘生成频繁模式序列;

步骤S5:将频繁模式序列转换格式合并后写入到分布式文件系统,逐 层生成频繁模式序列时,逐层生成强关联规则。

上述的FP-Growth优化算法,其中,所述步骤S1中包括:

步骤S11:将事物集转换成弹性数据集,

步骤S12:在弹性数据集上对事务进行map和reduceByKey操作,构 成TransTransactions,times键值对,其中Transactions事务,times是事 务出现的次数。

上述的FP-Growth优化算法,其中,所述步骤S2包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010856878.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top