[发明专利]基于MapReduce的并行频繁项集挖掘方法有效

申请号：	202010107067.0	申请日：	2020-02-20
公开（公告）号：	CN111309786B	公开（公告）日：	2023-09-15
发明（设计）人：	毛伊敏;张弛	申请（专利权）人：	韶关学院
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06N5/025
代理公司：	重庆天成卓越专利代理事务所(普通合伙) 50240	代理人：	路宁
地址：	512023 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 mapreduce 并行频繁挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种基于MapReduce的并行频繁项集挖掘方法，包括以下步骤：S1：输入待挖掘的数据集，并对数据集进行划分分区和筛选，得到频繁1项集，对频繁1项集中各个项排列生成F‑list；S2：通过负载均衡策略LBSBDG对F‑list均匀分组；估算F‑list中每一项的负载量，并根据每一项的负载量进行均匀分组，生成分组列表G‑list；S3：启动频繁k项挖掘任务，并行挖掘待挖掘的数据集中所有的频繁项集。本发明采用DiffNodeset数据结构，能够有效避免算法中存在的N‑list基数过大的问题；通过双向比较策略T‑wcs加快2项集的生成效率，以降低算法的时间复杂度。

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种基于MapReduce的并行频繁项集挖掘方法。

背景技术

数据挖掘又被称为知识发现KDD(knowledge discover in database)，其目的在于发现大量数据集中有用的信息。常见的数据挖掘任务有关联规则挖掘、分类、聚类等。其中关联规则挖掘是其重要分支之一，通过关联规则的研究能够准确的找出有用的规则，这些规则对于企业管理上的决策具有巨大帮助。因此在大数据环境下，设计高效的频繁项集挖掘方法成为当今互联网时代最重要的挑战之一，快速有效地挖掘频繁项集对于揭示大量数据之间有趣的关联或相关联系，深入理解消费者的消费习惯等方面具有十分重要的意义。

随着信息技术的高速发展，大数据环境下需要处理的数据高速增长传统的关联规则挖掘算法已经无法满足人们的需求，单纯的通过提升计算机硬件水平来满足人们对大数据分析与处理的需求显得尤为困难。因此，迫切需要有效的频繁项集挖掘算法来降低有用信息挖掘的成本，提高挖掘效率。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于MapReduce的并行频繁项集挖掘方法，加快计算速度，减少时间、空间复杂度。

为了实现本发明的上述目的，本发明提供了一种基于MapReduce的并行频繁项集挖掘方法，包括以下步骤：

S1：输入待挖掘的数据集，并对数据集进行划分分区和筛选，得到频繁1项集，对频繁1项集中各个项排列生成f-list；

S2：通过负载均衡策略LBSBDG对F-list均匀分组；估算F-list中每一项的负载量，并根据每一项的负载量进行均匀分组，生成分组列表G-list；

S3：启动频繁k项挖掘任务，并行挖掘待挖掘的数据集中所有的频繁项集。

上述方案中：步骤S1还包括以下步骤：

S1-1：使用Hadoop默认的文件块策略，将原始数据集划分成大小相同的文件块Block；

S1-2：将文件块Block作为Map阶段的输入数据，通过调用Map函数以键值对key＝item，value＝1的形式统计出相应接点上的文件块中各项出现的次数；

S1-3：通过调用Combine函数将本节点中key值相同的value相加；

S1-4：将每个节点新得到的键值对传送给Reduce函数，进行合并；