[发明专利]基于MapReduce的并行频繁项集挖掘方法有效
| 申请号: | 202010107067.0 | 申请日: | 2020-02-20 |
| 公开(公告)号: | CN111309786B | 公开(公告)日: | 2023-09-15 |
| 发明(设计)人: | 毛伊敏;张弛 | 申请(专利权)人: | 韶关学院 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06N5/025 |
| 代理公司: | 重庆天成卓越专利代理事务所(普通合伙) 50240 | 代理人: | 路宁 |
| 地址: | 512023 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 mapreduce 并行 频繁 挖掘 方法 | ||
本发明提出了一种基于MapReduce的并行频繁项集挖掘方法,包括以下步骤:S1:输入待挖掘的数据集,并对数据集进行划分分区和筛选,得到频繁1项集,对频繁1项集中各个项排列生成F‑list;S2:通过负载均衡策略LBSBDG对F‑list均匀分组;估算F‑list中每一项的负载量,并根据每一项的负载量进行均匀分组,生成分组列表G‑list;S3:启动频繁k项挖掘任务,并行挖掘待挖掘的数据集中所有的频繁项集。本发明采用DiffNodeset数据结构,能够有效避免算法中存在的N‑list基数过大的问题;通过双向比较策略T‑wcs加快2项集的生成效率,以降低算法的时间复杂度。
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种基于MapReduce的并行频繁项集挖掘方法。
背景技术
数据挖掘又被称为知识发现KDD(knowledge discover in database),其目的在于发现大量数据集中有用的信息。常见的数据挖掘任务有关联规则挖掘、分类、聚类等。其中关联规则挖掘是其重要分支之一,通过关联规则的研究能够准确的找出有用的规则,这些规则对于企业管理上的决策具有巨大帮助。因此在大数据环境下,设计高效的频繁项集挖掘方法成为当今互联网时代最重要的挑战之一,快速有效地挖掘频繁项集对于揭示大量数据之间有趣的关联或相关联系,深入理解消费者的消费习惯等方面具有十分重要的意义。
随着信息技术的高速发展,大数据环境下需要处理的数据高速增长传统的关联规则挖掘算法已经无法满足人们的需求,单纯的通过提升计算机硬件水平来满足人们对大数据分析与处理的需求显得尤为困难。因此,迫切需要有效的频繁项集挖掘算法来降低有用信息挖掘的成本,提高挖掘效率。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于MapReduce的并行频繁项集挖掘方法,加快计算速度,减少时间、空间复杂度。
为了实现本发明的上述目的,本发明提供了一种基于MapReduce的并行频繁项集挖掘方法,包括以下步骤:
S1:输入待挖掘的数据集,并对数据集进行划分分区和筛选,得到频繁1项集,对频繁1项集中各个项排列生成f-list;
S2:通过负载均衡策略LBSBDG对F-list均匀分组;估算F-list中每一项的负载量,并根据每一项的负载量进行均匀分组,生成分组列表G-list;
S3:启动频繁k项挖掘任务,并行挖掘待挖掘的数据集中所有的频繁项集。
上述方案中:步骤S1还包括以下步骤:
S1-1:使用Hadoop默认的文件块策略,将原始数据集划分成大小相同的文件块Block;
S1-2:将文件块Block作为Map阶段的输入数据,通过调用Map函数以键值对key=item,value=1的形式统计出相应接点上的文件块中各项出现的次数;
S1-3:通过调用Combine函数将本节点中key值相同的value相加;
S1-4:将每个节点新得到的键值对传送给Reduce函数,进行合并;
S1-5:筛选出支持度大于最小支持度阈值min_sup的项组成频繁1项集F1,根据频繁1项集中各个项的支持数降序排列生成全局F-list;
S1-6:将所得到的F-list保存到文件存储系统HDFS中。
上述方案中:步骤S2还包括以下步骤:
S2-1:通过估计函数E(item)计算F-list中每一项的负载量Load,并将每一项的负载量按照降序排序方法生成L-list;
函数E(item)具体的计算方式如下所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于韶关学院,未经韶关学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010107067.0/2.html,转载请声明来源钻瓜专利网。





