[发明专利]一种基于滑动窗口的频繁项集并行增量挖掘的方法在审
申请号: | 202210077060.8 | 申请日: | 2022-05-11 |
公开(公告)号: | CN114691749A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 马汉达;方伟 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/182 |
代理公司: | 成都智涌知识产权代理事务所(普通合伙) 51313 | 代理人: | 魏振柯 |
地址: | 210000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 滑动 窗口 频繁 并行 增量 挖掘 方法 | ||
本发明属于数据处理分析领域,具体涉及一种基于滑动窗口的频繁项集并行增量挖掘的方法,针对现有并行增量挖掘方法在大数据环境下运行效率低的问题。本发明的主要实现步骤为:数据集获取与预处理;数据集划分为多块增量数据集;挖掘单批次数据集的频繁项集和准频繁项集;若当前窗口中存在前批次数据集,则将当前批次数据集的挖掘结果与前批次的挖掘结果合并更新;否则,进入持久化当前窗口中增量更新后的频繁项集和准频繁项集并输出频繁项集;如此,继续输入增量数据集,循环上述增量挖掘步骤。本发明通过引入滑动窗口等技术,加快了判定是否为频繁项集的速度,结合Spark并行计算和Hadoop分布式存储,使得该发明具有良好的挖掘效率。
技术领域
本发明属于数据处理分析领域,尤其涉及一种基于滑动窗口的频繁项集并行增量挖掘的方法。
背景技术
关联规则是数据挖掘的一个重要研究领域,旨在发现数据集中频繁模式。关联规则挖掘已广泛应用在购物推荐、网站点击分析、电子商务、金融和医疗诊断等领域。静态关联规则挖掘是在固定数据集和支持度下发现频繁项集。而多数时候支持度和数据集是会发生变化的,增量关联规则挖掘便是在数据集增加下的频繁模式挖掘,频繁项集的增量挖掘则是关联规则增量挖掘的主要部分。在面对大规模的数据集时,往往将其一次读入内存挖掘的方式不再可取,这需要足够大的内存空间和巨大的I/O开销,可扩展性不高,性能低下。
这时就出现了分批次的读入内存,进行增量挖掘频繁项集,但该方式在对增量更新后的候选项集的重新统计上,会严重依赖历史数据集,随着历史数据集不断增量输入,扫描整个增量后的数据集的任务将变得异常繁重;也有通过Hadoop和Spark的分布式计算框架来加速整个增量挖掘的方法;另外,在增量更新频繁项集时,若按照传统的以项集支持度计数来作为模式树的构建,则其挖掘出的频繁项集中的项排序是按支持度计数大小排序的,这对于同一个频繁项集的各项支持度变化后,其内部排序是非保序的,会导致频繁项集更新时增量项集和历史项集的匹配变得困难。
发明内容
本发明对现有技术的不足,提出一种基于滑动窗口的频繁项集并行增量挖掘的方法,在优化结构减少数据扫描工作的同时,结合并行化计算框架进一步提高在处理大规模增量数据时的效率。
本发明的技术方案如下:
一种基于滑动窗口的频繁项集并行增量挖掘的方法,具体包含如下步骤:
步骤1,获取数据集;
步骤2,对获取的数据集进行数据预处理;
步骤3,将数据集划分为n份增量数据集DBk;
步骤4,对划分出的数据集DBk按批次输入滑动窗口进行增量挖掘;
步骤5,挖掘当前单批次数据集DBk的频繁项集和准频繁项集;
步骤6,将当前批次数据集DBk作为前序批次DB1…k-1数据集的增量,合并滑动窗口中当前批次和前序批次数据集挖掘出的频繁项集和准频繁项集;
步骤7,获取更新后当前滑动窗口中的全部频繁项集。
作为本发明一种基于滑动窗口的频繁项集并行增量挖掘的方法的进一步优选方案,在步骤2中,数据预处理包括对事务数据集中事务项的数值化处理,剔除脏数据。
作为本发明一种基于滑动窗口的频繁项集并行增量挖掘的方法的进一步优选方案,在步骤3中,数据集划分方式为按数据集事务总条数等分为n份,每份数据集记为DBk,k∈[1,n];由于每份数据集事务记录条数相等,每条事务记录的事务项数目不同,因此最终每份数据集DBk的大小不绝对相等。
作为本发明一种基于滑动窗口的频繁项集并行增量挖掘的方法的进一步优选方案,在步骤4中,有如下定义:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210077060.8/2.html,转载请声明来源钻瓜专利网。