[发明专利]一种基于Top-K频繁项集的挖掘算法在审
申请号: | 201910564994.2 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110287240A | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 朱波;邹建军;杨培强 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 频繁项集 挖掘算法 支持度 遍历 测试数据集 数组 数据库操作 最小支持度 策略生成 数量变量 系统支持 循环遍历 表形式 初始化 数据项 求解 链表 双链 存储 抛弃 干预 分析 | ||
本发明特别涉及一种基于Top‑K频繁项集的挖掘算法。该基于Top‑K频繁项集的挖掘算法,建立测试数据集T,项集I和最频繁项集数量变量N;循环遍历求解测试数据集T中每个数据项Ti的支持度TID集和支持度;初始化itemsList数组和border_sup;通过对数组itemsList的后续遍历将支持度TID集进行遍历赋值;如果支持度TID的绝对值大于系统支持的边界值,则利用AddItems函数得到项集L,利用函数InsertList将下标为t的元素插入到数组itemsList中,以静态双链表形式存储当前N个最频繁项集,实现频繁项集的分析。该基于Top‑K频繁项集的挖掘算法,基于贪心策略生成的频繁链表,抛弃了人工对于最小支持度的干预,只需一次遍历数据库操作,具有较强的可行性和时间及空间的优越性。
技术领域
本发明涉及数据仓库与数据挖掘技术领域,特别涉及一种基于Top-K频繁项集的挖掘算法。
背景技术
科学技术的发展及网络技术的提高使得人们能够提取的数据信息越来越多,如何从这些数据中挖掘出对社会有用的信息成为了急需要解决的问题。现如今,数据挖掘和仓库技术为运个难题提供了有效的解决办法,也因此数据仓库技术和数据挖掘技术成为各个领域争先研究的方向。
关联规则(Association Rule)是数据挖掘的重要组成部分,它被应用于发现数据库中的不同数据之间关联关系的重要工具。发现的这些数据可成为商业决策的一种依据,因为这些规则反应的是顾客购物的行为数据集。也正因为这一大因素,使得关联规则成为数据挖掘中最重要的、成熟的研究内容,而频繁项集的挖掘同时又是关联规则挖掘的核心步骤,所以频繁项集的挖掘被赋予了重要的意义。
1、在进行挖掘的时候,会产生大量的不需要的待选的频繁项集,而需要把这些频繁项集存储到内存中,这样会占用和耗费大量的空间和时间,一种基于Top-K频繁项集的NFIMG挖掘算法可以避免处理支持度较小的候选频繁项集,从而减少耗费较多的存储空间和运行时间。
2、传统挖掘算法在挖掘的时候每挖掘一次项集都需要对数据库进行一次扫描,然后通过项集的匹配来找到一个候选集合,这样的挖掘方法也会使得时间复杂度大大提高,一种基于Top-K频繁项集的NFIMG挖掘算法只需一次遍历数据库操作,大大减少了数据挖掘的时间复杂度。
基于上述情况,本发明提出了一种基于Top-K频繁项集的挖掘算法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于Top-K频繁项集的挖掘算法。
本发明是通过如下技术方案实现的:
一种基于Top-K频繁项集的挖掘算法,其特征在于,包括以下步骤:
(1)建立测试数据集T,项集I和最频繁项集数量变量N;
(2)扫描数据集T,求解测试数据集T中每个数据项Ti的支持度TID集和支持度,求解时采用循环遍历;
(3)初始化itemsList数组和当前的边界支持度border_sup;
(4)利用链表的后向指针next循环遍历构造数组itemsList;
(5)通过对数组itemsList的后续遍历,将支持度TID集进行遍历赋值,并对边界度值进行判定;
(6)如果初始化边界值与支持度TID集不存在包含关系,则输出提示信息,并跳出遍历循环,进程结束;否则,则将支持度TID的绝对值与系统支持的边界值进行对比;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910564994.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种跟踪对账方法
- 下一篇:一种生成告警数据报表的方法及装置