[发明专利]一种基于有效值存储及运算方式的关联规则挖掘方法有效
申请号: | 201910624715.7 | 申请日: | 2019-07-11 |
公开(公告)号: | CN110489411B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 任晓强;李梦男 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 250353 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 有效值 存储 运算 方式 关联 规则 挖掘 方法 | ||
本发明公开了一种基于有效值存储及运算方式的关联规则挖掘方法,属于数据挖掘领域,本发明要解决的技术问题为如何在事务数据库中空值较多的情况下,针对性的设计一种存储方式,以有效的节约存储,同时设计对应的挖掘算法,以保证在节约存储的同时,不造成算法效率的下降,采用的技术方案为:该方法步骤如下:S1、基于有效值的集合存储:设置存储集合,存储集合存储频繁单项所在事物的索引位置,即有效值1的位置值;S2、基于有效值存储结构的连接操作:对两个存储集合进行连接操作生成候选项集;具体步骤如下:S201、查找频繁单项集合;S202、对两个存储集合进行取交集得到存储两项集的新集合;S203、生产频繁项集。
技术领域
本发明涉及数据挖掘领域,具体地说是一种基于有效值存储及运算方式的关联规则挖掘方法。
背景技术
关联规则问题最早是由Agrawal等人在1993年提出,用于发现大数据集中数据之间有趣的关联。目前,关联规则挖掘在许多领域都有较为广泛的应用。例如,通过分析超市商品的交易数据,以引导消费者购物从而提高销量;通过用户的浏览内容和新闻内容进行分析,挖掘用户的新闻浏览模式和变化规律,为用户推荐可能感兴趣的新闻。利用有效的关联规则算法对数据进行分析,可以帮助决策者做出更好的决策,获得更好的收益。因此,许多学者都对关联规则算法做了深入的研究及改进。
Apriori算法是关联规则挖掘最经典的算法之一,主要的缺点在于需要产生大量的候选集,并且需要多次扫描数据库。黄瑞琼等人提出的基于遥感图像关联规则挖掘的MBSA(Map-based BitSet Association Rule)算法将数据集映射到位集合中,然后利用位集合的逻辑“与”操作来提高挖掘效率,且只扫描一次数据库,无需生成候选集。MBSA算法存在以下问题:存储大量数据集,位图中的“0”值会造成内存空间的浪费,频繁的解压缩过程,时间小效率相对不高。
由此可知,上述算法存在的如下问题:
(1)、频繁访问数据库,运行效率不高;
(2)、存储大量数据时,使用位图存储“0”值占用过多的内存空间,会造成存储空间的浪费;
(3)、连接操作时需进行频繁的解压缩过程。
发明内容
本发明的技术任务是提供一种基于有效值存储及运算方式的关联规则挖掘方法,来解决如何在事务数据库中空值较多的情况下,针对性的设计一种存储方式,以有效的节约存储,同时设计对应的挖掘算法,以保证在节约存储的同时,不造成算法效率的下降的问题。
本发明的技术任务是按以下方式实现的,一种基于有效值存储及运算方式的关联规则挖掘方法,该方法步骤如下:
S1、基于有效值的集合存储:设置存储集合,存储集合存储频繁单项所在事物的索引位置,即有效值1的位置值;
S2、基于有效值存储结构的连接操作:对两个存储集合进行连接操作生成候选项集。
作为优选,所述步骤S1中基于有效值的集合存储的具体步骤如下:
S101、扫描一遍事务数据库,对于事务集中的每一个频繁单项,设置一个存储集合;
S102、存储集合存储频繁单项在事务中出现的索引位置,即有效值1的位置值;将数据存储在存储集合中,在进行剪枝和连接操作时,直接对集合进行操作,避免了重复扫描数据库。
更优地,所述步骤S2中基于有效值存储结构的连接操作具体步骤如下:
S201、查找频繁单项集合:数据库生成的存储集合后,根据存储集合的支持度是否达到最小支持度找出频繁单项集合;
S202、对两个存储集合进行取交集得到存储两项集的新集合:对频繁单项集合执行连接操作,即对存储单项集的存储集合执行取交集操作,得到存储两项集的新集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910624715.7/2.html,转载请声明来源钻瓜专利网。