[发明专利]用于事务集合的关联规则计算方法在审
申请号: | 201410845489.2 | 申请日: | 2014-12-31 |
公开(公告)号: | CN105589908A | 公开(公告)日: | 2016-05-18 |
发明(设计)人: | 王骏;杨鸿超 | 申请(专利权)人: | 中国银联股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 俞华梁;汤春龙 |
地址: | 200135 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 事务 集合 关联 规则 计算方法 | ||
技术领域
本发明涉及数据挖掘技术领域,更具体地说,涉及一种用于事务集合的关联规则计算方法。
背景技术
对海量数据进行关联规则计算,通常会使用FP-growth算法,但如果事务集合中元素数量巨大,在计算过程中会碰到以下困难:
一、在生成频繁模式树(FrequentPatterntree,简称FP-tree)之前,中间过程数据(即频繁1-项集)过大而无法加载到任何一个计算节点上,导致各节点不能利用频繁-1项集的计算结果,以致后续计算无法继续进行;二、同样因数据量过大,理论上最终生成的FP-tree同样需要巨大的内存空间,这也是单个计算节点的内存无法满足的,导致结果无法输出。因此,本领域技术人员期望获得一种能够克服上述缺陷的用于事务集合的关联规则计算方法。
发明内容
本发明的目的在于提供一种适于对海量数据进行关联规则计算的方法。
为实现上述目的,本发明提供一种技术方案如下:
一种用于事务集合的关联规则计算方法,其中,事务集合包括多条事务,每一事务包括多个特征项,该方法包括如下步骤:a)、遍历事务集合中各事务,以特征项生成频繁1项集,按各特征项出现的频次对频繁1项集进行排序;b)、对频繁1项集进行哈希映射,以生成第二项集;c)、以第二项集生成差值矩阵;其中,差值矩阵指示第一项集中各特征项之间的排序先后关系;d)、针对事务集合中每一事务,按排序先后关系分别对该事务的特征项进行排序,以生成第二事务集;e)、将第二事务集划分为多个数据集,并对每个数据集执行FP-tree生成算法,以生成与多个数据集一一对应的FP-tree子树;f)、基于不同FP-tree子树中元素之间的对应关系,挖掘关联规则。
优选地,步骤a)中还包括:从频繁1项集中删除支持度低于支持度阈值的特征项。
优选地,步骤c)还包括:在生成差值矩阵后,对差值矩阵进行压缩;其中,差值矩阵为反对称矩阵。
优选地,步骤f)具体包括:f1)、遍历各FP-tree子树,若两个不同FP-tree子树的子项头表中存在相同的元素,则在该两个不同FP-tree子树的子项头表之间建立索引指向;f2)、重复步骤f1),直到遍历完成所有FP-tree子树。
优选地,该方法在分布式系统上实现。
本发明提供的用于事务集合的关联规则计算方法,适于对海量数据进行关联规则计算。其利用哈希变换和差值矩阵,并对矩阵进行压缩,使得特征项之间的排序关系可加载到各计算节点上,有效解决了因频繁项集过大而导致计算节点无法加载的问题;同时,上述方法以原始事务集构建了多个FP-tree子树,有效克服了因FP-tree过大导致单个计算节点内存不足的缺陷。此外,本发明借助差值矩阵对事务集进行排序,以及在分布式系统上实现,还显著提升了数据挖掘的速度;执行该计算方法的分布式系统运行稳定、效率明显提高。
附图说明
图1示出本发明一实施例提供的用于事务集合的关联规则计算方法的流程示意图。
图2示出根据本发明一实施例的FP-tree子树的项头表索引。
具体实施方式
需要说明的是,根据本发明各实施例,事务集合包括多条事务,每一事务包括多个特征项。不同事务间可能具有相同的特征项,也可能具有互不相同的特征项。
本文所指的“事务集合”包括但不限于银行卡交易记录数据库,其中包含多条交易记录(其对应于“事务”),每一交易记录包含多个交易特征(其对应于“特征项”)。
如图1所示,本发明一实施例提供一种用于事务集合的关联规则计算方法,其包括如下步骤:
步骤S10、遍历事务集合中各事务,以特征项生成频繁1项集,按各特征项出现的频次对频繁1项集进行排序。
具体地,频繁1项集以本文所指的“特征项”为其元素。频繁1项集中每一特征项(即其元素)对应的值是该特征项在事务集合中各事务中总计出现的频次。在生成初始的频繁1项集之后,依据特征项出现的频次对频繁1项集进行降序排序。
进一步地,在上述降序排序之后,从频繁1项集中删除支持度低于支持度阈值的特征项,使频繁1项集中元素数量减少,以加快后续算法步骤的执行效率。其中,支持度阈值可由用户根据提取关联规则的实际需求确定。
步骤S11、对频繁1项集进行哈希映射,以生成第二项集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410845489.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息推荐方法、装置及系统
- 下一篇:路灯位置信息采集存储及查询方法和系统