[发明专利]用于事务集合的关联规则计算方法在审
申请号: | 201410845489.2 | 申请日: | 2014-12-31 |
公开(公告)号: | CN105589908A | 公开(公告)日: | 2016-05-18 |
发明(设计)人: | 王骏;杨鸿超 | 申请(专利权)人: | 中国银联股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 俞华梁;汤春龙 |
地址: | 200135 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 事务 集合 关联 规则 计算方法 | ||
1.一种用于事务集合的关联规则计算方法,其中,所述事务集合包括多条事务,每一所述事务包括多个特征项,所述方法包括如下步骤:
a)、遍历所述事务集合中各所述事务,以所述特征项生成频繁1项集,按各所述特征项出现的频次对所述频繁1项集进行排序;
b)、对所述频繁1项集进行哈希映射,以生成第二项集;
c)、以所述第二项集生成差值矩阵;其中,所述差值矩阵指示所述第一项集中各所述特征项之间的排序先后关系;
d)、针对所述事务集合中每一所述事务,按所述排序先后关系分别对该事务的所述特征项进行排序,以生成第二事务集;
e)、将所述第二事务集划分为多个数据集,并对每个所述数据集执行FP-tree生成算法,以生成与所述多个数据集一一对应的FP-tree子树;
f)、基于不同所述FP-tree子树中元素之间的对应关系,挖掘所述关联规则。
2.根据权利要求1所述的方法,其特征在于,所述步骤a)中还包括:
从所述频繁1项集中删除支持度低于支持度阈值的所述特征项。
3.根据权利要求1所述的方法,其特征在于,所述步骤b)中具体包括:
使用线性探测再散列的方法进行所述哈希映射。
4.根据权利要求1所述的方法,其特征在于,所述步骤c)还包括:在生成所述差值矩阵后,对所述差值矩阵进行压缩;其中,所述差值矩阵为反对称矩阵。
5.根据权利要求1所述的方法,其特征在于,所述步骤d)中进行的排序为降序排序。
6.根据权利要求1所述的方法,其特征在于,所述步骤f)具体包括:
f1)、遍历各所述FP-tree子树,若两个不同所述FP-tree子树的子项头表中存在相同的元素,则在该两个不同所述FP-tree子树的子项头表之间建立索引指向;
f2)、重复所述步骤f1),直到遍历完成所有所述FP-tree子树。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法在分布式系统上实现。
8.根据权利要求7所述的方法,其特征在于,所述分布式系统为Hadoop分布式系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410845489.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息推荐方法、装置及系统
- 下一篇:路灯位置信息采集存储及查询方法和系统