[发明专利]一种频繁项集的挖掘方法、装置及系统在审
申请号: | 201610200506.6 | 申请日: | 2016-03-31 |
公开(公告)号: | CN107291734A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 胡辉;谢黎文;杨军;刘义 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司11315 | 代理人: | 黄熊 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 频繁 挖掘 方法 装置 系统 | ||
1.一种频繁项集的挖掘方法,其特征在于,包括:
主节点在接收到客户端指派的针对总数据的频繁项集挖掘任务后,按照预定的数据分割规则对所述总数据进行数据分割得到各子数据;
所述主节点将各子数据分配给至少两个用于并行执行频繁项集挖掘任务的第一阶段任务的从属节点;所述第一阶段任务具体包括:所述从属节点根据预设的最小支持度阈值,利用频繁项集挖掘算法对被分配的子数据进行频繁项集挖掘,得到所述子数据的频繁项集;
所述主节点将所述子数据的频繁项集分配至用于并行执行频繁项集挖掘任务的第二阶段任务的各从属节点;所述第二阶段任务,包括:用于执行第二阶段任务的各从属节点根据预设的最小支持度阈值和所述子数据的频繁项集,获取所述总数据的频繁项集。
2.如权利要求1所述方法,其特征在于,根据预设的最小支持度阈值和所述子数据的频繁项集,获取所述总数据的频繁项集,包括:
计算各子数据的频繁项集在所述总数据中的支持度;
将在所述总数据中的支持度不小于所述预设的最小支持度阈值的子数据的频繁项集,作为所述总数据的频繁项集。
3.如权利要求1所述方法,其特征在于,根据预设的最小支持度阈值和所述子数据的频繁项集,获取所述总数据的频繁项集,包括:
根据所述最小支持度阈值和事务数据集中事务的数量,得到最小支持度计数阈值;所述事务数据集为所述总数据中包含的事务构成的集合;
利用映射归约算法计算各子数据的频繁项集在所述总数据中的支持度计数;
将在所述总数据中的支持度计数不小于所述预设的最小支持度计数阈值的子数据的频繁项集,作为所述总数据的频繁项集。
4.如权利要求1所述方法,其特征在于,根据预设的最小支持度阈值, 利用频繁项集挖掘算法对从属节点被分配的子数据进行频繁项集挖掘,包括:
根据预设的最小支持度阈值,利用基于映射归约算法的频繁项集挖掘算法对从属节点被分配的子数据进行频繁项集挖掘。
5.如权利要求1所述方法,其特征在于,所述频繁项集挖掘算法包括下述至少一种:
先验频繁项集挖掘算法;
频繁模式树算法。
6.如权利要求1所述方法,其特征在于,所述方法还包括:
在接收到客户端指派的针对所述总数据的关联规则挖掘任务后,将所述关联规则挖掘任务分配至用于执行关联规则挖掘任务的各从属节点,以使得所述用于执行关联规则挖掘任务的各从属节点并行执行所述关联规则挖掘任务;
所述关联规则挖掘任务,包括:在获取所述总数据的频繁项集后,根据预设的最小置信度阈值和所述总数据的频繁项集,获得所述总数据的关联规则。
7.如权利要求5所述方法,其特征在于,根据预设的最小置信度阈值和所述总数据的频繁项集,获得所述总数据中的关联规则,包括:
获取所述总数据的频繁项集中的频繁k-项集;
根据所述频繁k-项集得到待定关联规则;
计算所述待定关联规则的置信度;
将置信度不小于所述预设的最小置信度阈值的所述待定关联规则,作为所述总数据中的关联规则。
8.一种频繁项集的挖掘装置,其特征在于,包括:
从属节点确定单元,用于在接收到客户端指派的针对总数据的频繁项集挖掘任务后,按照预定的数据分割规则对所述总数据进行数据分割得到各子数据;
子数据的频繁项集获取单元,用于将各子数据分配给至少两个用于并行执行频繁项集挖掘任务的第一阶段任务的从属节点;所述第一阶段任务具体包 括:所述从属节点根据预设的最小支持度阈值,利用频繁项集挖掘算法对被分配的子数据进行频繁项集挖掘,得到所述子数据的频繁项集;
总频繁项集获取单元,用于将所述子数据的频繁项集分配至用于并行执行频繁项集挖掘任务的第二阶段任务的各从属节点;所述第二阶段任务,包括:用于执行第二阶段任务的各从属节点根据预设的最小支持度阈值和所述子数据的频繁项集,获取所述总数据的频繁项集。
9.如权利要求8所述装置,其特征在于,所述频繁项集挖掘算法包括下述至少一种:
先验频繁项集挖掘算法;
频繁模式树算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610200506.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种规则匹配方法及装置
- 下一篇:一种编辑页面的方法和系统