[发明专利]一种频繁项集的挖掘方法、装置及系统在审
申请号: | 201610200506.6 | 申请日: | 2016-03-31 |
公开(公告)号: | CN107291734A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 胡辉;谢黎文;杨军;刘义 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司11315 | 代理人: | 黄熊 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 频繁 挖掘 方法 装置 系统 | ||
技术领域
本申请涉及大数据领域,尤其涉及一种频繁项集的挖掘方法、装置及系统。
背景技术
随着互联网技术的发展,互联网中产生的数据可能蕴含着大量的价值。随着网络中产生的数据越来越多,如何快速有效地挖掘互联网中产生的数据的价值,是大数据时代面临的一大问题。
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。目前,对数据中的关联规则的挖掘,是数据挖掘领域中广泛应用的数据挖掘方法。其中,所述关联规则,指数据中的不同项之间存在有价值的关联关系。如果某条关联规则满足预设的最小支持度阈值和最小置性度阈值,则认为该关联规则是有价值的,上述阈值可以根据挖掘要求人为设定。
对于大数据中的数据,数据中的不同项的唯一标识特征值构成的集合可以表示为I={i1,i2,...,im},所述项的唯一标识特征值指用于在项集中唯一标识项的特征的值。比如,对于名称互不相同的商品,则可以以商品的名称作为项的唯一标识特征值,或者,也可以给不同的商品分配不同的编号,则可以用商品的编号作为项的唯一标识特征值。本申请实施例中所述的集合和事务数据集中均可用项的唯一标识特征值来表示不同的项。事务Ti由至少一个项组成,即事务Ti为I的非空子集合。事务数据集为事务Ti构成的集合,可表示为D={T1,T2,…,Ti,...,Tn},i∈[1,n]。
对数据中关联规则挖掘的过程主要分两步:1、挖掘频繁项集;2、由频繁项集产生关联规则。其中,对频繁项集的挖掘是关联规则挖掘的关键。若设S为由项的唯一标识特征值组成的一个集合,S={i|i∈I},简称项集,且包含k个 项的项集称为k-项集,那么,所述频繁项集为支持度不小于预设的最小支持度阈值的项集。项集在D中的支持度,是D中同时包含该项集中的所有项的事务占D包含的事务总数的百分比,该百分比也可以理解为该项集在D中的出现概率。比如以1000个顾客的购物记录为事务数据集,顾客购物记录中的商品为项,其中200个顾客即买了面包又买了火腿,预设的最小支持度阈值为15%,那么2-项集{面包,火腿}的支持度为20%,即为频繁项集。
在对频繁项集进行挖掘时,可以使用逐层搜索的迭代方法,即用频繁k-项集去搜索频繁k+1-项集。在利用频繁k-项集去搜索频繁k+1-项集时,需要预先根据所述频繁k-项集生成候选k+1-项集,然后筛选候选k+1-项集中满足最小支持度阈值的项集,作为最终得到的频繁k+1-项集。
当频繁k-项集中数量很多时,候选k+1-项集的个数会更多,例如,当频繁1-项集的数量为1000时,候选2-项集的数量为,在大数据挖掘中,频繁k-项集的数量往往很大,对频繁项集的挖掘会耗费大量的时间,导致频繁项集的挖掘效率较低。
发明内容
本申请实施例提供一种频繁项集的挖掘方法,用以解决现有技术中在对大数据中的频繁项集进行挖掘时会耗费大量时间的问题。
本申请实施例还提供一种频繁项集的挖掘装置,用以解决现有技术中在对大数据中的频繁项集进行挖掘时会耗费大量时间的问题。
本申请实施例还提供一种频繁项集的挖掘系统,用以解决现有技术中在对大数据中的频繁项集进行挖掘时会耗费大量时间的问题。
本申请实施例采用下述技术方案:
一种频繁项集的挖掘方法,包括:
主节点在接收到客户端指派的针对总数据的频繁项集挖掘任务后,按照预定的数据分割规则对所述总数据进行数据分割得到各子数据;
所述主节点将各子数据分配给至少两个用于并行执行频繁项集挖掘任务的第一阶段任务的从属节点;所述第一阶段任务具体包括:所述从属节点根据预设的最小支持度阈值,利用频繁项集挖掘算法对被分配的子数据进行频繁项集挖掘,得到所述子数据的频繁项集;
所述主节点将所述子数据的频繁项集分配至用于并行执行频繁项集挖掘任务的第二阶段任务的各从属节点;所述第二阶段任务,包括:用于执行第二阶段任务的各从属节点根据预设的最小支持度阈值和所述子数据的频繁项集,获取所述总数据的频繁项集。
一种频繁项集的挖掘装置,包括:
从属节点确定单元,用于在接收到客户端指派的针对总数据的频繁项集挖掘任务后,按照预定的数据分割规则对所述总数据进行数据分割得到各子数据;
子数据的频繁项集获取单元,用于将各子数据分配给至少两个用于并行执行频繁项集挖掘任务的第一阶段任务的从属节点;所述第一阶段任务具体包括:所述从属节点根据预设的最小支持度阈值,利用频繁项集挖掘算法对被分配的子数据进行频繁项集挖掘,得到所述子数据的频繁项集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610200506.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种规则匹配方法及装置
- 下一篇:一种编辑页面的方法和系统