[发明专利]基于Spark的并行化关联挖掘优化方法在审
申请号: | 201710413035.1 | 申请日: | 2017-06-05 |
公开(公告)号: | CN107291848A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 肖甫;许平;沙乐天;王少辉;韩崇;王汝传 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所32207 | 代理人: | 张芳 |
地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 spark 并行 关联 挖掘 优化 方法 | ||
1.基于Spark的并行化关联挖掘优化方法,其特征在于:先对事务数据库进行预处理,根据业务需求进行数据清洗,提取简要有效信息,将事务项数据编码化后,全部读取到内存,转换成RDD模型;在生成频繁1项集的过程中,构造新的数据结构存放1项集的事务序列号;在频繁项集连接、剪枝生成候选集的过程中,舍去候选项集的产生过程,筛选出连接后事务序列号数满足最小支持度的项集,所述的支持度Ssupport(A)=P(A)/N为项集在整个数据集中所占的比例;重复以上过程,直到没有满足最小支持度条件的更大的项集产生。
2.根据权利要求1所述的基于Spark的并行化关联挖掘优化方法,其特征在于:所述生成频繁项集的过程为:
a1、对事务中包含的所有项发射该项及对应事务编号的键值对,reducer将每项对应的事务编号合并起来,构造成(item,BitSet)的存储形式;
a2、对事务编号进行统计,根据支持度过滤得到只包含频繁1项集的转换后的数据集F;
a3、将存储于数据集F1中的频繁1项集进行两两自连接,然后判断其支持度,将满足最小支持度的(item,BitSet)存入F2中,其中item表示事务项,BitSet表示事务编号;
a4、将存储于FK-1中的频繁k-1项集两两自连接,连接规则为:k-1项集中的前k-2项相同,第k-1项不同,则可连接成fi[1],fi[2]…fi[k-2],fi[k-1],fj[k-1],将满足支持度的项集和事务编号集存入Fk。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710413035.1/1.html,转载请声明来源钻瓜专利网。