[发明专利]基于Spark的并行化关联挖掘优化方法在审

专利信息
申请号: 201710413035.1 申请日: 2017-06-05
公开(公告)号: CN107291848A 公开(公告)日: 2017-10-24
发明(设计)人: 肖甫;许平;沙乐天;王少辉;韩崇;王汝传 申请(专利权)人: 南京邮电大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京知识律师事务所32207 代理人: 张芳
地址: 210023 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 spark 并行 关联 挖掘 优化 方法
【权利要求书】:

1.基于Spark的并行化关联挖掘优化方法,其特征在于:先对事务数据库进行预处理,根据业务需求进行数据清洗,提取简要有效信息,将事务项数据编码化后,全部读取到内存,转换成RDD模型;在生成频繁1项集的过程中,构造新的数据结构存放1项集的事务序列号;在频繁项集连接、剪枝生成候选集的过程中,舍去候选项集的产生过程,筛选出连接后事务序列号数满足最小支持度的项集,所述的支持度Ssupport(A)=P(A)/N为项集在整个数据集中所占的比例;重复以上过程,直到没有满足最小支持度条件的更大的项集产生。

2.根据权利要求1所述的基于Spark的并行化关联挖掘优化方法,其特征在于:所述生成频繁项集的过程为:

a1、对事务中包含的所有项发射该项及对应事务编号的键值对,reducer将每项对应的事务编号合并起来,构造成(item,BitSet)的存储形式;

a2、对事务编号进行统计,根据支持度过滤得到只包含频繁1项集的转换后的数据集F;

a3、将存储于数据集F1中的频繁1项集进行两两自连接,然后判断其支持度,将满足最小支持度的(item,BitSet)存入F2中,其中item表示事务项,BitSet表示事务编号;

a4、将存储于FK-1中的频繁k-1项集两两自连接,连接规则为:k-1项集中的前k-2项相同,第k-1项不同,则可连接成fi[1],fi[2]…fi[k-2],fi[k-1],fj[k-1],将满足支持度的项集和事务编号集存入Fk

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710413035.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top