[发明专利]一种基于深度剪枝策略的关联规则挖掘方法有效

申请号：	201710170549.9	申请日：	2017-03-21
公开（公告）号：	CN106991141B	公开（公告）日：	2020-12-11
发明（设计）人：	李蕾;陈道新;李琪;吴亚彬	申请（专利权）人：	北京邮电大学;首都信息发展股份有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458
代理公司：	北京永创新实专利事务所 11121	代理人：	祗志洁
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度剪枝策略关联规则挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度剪枝策略的关联规则挖掘方法，用于挖掘用户信息，输入的事务数据库为用户信息数据表，表中每条记录的字段包括用户编号、婚姻状态、性别、收入、子女数、教育状况、职业状况、是否有房、汽车数量、活动范围、地域、年龄以及是否购买自行车；表中每条记录对应一个事务，每条记录中的每个字段代表一个项；所述方法用于获取k-频繁项集，k-频繁项集是指支持度大于等于最小支持度计数的k-项集；k-项集是包括k个项的项集；其特征在于，包括：

将事务数据库扫描成布尔矩阵M，矩阵M中的每列表示一个事务，每行表示一个项或者项集；并生成1-频繁项集的布尔矩阵M₁，M₁中的每一列和每一行，都按照值从小到大的顺序进行排列，通过排序确定频繁项集连接的相对顺序；将矩阵M中小于最小支持度计数的项集对应的行向量删除后得到矩阵M₁；

生成(k+1)-频繁项集及对应的布尔矩阵，k≥1；当k≥3时，每次生成(k+1)-频繁项集时，先根据项跟位置关系对k-频繁项集进行剪枝，再生成(k+1)-频繁项集；

所述的根据项跟位置关系是指：(1)统计首项为I的k-频繁项集的数目，数目必须大于等于k， (2)对首项为I的k-频繁项集的前k-1项，设i代表首项为I的k-频繁项集中的位置，位置在i的项出现的次数必须大于等于k-i， i从0开始计数，且k-i0；I为用户信息数据表中记录的一个字段；

所述的根据项跟位置关系对k-频繁项集进行剪枝，是指将不符合所述项跟位置关系的k-频繁项集删除；

当(k+1)-频繁项集的数目小于k+1，则停止查找，否则更新k值，继续生成(k+1)-频繁项集。

2.根据权利要求1所述的基于深度剪枝策略的关联规则挖掘方法，其特征在于，所述的(k+1)-频繁项集在生成时，先根据事务长度对k-频繁项集的布尔矩阵进行压缩，具体是，对k-频繁项集对应的布尔矩阵，若其中某事务长度小于k，则从该布尔矩阵中删掉该事务。

3.根据权利要求1或2所述的基于深度剪枝策略的关联规则挖掘方法，其特征在于，所述的关联规则挖掘方法实现步骤包括：

步骤1，将事务数据库D扫描成布尔矩阵M；矩阵M中的每列表示一个事务，每行表示一个项或者项集；

步骤2，对布尔矩阵M进行去重压缩和排序；

步骤3，根据步骤2处理后的矩阵M寻找1-频繁项集，按照顺序连接1-频繁项集构成2-频繁项集；

根据事务长度对布尔矩阵M₁进行压缩；

在将1-频繁项集连接生成2-频繁项集时，若连接的项集的支持度小于最小支持度计数时，删除该项集；在得到2-频繁项集对应的布尔矩阵M₂后，根据事务长度对矩阵进行压缩；

步骤4，对k-频繁项集中的每个项集向下进行扫描，生成(k+1)-候选项集；

步骤5，计算(k+1)-候选项集的支持度，将小于最小支持度计数的候选项集舍弃，生成(k+1)-频繁项集；

步骤6，若(k+1)-频繁项集的数目小于k+1，则结束查找，终止本方法；否则更新所生成的(k+1)-频繁项集为当前的k-频繁项集，继续步骤7；

步骤7，根据事务长度对k-频繁项集的布尔矩阵进行压缩；

步骤8，根据项跟位置关系对k-频繁项集进行剪枝，然后转步骤4执行。

4.根据权利要求3所述的基于深度剪枝策略的关联规则挖掘方法，其特征在于，所述的关联规则挖掘方法，使用Python和numpy模块、DataFrame模块，来对布尔矩阵排序和压缩。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学;首都信息发展股份有限公司，未经北京邮电大学;首都信息发展股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710170549.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种监控信息表审核方法及系统
下一篇：一种基于微信数据和兴趣点数据识别城市功能区的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度剪枝策略的关联规则挖掘方法有效

专利文献下载