[发明专利]一种基于有序复合树结构的数据流最大频繁项集挖掘方法在审
| 申请号: | 201510121017.7 | 申请日: | 2015-03-19 |
| 公开(公告)号: | CN104850577A | 公开(公告)日: | 2015-08-19 |
| 发明(设计)人: | 陈庭贵;许翀寰 | 申请(专利权)人: | 浙江工商大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
| 地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 有序 复合 结构 数据流 最大 频繁 挖掘 方法 | ||
技术领域
本发明涉及人工智能、数据挖掘技术领域知识,具体为一种基于有序复合树结构的数据流最大频繁项集挖掘方法。适用于金融数据时序挖掘、商业数据流关联分析等众多领域。
技术背景
随着大数据时代的来临,数据挖掘及其相关技术得到了越来越多的关注。数据挖掘是指以某种方式分析数据源,从中发现一些潜在的有用的信息,所以数据挖掘又称作知识发现,而关联规则挖掘则是数据挖掘中的一个很重要的课题,顾名思义,它是从数据背后发现事物之间可能存在的关联或者联系。最经典的例子莫过于啤酒和尿布的案例。随着大型连锁零售商店在零售市场上份额的增加,越来越多的超市或连锁店都迫切希望发现其庞大的交易数据库中隐含的相关销售信息。不仅如此,当人们对相关事务之间联系的探究越发深入之后,关联规则挖掘的应用范围也变得越来越广。诸如电商企业通过对消费者一段时期内的购物记录分析,采用关联规则挖掘找出事物之间隐含的联系,从而分析消费者可能的偏好;在金融领域,研究人员对不同的金融数据流进行关联规则分析,预测未来的发展走势。
这里需要注意关联规则是单向的,是指某类项目或特征与另一类项目或特征间所存在的单向影响关系。一般相关系数对两类特征或项目的描述都是对称的,而且只能处理定序以上层次的数据。而实际经济生活中常会出现两方面的关系并不对称或者数据仅仅是定类层次的情况。此时用关联规则来描述相当有效,而且对经济决策也相当有用。
关联规则的挖掘,通常是指定支持度、置信度、增益这三个标准的最小值(支持度有时还限定最大值),三个标准的取值都大于临界值的关联规则就被列出。关联规则挖掘的算法有很多,其基本思路一般是采用递推算法,首先将满足支持度要求的规则列出作为候选集(称为频繁项集),然后在候选集中产生满足置信度或增益要求的规则。为了提高挖掘效率,人们又从几个方面提高产生频繁项集的效率,比如划分原数据,采用并行算法产生频繁项集、对数据进行抽样以减少计算量等,从而产生了许多优化的计算方法。由于最大频繁项集中隐含了所有频繁项集,因此对其挖掘具有更加重要的意义。
本发明针对目前存在的最大频繁项集挖掘方法执行效率偏低、内存消耗过多等问题,提出一种基于有序复合树结构的数据流最大频繁项集挖掘方法。通过该方法能够科学合理有效快速得对各领域的数据流进行关联规则分析。
发明内容
本发明要克服现有最大频繁项集挖掘方法存在的不足,提供一种基于有序复合树结构的数据流最大频繁项集挖掘方法,采用滑动窗口处理数据流,分割滑动窗口为若干个基本单位,更新获取数据流片段信息,单遍扫描片段信息得到频繁项集并存储于频繁项集列表内。
本发明方法构建的有序FP-tree,随项集的插入,动态调整树型结构,合并同一分支中支持度相等的邻接结点,压缩生成有序复合FP-tree。该方法能够高效、快速得对数据流进行最大频繁项集挖掘。
本发明提出的基于有序复合树结构的数据流最大频繁项集挖掘方法,包括以下步骤:
1)频繁项集列表的构建:获取基本滑动窗口中的数据流片段信息,设ε为允许偏差因子,S为最小支持度。为了减小误差,在实际操作中取S-ε为最小支持度阈值,单遍扫描基本窗口中的项目数据集得到按支持度由高到低排序(当支持度相等时,按一定的文法顺序排序,通常按字典顺序)的一项集头表及剔除非频繁项目的频繁项集列表。其中,频繁项集列表的特征简述如下:频繁项集列表中的项集按项目的长度排序,长度相同时,按首字母排序(首字母的顺序遵循头表中的排序);项目内元素按支持度高低排序。
2)有序复合树结构的创建:新建有序FP-tree的根结点root,初始化为null,将频繁项集列表中的项目依次插入该树中。插入时,递归调用insert_tree([i|I],T)方法,其中i指向当前插入的项目,I为项集列表中剩余的项目集合,T为有序FP-tree,初始时T即为根结点root。生成有序FP-tree后,合并同一分支中支持度相等的邻接结点,压缩生成有序复合FP-tree。
insert_tree([i|I],T)方法描述如下:按频繁项集列表中项目顺序依次插入该多叉树。新项目中的元素插入时,遇到结点不同时,并不直接产生分支,而是继续搜索当前路径,向下比较。比较的原则为:设当前搜索到的结点为i,待插入结点j,若j与i不相同,且j在一项集头表中的位置位于i的下方,则向i的子树搜索,直至找到相同结点或搜索到的结点在头表中的位置位于j的下方,停止,而后产生分支。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510121017.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:媒体内容生成发布方法及系统
- 下一篇:一种数据采集方法及装置





