[发明专利]一种对事务数据流进行闭合加权频繁模式挖掘的方法有效
申请号: | 201110252777.3 | 申请日: | 2011-08-30 |
公开(公告)号: | CN102306183A | 公开(公告)日: | 2012-01-04 |
发明(设计)人: | 王洁;曾宇 | 申请(专利权)人: | 王洁;曾宇 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100193 北京市海淀区厢*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种大规模数据流上的闭合加权频繁模式挖掘方法DS_CWFP。DS_CWFP方法以滑动窗口中的基本窗口为计算单位,先挖掘当前基本窗口中的局部潜在闭合加权频繁项集,在删除了过期窗口对滑动窗口的影响后,将局部闭合加权频繁项集及其子集按一定的规则动态更新到滑动窗口的全局DSCWFP结构中。复合的DSCWFP结构用来记录数据流加权频繁模式的动态变化并同时保存业已发现的闭合加权频繁模式结果,降低了维护多个模式树的空间开销以及由于数据流数据不断变化带来的维护复杂度。同时在挖掘过程中,采用了项合并、子项集剪枝等策略。DS_CWFP算法仅需对流数据进行单遍扫描,并能够在有限的存储空间中高速挖掘数据流滑动窗口中的闭合加权频繁模式,具有较高的时空效率。 | ||
搜索关键词: | 一种 事务 数据流 进行 闭合 加权 频繁 模式 挖掘 方法 | ||
【主权项】:
一种针对大规模事务数据流的闭合加权频繁模式挖掘的方法DS_CWFP,该方法包括:滑动窗口闭合加权频繁模式树创建步骤:闭合加权频繁模式树结构DSCWFP用来记录滑动窗口中数据流加权频繁模式的动态变化并同时保存业已发现的闭合加权频繁模式结果,由三部分组成,一棵具有根节点的压缩前缀扩展树CWFP‑Tree、一个项头表IHT以及一个哈希表,压缩前缀扩展树CWFP‑Tree是一棵对数据项的顺序进行预定义的压缩前缀扩展树,由一个根节点和若干由根节点引出的前缀子树组成,用来保存当前滑动窗口中的候选闭合加权频繁模式并维护当前滑动窗口中业已发现的闭合加权频繁模式,树中的节点代表从根节点的直接子节点到该节点路径对应的模式;项头表用来保存CWFP‑Tree树中各数据项的相关信息;哈希表是一个二级哈希映射结构,用来进行加权频繁模式的闭合性检查;基本窗口闭合加权频繁模式树创建步骤:在基本窗口中,所用的数据结构与DSCWFP相似,被命名为LCWFP,LCWFP用来挖掘和保存当前基本窗口内的闭合加权频繁模式,包括局部模式树LCWFP‑Tree、局部项头表LIHT以及局部哈希表LCW‑HT,与DSCWFP中的CWFP‑Tree相比,LCWFP‑Tree只需处理当前基本窗口信息,因此省略了bw_list域;当前基本窗中闭合加权频繁模式挖掘步骤:此过程包括以下步骤:(1)利用真实权值计算模式是否加权频繁;(2)根据局部哈希表进行子集检查以判断当前模式的闭合性;(3)对新发现的潜在闭合加权频繁模式在LCWFP‑Tree树中直接进行标注,若LCWFP‑Tree树中没有相对应的结点,则在树中增加一个虚结点若发现新的闭合加权频繁模式,并将新的闭合加权频繁模式信息加入局部哈希表中;新到窗口处理步骤:对新到窗口的处理包括以下几个步骤:1)用新到数据生成当前基本窗的局部LCWFP结构;2)递归调用子过程,构造局部潜在闭合加权频繁模式集;3)将局部潜在闭合加权频繁模式集更新到全局闭合加权频繁模式CWFP结构中,局部CWFP‑Tree生成后,方法通过对局部CWFP‑Tree的一次遍历,可以过滤基本窗中大量低频数据,同时得到当前基本窗中潜在闭合加权频繁模式集;过期窗口处理步骤:当新的基本窗到达时,滑动窗口中最早的基本窗口成为过期窗口,要删除过期窗口对滑动窗口的影响删除,并将新的基本窗口中的局部潜在闭合加权频繁模式集更新到滑动窗口中,删除过期窗口对滑动窗口项头表以及模式树CWFP‑Tree的影响;如果某节点是闭合节点且在过期窗口中支持度计数不为0,则由于支持度计数减小改为非闭合节点;若为虚节点则应删除,同时更新哈希表;全局CWFP‑Tree结构更新步骤:当过期窗口被删除且对最新基本窗口的挖掘完成后,最新基本窗口中的潜在闭合加权频繁模式集被保存在基本窗口的局部CWFP结构中,基本窗中的局部潜在闭合加权频繁模式是整个滑动窗口中全局闭合加权频繁模式的候选项集,方法要将其更新到全局CWFP‑Tree结构中;闭合加权频繁模式挖掘步骤,采用自底向上深度优先遍历的递归方法,实现对滑动窗口内加权CWFP‑Tree树的闭合加权频繁模式的挖掘。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王洁;曾宇,未经王洁;曾宇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110252777.3/,转载请声明来源钻瓜专利网。