[发明专利]一种对事务数据流进行闭合加权频繁模式挖掘的方法有效
申请号: | 201110252777.3 | 申请日: | 2011-08-30 |
公开(公告)号: | CN102306183A | 公开(公告)日: | 2012-01-04 |
发明(设计)人: | 王洁;曾宇 | 申请(专利权)人: | 王洁;曾宇 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100193 北京市海淀区厢*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 事务 数据流 进行 闭合 加权 频繁 模式 挖掘 方法 | ||
技术领域
本发明涉及数据挖掘技术中的数据流频繁模式挖掘方法,具体涉及一种对事务数据流进行闭合加权频繁模式挖掘的方法。
背景技术
数据流是一类由高速到达的数据元素组成的无界数据序列。近年来,数据流广泛应用在多个领域,例如:网络流量监控、金融数据管理、传感器网络数据管理、web日志分析、移动对象数据管理、通信数据分析等。在这些应用中,发现事务数据流中的频繁模式具有重要的意义,例如:对应于异常流量的频繁报文可能意味着存在网络攻击;在大量的零销售记录中,频繁商品及其组合总是对应热门销售的商品以及它们之间的关联关系;在传感器网络数据管理中,发现传感器数据中的频繁模式可以有助于去估计那些丢失的数据值。
在加权频繁模式挖掘中,当最小加权支持度设置较小或数据集比较稠密时,会产生数量众多的频繁模式,将耗费大量的内存和I/O资源,也会给挖掘结果的分析者提取知识带来难度。针对Mushroom数据集的频繁模式挖掘实验表明,当最小支持度设置为0.1时,挖掘得到的频繁模式数量是574431,而闭合频繁模式数量是4885,由此可见闭合频繁模式可以显著减少频繁项集挖掘所产生的模式数量。
闭合频繁模式是频繁模式的一种压缩无损的替代表示形式,可以保持关于频繁项集的完整信息。从闭合频繁项集中可以推出频繁项集的集合以及它们的支持度,因此在频繁模式挖掘实践与应用中,相比加权频繁模式挖掘来说,挖掘闭合加权频繁模式更加具有实用意义。
发明内容
由于对于数据流的闭合加权频繁模式的挖掘更具有实用意义,且大规模数据中容易产生数量众多的频繁模式,本发明提出了一种针对大规模事务数据流的闭合加权频繁模式挖掘的方法DS_CWFP,该方法包括:
滑动窗口闭合加权频繁模式树创建步骤:闭合加权频繁模式树结构DSCWFP用来记录滑动窗口中数据流加权频繁模式的动态变化并同时保存业已发现的闭合加权频繁模式结果,由三部分组成,一棵具有根节点的压缩前缀扩展树CWFP-Tree、一个项头表IHT以及一个哈希表,压缩前缀扩展树CWFP-Tree是一棵对数据项的顺序进行预定义的压缩前缀扩展树,由一个根节点和若干由根节点引出的前缀子树组成,用来保存当前滑动窗口中的候选闭合加权频繁模式并维护当前滑动窗口中业已发现的闭合加权频繁模式,树中的节点代表从根节点的直接子节点到该节点路径对应的模式;项头表用来保存CWFP-Tree树中各数据项的相关信息;哈希表是一个二级哈希映射结构,用来进行加权频繁模式的闭合性检查;
基本窗口闭合加权频繁模式树创建步骤,在基本窗口中,所用的数据结构与DSCWFP相似,被命名为LCWFP,LCWFP用来挖掘和保存当前基本窗口内的闭合加权频繁模式,包括局部模式树LCWFP-Tree、局部项头表LIHT以及局部哈希表LCW-HT,与DSCWFP中的CWFP-Tree相比,LCWFP-Tree只需处理当前基本窗口信息,因此省略了bw_list域;
当前基本窗中闭合加权频繁模式挖掘步骤,此过程包括以下步骤:(1)利用真实权值计算模式是否加权频繁;(2)根据局部哈希表进行子集检查以判断当前模式的闭合性;(3)对新发现的潜在闭合加权频繁模式在LCWFP-Tree树中直接进行标注,若LCWFP-Tree树中没有相对应的结点,则在树中增加一个虚结点若发现新的闭合加权频繁模式,并将新的闭合加权频繁模式信息加入局部哈希表中;
新到窗口处理步骤:对新到窗口的处理包括以下几个步骤:1)用新到数据生成当前基本窗的局部LCWFP结构;2)递归调用子过程,构造局部潜在闭合加权频繁模式集;3)将局部潜在闭合加权频繁模式集更新到全局闭合加权频繁模式CWFP结构中,局部CWFP-Tree生成后,方法通过对局部CWFP-Tree的一次遍历,可以过滤基本窗中大量低频数据,同时得到当前基本窗中潜在闭合加权频繁模式集;
过期窗口处理步骤:当新的基本窗到达时,滑动窗口中最早的基本窗口成为过期窗口,要删除过期窗口对滑动窗口的影响删除,并将新的基本窗口中的局部潜在闭合加权频繁模式集更新到滑动窗口中,删除过期窗口对滑动窗口项头表以及模式树CWFP-Tree的影响;如果某节点是闭合节点且在过期窗口中支持度计数不为0,则由于支持度计数减小改为非闭合节点;若为虚节点则应删除,同时更新哈希表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王洁;曾宇,未经王洁;曾宇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110252777.3/2.html,转载请声明来源钻瓜专利网。