[发明专利]一种对事务数据流进行闭合加权频繁模式挖掘的方法有效
申请号: | 201110252777.3 | 申请日: | 2011-08-30 |
公开(公告)号: | CN102306183A | 公开(公告)日: | 2012-01-04 |
发明(设计)人: | 王洁;曾宇 | 申请(专利权)人: | 王洁;曾宇 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100193 北京市海淀区厢*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 事务 数据流 进行 闭合 加权 频繁 模式 挖掘 方法 | ||
1.一种针对大规模事务数据流的闭合加权频繁模式挖掘的方法DS_CWFP,该方法包括:
滑动窗口闭合加权频繁模式树创建步骤:闭合加权频繁模式树结构DSCWFP用来记录滑动窗口中数据流加权频繁模式的动态变化并同时保存业已发现的闭合加权频繁模式结果,由三部分组成,一棵具有根节点的压缩前缀扩展树CWFP-Tree、一个项头表IHT以及一个哈希表,压缩前缀扩展树CWFP-Tree是一棵对数据项的顺序进行预定义的压缩前缀扩展树,由一个根节点和若干由根节点引出的前缀子树组成,用来保存当前滑动窗口中的候选闭合加权频繁模式并维护当前滑动窗口中业已发现的闭合加权频繁模式,树中的节点代表从根节点的直接子节点到该节点路径对应的模式;项头表用来保存CWFP-Tree树中各数据项的相关信息;哈希表是一个二级哈希映射结构,用来进行加权频繁模式的闭合性检查;
基本窗口闭合加权频繁模式树创建步骤:在基本窗口中,所用的数据结构与DSCWFP相似,被命名为LCWFP,LCWFP用来挖掘和保存当前基本窗口内的闭合加权频繁模式,包括局部模式树LCWFP-Tree、局部项头表LIHT以及局部哈希表LCW-HT,与DSCWFP中的CWFP-Tree相比,LCWFP-Tree只需处理当前基本窗口信息,因此省略了bw_list域;
当前基本窗中闭合加权频繁模式挖掘步骤:此过程包括以下步骤:(1)利用真实权值计算模式是否加权频繁;(2)根据局部哈希表进行子集检查以判断当前模式的闭合性;(3)对新发现的潜在闭合加权频繁模式在LCWFP-Tree树中直接进行标注,若LCWFP-Tree树中没有相对应的结点,则在树中增加一个虚结点若发现新的闭合加权频繁模式,并将新的闭合加权频繁模式信息加入局部哈希表中;
新到窗口处理步骤:对新到窗口的处理包括以下几个步骤:1)用新到数据生成当前基本窗的局部LCWFP结构;2)递归调用子过程,构造局部潜在闭合加权频繁模式集;3)将局部潜在闭合加权频繁模式集更新到全局闭合加权频繁模式CWFP结构中,局部CWFP-Tree生成后,方法通过对局部CWFP-Tree的一次遍历,可以过滤基本窗中大量低频数据,同时得到当前基本窗中潜在闭合加权频繁模式集;
过期窗口处理步骤:当新的基本窗到达时,滑动窗口中最早的基本窗口成为过期窗口,要删除过期窗口对滑动窗口的影响删除,并将新的基本窗口中的局部潜在闭合加权频繁模式集更新到滑动窗口中,删除过期窗口对滑动窗口项头表以及模式树CWFP-Tree的影响;如果某节点是闭合节点且在过期窗口中支持度计数不为0,则由于支持度计数减小改为非闭合节点;若为虚节点则应删除,同时更新哈希表;
全局CWFP-Tree结构更新步骤:当过期窗口被删除且对最新基本窗口的挖掘完成后,最新基本窗口中的潜在闭合加权频繁模式集被保存在基本窗口的局部CWFP结构中,基本窗中的局部潜在闭合加权频繁模式是整个滑动窗口中全局闭合加权频繁模式的候选项集,方法要将其更新到全局CWFP-Tree结构中;
闭合加权频繁模式挖掘步骤,采用自底向上深度优先遍历的递归方法,实现对滑动窗口内加权CWFP-Tree树的闭合加权频繁模式的挖掘。
2.如权利要求1的方法,其中压缩前缀扩展树CWFP-Tree以下列方式生成,除了根结点外每个树结点主要拥有以下域:item_name表示该结点对应的项目名;sup_count记录该结点对应的模式在当前滑动窗口内总的支持度计数;node_parent为指向该结点父结点的指针;refined_weight记录该结点对应模式的修订权值;node_link链接到树中具有相同项目名称的下一个结点,若下一个结点不存在,则为null;iscfi反映该结点到根结点的直接子结点的路径所构成的模式是否是闭合模式,值为true表示是,否则为false;closed_sup若该结点为闭合模式所包含的项,则值为闭合模式的支持度计数,否则为0;如果多个闭合模式有相同的前缀,则前缀中结点的这个域的值取其前缀中支持度最高的值;isvnd反映该结点是否是一个虚结点,值为true表示是,否则为false;cl_link如果该结点对应闭合模式,则指向下一个具有相同支持度和相同最后一项目的闭合模式对应的结点,若下一结点不存在,则为null;bw_list是长度为n的列表,n为滑动窗口内包含的基本窗口的数目,列表中的元组表示为<cnt,refined_weight>,分别该结点对应的模式在此基本窗口内的支持度计数以及该结点对应模式在此基本窗口内的修订权值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王洁;曾宇,未经王洁;曾宇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110252777.3/1.html,转载请声明来源钻瓜专利网。