[发明专利]一种快速发现效用模式的数据挖掘方法无效

专利信息
申请号: 201210042570.8 申请日: 2012-02-23
公开(公告)号: CN102662948A 公开(公告)日: 2012-09-12
发明(设计)人: 刘君强;蒋晓宁;甘志刚;余斌霄 申请(专利权)人: 浙江工商大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 310018 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 快速 发现 效用 模式 数据 挖掘 方法
【说明书】:

技术领域

发明涉及智能化信息处理领域。本发明设计了一种能从海量数据中发现既具有显著统计特征又符合用户期望与目标的效用模式挖掘方法,在海量数据挖掘特别是网络信息搜索与知识发现,包括Web挖掘、文本挖掘、多媒体挖掘中,有着广泛应用前景。

背景技术

传统数据挖掘技术,特别是频繁模式挖掘技术[1][2],主要根据统计显著性来进行数据分析,比如从超市销售数据中挖掘出购买频率较高的产品组合等,没有考虑到用户的期望或目标,比如用户可能对利润回报较高的产品组合感兴趣。也就是说,在数据挖掘中不仅要考虑数据的统计显著性,还要考虑用户的兴趣或目标[3]。效用模式挖掘技术作为频繁模式挖掘技术的新发展应运而生[4][5][6][7][8].

然而,效用模式挖掘技术还不成熟,只有很少量成果,均采用两阶段法。两阶段法TP首先是由Liu等[4]提出。第一阶段根据事务加权效用TWU向下闭合性质,先找出具有较高TWU的模式从而生成候选模式集合,第二阶段再次扫描数据库来计算各个候选模式的实际效用从而找出效用高于给定阀值的模式。Li等[5]提出了孤立项剔除策略,用于逐层挖掘候选模式的第一阶段,以减少多余候选模式,这样也能提高效率,因为每一层候选模式的计算都可以在一个递减的数据集上进行。

最近,为避免逐层生成候选模式时多遍扫描数据库[4][5]的缺点、以使第一阶段能高效率地生成候选模式,多个研究小组提出基于树的效用模式挖掘方法[6][7][8]。Erwin等[6]提出CTU-PROL挖掘方法,运用事务加权效用TWU向下闭合性质[4]、基于效用模式树CUP-tree和FP-Growth[2]来进行挖掘。Ahmed等[7]提出IHUP挖掘方法,采用IHUP-tree来存储各个事务的TWU信息,改进FP-Growth[2]来挖掘效用模式的候选模式集。CTU-PROL挖掘方法[6]和IHUP挖掘方法[7]在第一阶段生成的候选模式数量和TP[4]相同。Tseng等[8]设计出另一个基于树的UPG挖掘方法,利用UP-tree压缩表达事务的效用信息,提出树结点效用剔除/递减策略来改进事务加权效用TWU向下闭合性质,因而生成较少数量的候选模式。

然而,现有成果都没有跳出两阶段法的框架,尽管也有工作[5][8]试图降低第一阶段生成的候选模式数量。当数据库存在较长的事务记录或给定效用阀值较小时,候选模式的数量还是巨大的。这不仅造成存储空间开销过大,导致第一阶段的可伸缩性瓶颈,对于第二阶段也是如此,并最终导致运行的时间效率低下。

为克服以往挖掘方法的缺陷,本发明提出以下三项创新技术,以摆脱两阶段法的框架,并设计出“一种快速发现效用模式的数据挖掘方法”,从而解决可伸缩性与效率的瓶颈问题。

第一项是基于稀疏矩阵和虚拟投影的数据表示。具体讲,提出稀疏矩阵来表达各个事务效用的完整信息,使得单阶段挖掘成为可能。这种稀疏矩阵表示方法比基于FP-tree[2]的表示方法[6][7][8]更紧凑,避免多遍扫描数据库[4][5]。采用虚拟投影,在不增加任何存储开销的情况下,计算任意模式的效用值。

第二项是前缀生长策略与前缀生长树及其剪裁方法。前缀生长策略与相应的前缀生长树,用于引导效用模式的挖掘过程,并得到效用模式搜索空间剪裁技术的支撑,即通过估算任意子空间的效用值上界,可以有效地剪裁前缀生成树。

第三项是深度优先的动态搜索法。在搜索前缀生长树来发现效用模式的过程中,采用深度优先法来构造当前搜索的分枝,无需在内存中存留完整的前缀生长树、也无需在内存中储存效用模式,因而能进一步降低存储开销。

本发明挖掘方法的时间效率比三个参照挖掘方法[4][7][8]高1至3个数量级,并且内存使用量少40%到90%。本发明挖掘方法具有高性能,可在海量Web挖掘、多媒体挖掘、文本挖掘等各种应用中广泛使用。

参考文献:

[1]R.Agrawal and R.Srikant.Fast algorithms for mining association rules[A].In Proc.of VLDB 1994[C].1994,487-499..

[2]J.Han,J.Pei,Y.Yin.Mining frequent patterns without candidate generation[A].In Proc.of ACM SIGMOD2000[C].Dallas,USA,2000,1-12.

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210042570.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top