[发明专利]一种不确定交易数据库中多序列的周期频繁模式挖掘方法有效

专利信息
申请号: 202211635955.5 申请日: 2022-12-20
公开(公告)号: CN115617881B 公开(公告)日: 2023-03-21
发明(设计)人: 张振洲;陈建铭;甘文生 申请(专利权)人: 山东科技大学
主分类号: G06F16/2458 分类号: G06F16/2458;G06F16/25;G06Q40/04
代理公司: 青岛智地领创专利代理有限公司 37252 代理人: 陈海滨
地址: 266590 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 不确定 交易 数据库 序列 周期 频繁 模式 挖掘 方法
【说明书】:

发明提供了一种不确定交易数据库中多序列的周期频繁模式挖掘方法,具体包括如下步骤:S1,输入数据库和四个自定义阈值;S2,扫描数据库构建1项集x的UPFPS‑list,并判断其是否是周期频繁项集;S3,根据上界值对搜索空间进行修剪,将符合条件的UPFPS‑list添加到集合中;S4,将修剪后的1项集相交合并成2项集,构建2项集的UPFPS‑list,并且判断2项集是否是UPFPS;S5,递归循环n‑1项集,直至不能扩展n项集,则输出不确定数据库中所有UPFPS。本发明的技术方案克服现有技术中无法在不确定数据库中对多个序列进行周期性频繁模式挖掘的问题。

技术领域

本发明涉及数据挖掘的技术领域,具体涉及一种不确定交易数据库中多序列的周期频繁模式挖掘方法。

背景技术

数据挖掘已经成为一项利用超量而复杂的数据的重要科技手段,对这个技术领域的科学研究也正在以越来越快的速度蓬勃发展。关联规则又称频繁项集挖掘,是数据挖掘领域的一个热门方向。目前已有的频繁模式的算法都是在精确数据库中来挖掘对我们有用的模式,而在现实情况中,由于收集到的数据会因为各种原因或多或少的丢失或不精确,导致收集到的数据包含不确定性也很常见。在现实生活中更多的是对不确定性的数据进行挖掘,确定性的数据库在实际的应用中具有一定的局限性。在多序列的不确定性数据库中挖掘频繁周期性的模式,既要满足周期并且频繁的模式,还要同时在多序列中挖掘共同的周期频繁模式,并且这些模式出现的概率还要满足用户制定的阈值。同时,在不确定数据库中在多个序列挖掘出的模式占总数据库序列数的比值如何度量都是复杂的问题。

近年来,频繁模式挖掘(FPM)是一个热门的数据挖掘问题,最初频繁模式挖掘是为了分析大型连锁超市中的交易以发现客户频繁购买的商品,以便于我们更好的做出销售决策。频繁模式挖掘是数据挖掘中发展早并且基础的研究方向,随着FPM的不断发展,如今,FPM已经被应用到许多领域中。目前已经研究出采取不同的方法来挖掘出有意义的模式。目前基于确定数据的频繁模式挖掘的不断探索,在序列中挖掘周期频繁模式也成为越来越热门的研究方向,研究模式随着时间的推移,周期且频繁的出现对现实生活中更加具有实际的应用意义。然而在传统挖掘周期频繁模式挖掘的过程中有两方面局限性,第一个限制是事物中包含的项集都是确定的,然而在现实生活中不确定的数据是普遍存在的,比如:传感器网络、军事、经济、物流、金融、生物医学等领域中。第二个限制是目前研究周期频繁模式的算法通常是针对单个序列,在现实生活中发现一组共同出现的周期性且频繁的模式更具有价值,比如:网站浏览点击分析、生物医疗基因和市场购物篮研究更加有实际意义。

随着序列模式挖掘也越来越流行,传统的FPM算法中的数据库中都忽略了交易之间的时间顺序,挖掘出的模式可能频繁度很高或者模式之间的关联度很高,但是并不体现项目或者交易之间的先后时间顺序。目前最流行的研究任务之一是序列模式挖掘(SPM),在现实生活中,很多领域更多强调的是关于时间的序列,序列模式的挖掘任务是在一组序列中挖掘出频繁的子序列,在现实中应用更加广泛。数据挖掘算法可以挖掘几种类型的模式,频繁项集是关联规则、相关分析、序列模式、加权模式等许多重要数据挖掘任务的基本步骤,也是数据挖掘中的一个基础研究的内容。传统的SPM的各种算法有三个局限性,第一,数据中包含的项集都是确定的,然而在现实生活中不确定的数据是普遍存在的,比如:传感器网络、军事、经济、物流、金融、生物医学等许多领域中,不确定数据库都扮演着重要的角色。但是数据的不确定性会对数据挖掘带来很大的影响,因此人们越来越关注针对不确定性数据库中的挖掘。第二,SPM算法用于发现序列中周期性循环出现的模式很少,但是却是数据挖掘中一个重要的研究内容。第三,SPM算法基本都是研究单一的序列,而忽视了多个序列之间的关联性,同时在多个序列中挖掘并分析之间潜在联系是非常具有研究价值和意义的。

因此,现需要一种能够克服以上问题的不确定交易数据库中多序列的周期频繁模式挖掘方法。

发明内容

本发明的主要目的在于提供一种不确定交易数据库中多序列下的周期频繁模式挖掘方法,以解决现有技术中无法在不确定数据库中对多个序列进行周期性频繁模式挖掘的问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211635955.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top