[发明专利]基于SFp-Link的半结构化数据频繁模式挖掘方法有效
申请号: | 201710664740.9 | 申请日: | 2017-08-07 |
公开(公告)号: | CN107562800B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 蔡庆玲;邓少风;吕律;李海良 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/81 | 分类号: | G06F16/81;G06F16/84 |
代理公司: | 广州知友专利商标代理有限公司 44104 | 代理人: | 李海波;尤健雄 |
地址: | 510080 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于SFp‑Link的半结构化数据频繁模式挖掘方法,其为半结构化数据建立半结构化数据频繁模式链表SFp‑Link,并基于该半结构化数据频繁模式链表SFp‑Link进行频繁模式挖掘,能够按挖掘目的有效的提取出半结构化数据中的频繁项集。由于本发明在建立半结构化数据频繁模式链表SFp‑Link时,仅需对被挖掘样本数据库进行一次扫描,且仅需对所包含项目组合首次被扫描到的样本项集进行存储,对于所包含项目组合再次被扫描到的样本项集,仅需对相应的样本频数累计一次即可,因此,本发明具有所需消耗的存储空间小、所需消耗的挖掘时间短、挖掘效率高的优点。 | ||
搜索关键词: | 基于 sfp link 结构 数据 频繁 模式 挖掘 方法 | ||
【主权项】:
一种基于SFp‑Link的半结构化数据频繁模式挖掘方法,其特征在于:所述的半结构化数据频繁模式挖掘方法包括:步骤一、对被挖掘样本数据库进行数据预处理,即:提取所述被挖掘样本数据库中每一条半结构化数据的样本项集,该样本项集为相应半结构化数据中与挖掘目的相关的有效数据的集合,该样本项集所包含的每一个有效数据为该样本项集的一个项目;步骤二、扫描所述被挖掘样本数据库的全部样本项集,在扫描过程中,对所包含项目组合首次被扫描到的样本项集进行存储,并记为被存储样本项集,并且,计算每一个所述被存储样本项集在所述被挖掘样本数据库中的相同样本项集数量,以及计算每一个所述被存储样本项集在所述被挖掘样本数据库中的真子集数量,以建立下述半结构化数据频繁模式链表SFp‑Link:所述半结构化数据频繁模式链表SFp‑Link由项集链表头qSetHead和m个等级的项集链表组成:所述项集链表头qSetHead为由m个指针组成的指针数组,该指针数组中的第i个指针为等级为i的项集链表qSetLinki的头指针,其中,i为整数且1≤i≤m,m为所述被挖掘样本数据库的全部样本项集的长度中的最大值,所述样本项集的长度即为所述样本项集所包含项目的数量;等级为i的所述项集链表qSetLinki由Ni个项集链表结点SpcNode组成,其中,i为整数且1≤i≤m,Ni为所述被挖掘样本数据库中长度为i的所述样本项集的数量;等级为i的所述项集链表qSetLinki的第j个所述项集链表结点SpcNode由样本项集地址qSetij、样本频数sCntij、支持频数tCntij和链表指针linkij组成,其中,i为整数且1≤i≤m,j为整数且1≤j≤Ni;所述样本项集地址qSetij为与被扫描样本项集相同的所述被存储样本项集的存储地址,其中,所述被扫描样本项集为:在对所述被挖掘样本数据库的扫描过程中,第j个被扫描到的长度为i的样本项集;所述样本频数sCntij为:在所述被挖掘样本数据库的全部样本项集中,与存储在所述样本项集地址qSetij的被存储样本项集相同的样本项集的数量;所述支持频数tCntij为:在所述被挖掘样本数据库的全部样本项集中,作为存储在所述样本项集地址qSetij的被存储样本项集的真子集的样本项集的数量;所述链表指针linkij为指向等级为i的所述项集链表qSetLinki的第j+1个所述项集链表结点SpcNode的指针,其中,当j=Ni时,所述链表指针linkij为null;步骤三、基于所述半结构化数据频繁模式链表SFp‑Link对所述被挖掘样本数据库中的半结构化数据进行频繁模式挖掘,即:按所述挖掘目的需要设置支持频数阈值smin,并由高等级向低等级逐条扫描所述m个等级的项集链表,以提取出支持频数tCntij在所述支持频数阈值smin以上的被存储样本项集,这些被提取出来的被存储样本项集即为频繁项集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710664740.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种内容转载分享的方法及装置
- 下一篇:一种相对新颖性判断方法