[发明专利]一种基于直接区分序列挖掘的不确定数据分类方法在审

专利信息
申请号: 201811207644.2 申请日: 2018-10-17
公开(公告)号: CN109447138A 公开(公告)日: 2019-03-08
发明(设计)人: 赵宇海;印莹;刘陆洋;王国仁 申请(专利权)人: 东北大学
主分类号: G06K9/62 分类号: G06K9/62;G06F16/2458
代理公司: 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 代理人: 李晓光
地址: 110169 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据分类 序列结果 序列挖掘 标签 结果集 数据集 序列检测算法 支持向量机 最小支持度 满足条件 模式挖掘 模式增长 生成模式 信息增益 初始化 子序列 概率 导出 枚举 削减 挖掘 分类 补充 成熟 检查
【说明书】:

发明公开了一种基于直接区分序列挖掘的不确定数据分类方法,对不确定数据集UTD,首先初始化类标签,给出类标签集;在类标签集下,基于给定的信息增益阈值导出最小支持度阈值:采用模式增长策略进行子序列枚举,生成模式候选x,挖掘其中的区分序列,并采用削减策略,生成最终的区分序列结果集Rs;再对区分序列结果集Rs检查,利用闭序列检测算法判断Rs中的每个候选区分序列是否为概率频繁闭序列;若是概率频繁闭序列,则将满足条件的区分序列加入结果集RsTmp;最后结合基于规则的分类方法或支持向量机已有的成熟数据分类方法,完成数据分类。本发明作为不确定数据集上区分模式挖掘补充,显著提高效率,结果集更加简洁。

技术领域

本发明公开了一种数据挖掘技术,具体为一种基于直接区分序列挖掘的不确定数据分类方法。

背景技术

近年来,随着不确定数据应用范围的扩展,对于不确定数据处理的研究正变得越来越火热。对于确定数据集上的序列模式挖掘,大都有已经比较成熟的方法,例如用于频繁模式挖掘的Clospan算法,用于频繁闭模式挖掘的BIDE算法,用于区分模式挖掘的DDPMine算法等。因此在确定数据集上的序列挖掘目前的研究方向主要致力于提出更高效率的方法,定制强力的削减规则等。而对于不确定数据集上的序列模式挖掘目前相关的方法较少。如基于前缀投影模式U-PrefixSpan算法,该方法创新性地对不确定序列数据构建了两个模型,对应于现实应用的两大类基本情况。Chuancong Gao等人提出不确定的区分模式挖掘,该方法的不足之处在于它的数据模型局限性较大,且只能应用于区分频繁项集的挖掘。目前,在不确定数据下实现区分序列挖掘,具有很强的应用意义。

分类是数据挖掘中最为重要的方法之一。与其他方法不同,关联分类试着在输入数据中找到所有的,满足用户定义的最小支持度、最小置信度或信息增益的频繁模式。继而,这些模式可以被用作基于规则分类器的分类规则或是支持向量机(SVM)分类器的训练特征。虽然在确定数据集上分类区分序列挖掘方法有很多,但对于用于不确定数据分类的直接区分子序列挖掘,目前研究较少。HARMONY方法采用以实例为中心,实例对应的分类就是拥有最高置信度的那个分类。该方法提出了一个可以挖掘实例对应的top-k个覆盖集,该方法被是应用在基因表达数据中。uHARMONY是对HARMONY在不确定数据库中的应用而改进的方法,它提出了一个以特征为中心的分类方法,通过设定一定的阈值,保证每一个实例至少被一个特征所覆盖。虽然uHarmony方法提出了用于不确定数据分类的区分项集挖掘,但该方法具有很大的局限性,即不确定数据格式单一、且不适用于现实生活中产生的诸多不确定序列数据。

发明内容

针对现有技术中面向不确定数据分类方法存在不确定数据格式单一、且不适用于现实生活中产生的诸多不确定序列数据等不足,本发明要解决的问题是提升效率和可扩展性,同时保证较高的分类准确度的基于直接区分序列挖掘的不确定数据分类方法。

为解决上述技术问题,本发明采用的技术方案是:

本发明提出一种基于直接区分序列挖掘的不确定数据分类方法,对给定的不确定数据集UTD,包括以下步骤:

1)初始化类标签InitializeLabel(),给出类标签集C{c1,c2,…,cn};

2)在类标签集下,基于给定的信息增益阈值导出最小支持度阈值:min_sup=f(maxIG),即利用最小支持度的设定算法MinSupGen求出最小支持度阈值;

3)在最小支持度阈值下采用基于前缀投影的模式增长策略进行子序列枚举,生成模式候选x:

x=PrefixSpanGrowth(X),X为前缀投影序列;

4)对生成的模式候选x挖掘其中的区分序列,利用IGMine算法和ECMine算法来进行区分序列的初始挖掘工作,通过Prune削减策略进行空间削减,生成最终的区分序列结果集Rs;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811207644.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top