[发明专利]一种基于依赖度的半监督多标签分类方法在审

专利信息
申请号: 201811570949.X 申请日: 2018-12-21
公开(公告)号: CN109754000A 公开(公告)日: 2019-05-14
发明(设计)人: 丁家满;罗青波 申请(专利权)人: 昆明理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 标签分类 依赖度 半监督 标签数据 算法 标签 数据利用率 数据分类 自训练 引入
【说明书】:

发明涉及一种基于依赖度的半监督多标签分类方法,属于数据分类中的多标签分类技术领域。本发明基于多标签分类算法,提出了一种新的依赖度计算方法,通过引入标签依赖度,计算标签之间的相互关系,提高了多标签分类算法的效果;同时,利用半监督自训练模型,引入大量无标签数据,提高数据利用率,减少因为有标签数据获取难度较大造成的影响。

技术领域

本发明涉及一种基于依赖度的半监督多标签分类方法,属于数据分类中的多标签分类技术领域。

背景技术

在对数据进行分析的时候,数据分类可以有效的帮助人们更好的解读数据。在诸多领域,如:模式识别、图像分类、生物基因功能分析等领域中,数据分类都有着很重要的作用。多标签分类是数据分类中的一类,指每一个实例都与多个标签有关。而传统用于处理数据分类的单标签分类算法已经不能适用于多标签分类,所以研究高效的多标签分类方法有非常重要的意义。随着研究的发展,目前关于多标签分类的方法,主要分为两类:问题转化法和算法适应法。

问题转化法是将多标签分类的问题分解转化为几个相对互相独立的二分类问题。如:二值相关Binary Relevance(BR)算法,该算法是一种典型的拆分数据的方法,这种方法非常直观,但是并没有考虑标签之间的相互关系,预测结果往往无法令人满意。LP(LabelPowerset)算法,该方法通过将每个对象所在的标签集合视为一个新的标签,进而将多标签分类的问题转化为单标签分类问题,但是该方法不能预测新的标签,只能从已知的标签中选择。RAkEL算法是在LP算法的基础上进行了改进,该方法通过将候选集合利用随机的方式划分为n个标签子集,虽然考虑了标签的相互关系,但是由于同一个标签子集中会出现没有任何关系的标签,从而导致毫不相干的标签出现在分类结果中,这极大的降低了方法分类性能。

算法适应法是通过修改现有的算法,以适应多标签分类问题。如:基于神经网络的算法(BP-MLL),通过构造新的错误函数以获取多标签数据的特征,但是却增加了计算复杂度。SVMMN方法,将示例平滑度和类平滑度集成到准则函数中,提出了一种近似迭代算法,该方法具有良好的收敛性,但是计算复杂度高,且需要高效率的求解器。ML-kNN算法,该算法通过学习待分类数据的k个近邻信息,然后利用最大化后验概率预测待分类数据的标签,但是该算法忽略了标签之间的相互关系。CWMI-INSDIF算法,通过结合数据重要度的权重参数,加入自适应的惩罚策略,以确定各个权重的大小,该算法能充分的考虑数据分布的特性,但是忽视了标签之间的相互关系。现实生活中的数据,往往都是非独立同分布的,在多标签分类中,数据的标签之间定然存在着这种关系,因此,将标签的相互关系考虑到多标签分类中,是否可以挖掘潜在的信息,能否提高分类的性能,对多标签分类有着很重要的研究意义。

以上的算法均基于监督学习思想,但在实际的应用过程中,对多标签数据的学习中通常需要有一定量的有正确标签的数据作为参考,但是有标签的数据往往获取难度远大于获取无标签数据。如在基因序列的对比上,若想获取有标签的数据,需要使用专业的特殊设备或进行用时非常长且花费昂贵的实验才可获取,但可以轻松的获取到海量的无标签数据。传统的监督学习只能利用少量的有标签数据进行学习,而无监督学习只利用无标签数据进行学习,两种方法均不能得到很满意的模型。但半监督学习可以同时利用有标签数据和无标签数据进行学习,如DLP算法,探讨了标记信息和局部结构在改进的半监督学习中转移矩阵的作用,它通过传播在动态过程中进行直接学习。还有基于情感标签的极性分类方法,通过文本建立模型,抽取文本的情感标签,将样本分为两个子样本,然后通过Co-training算法分类,最后合并两个子样本的分类结果,大幅提高分类精度。以上算法虽然结合了半监督学习思想,利用无标签数据提高了分类精度,但是并没有考虑标签之间的相互关系,忽视了标签的相关性。因此,如何利用半监督学习思想来解决有标签数据量和无标签数据量不平衡的问题,同时可以保证标签之间的相关性变得尤为重要。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811570949.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top