[发明专利]基于新标签发现和标签增量学习的动态多标签分类方法在审

专利信息
申请号: 201810470711.3 申请日: 2018-05-17
公开(公告)号: CN108717552A 公开(公告)日: 2018-10-30
发明(设计)人: 吴骏;李永春;闫梦奎;陈港;李宁 申请(专利权)人: 南京大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 彭雄
地址: 210093 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 标签 数据流 标签分类 分类模型 聚类模型 增量学习 子模型 样本 更新 存储 缓存 标签产生 初始数据 分类性能 模型更新 时间成本 训练模型 缓冲区 发现 放入 构建 分类 预测
【说明书】:

发明公开了一种基于新标签发现和标签增量学习的动态多标签分类方法,在初始阶段,根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型和初始集成聚类模型;数据流预测阶段,将具有新标签的样本放入一个缓冲区存储;模型更新阶段,构建新标签的子模型,将新标签子模型更新到分类模型中,并基于新标签样本对集成聚类模型更新。该方法不仅可以及时发现数据流中数据诞生的新标签,还避免了在数据流中存储大量的数据,只需要缓存一定的数据作为更新即可,进一步避免了重新训练模型导致的时间成本问题,同时解决了动态多标签分类问题中新标签产生的问题并在数据流中维持较高分类性能。

技术领域

本发明涉及多标签学习和数据流分类计数,具体涉及集成聚类和基于标签的增量学习方法。

背景技术

21世纪是互联网技术飞速发展的世纪,随之而来的是数据量的与日俱增,各行各业都累积了海量的数据。这些数据中蕴含了许多高价值的信息,利用这些信息我们能够更好的改善人们的生活。然后现实中的数据大多是多标签数据,多标签数据最明显的特征就是一个示例同时属于多个标签,这也是它与传统的单标签(二分类或者多分类)问题最显著的区别。

以往针对多标签分类问题的研究大都基于这样的假设:数据的大小是已知的,固定的,数据所属的标签也是固定的,然而在现实的应用中,数据的标签是逐渐产生的,数据也是以流式数据的形式到来的,这就产生了新标签发现问题和模型的增量学习问题。

目前针对多标签环境中的新标签发现问题的研究还较少,更多的是多分类问题中的新类别发现问题,它们大都基于异常发现的思路去解决,这样的方法并不适用于多标签环境,因为多标签环境中一个新到来样本可能不仅具有新标签,还具有已知的标签,且在新标签1还未达到更新的阈值时,新标签2出现,也就是以往的新标签发现算法不具有同时发现两个或者更多的新标签的能力。数据流中的增量学习问题以往的解决办法多是基于集成的方式,将数据流划分成多个数据块,给每一个数据块训练一个模型,然后集成起来作为总的模型,这样的办法并不能直接应用于有新标签产生的多标签数据流分类环境中,因为在该过程中有新标签的诞生,这个模型的更新带来了更大的挑战。

发明内容

发明目的:本发明所要解决的问题是动态多标签分类问题(多标签数据流分类问题)中新标签发现问题和基于标签的增量学习问题,提出了基于集成聚类的新标签发现方法和基于pairwise label ranking loss和误分类损失的模型更新方法。

技术方案:为实现上述目的,本发明采用的技术方案为:

一种基于新标签发现和标签增量学习的动态多标签分类方法,包括如下步骤:

步骤1,初始化阶段:根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型以及基于k-means的集成聚类新标签发现模型。

步骤2,数据流预测阶段:对于数据流中的每一个新样本,经过集成聚类新标签发现模型判断是否具有新标签,将具有新标签的样本放入一个缓冲区存储,然后传递给分类模型判断分类标签;

步骤3,模型更新阶段:当缓冲区达到设定的阈值,针对新标签基于pairwiselabel ranking loss和误分类损失构建新标签子模型,将新标签子模型更新到分类模型中,并基于新标签样本对集成聚类新标签发现模型更新。其中将新标签子模型更新到分类模型包括如下步骤:

S301、使用一个线性模型来表示新标签的分类模型:

S302、基于Buffer1和Buffer2的数据优化下列函数:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810470711.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top