[发明专利]一种多标签分类方法、系统、装置及存储介质有效
申请号: | 201910261794.X | 申请日: | 2019-04-02 |
公开(公告)号: | CN109948735B | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 宋科建;刘波;肖燕珊 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标签 分类 方法 系统 装置 存储 介质 | ||
本发明公开了一种多标签分类方法,首先确定训练数据,然后利用待学习字典对训练数据进行学习得到对应的目标字典和稀疏编码,并且本方案再次对稀疏编码进行投影得到分析字典,然后确定分析字典、目标字典、稀疏编码与预设分类器的最优解,利用相应的最优解进行多标签分类。相比现有技术,本方案中,在进行一次字典学习的基础上,又对稀疏编码进行了字典学习,即对稀疏编码进行投影得到相应的分析字典,然后结合两个字典进行多标签分类。两次字典学习可以对训练数据中的特征提取更加完备,从而使分类结果更加准确。本申请还提供了一种多标签分类系统、装置及计算机可读存储介质,同样可以实现上述技术效果。
技术领域
本发明涉及标签分类领域,更具体地说,涉及一种多标签分类方法、系统、装置及计算机可读存储介质。
背景技术
近年来,互联网技术的蓬勃发展,给世界带来了翻天覆地的变化,数据资源呈现指数级别的速度增长,数据量越来越多,形式也千变万化。信息化已渗透到我们生活中的各个角落,我们正置身于一个信息极其丰富的数字化时代,为我们搜索信息带来了极大的便利;然而,面对如此丰富的数据资源,如何从中快速有效的找到对我们有价值的信息,成为研究者们关注的一大热点,因此对资源进行适当分类的各项技术应运而生。其中,数据集中标签个数有多个时,对应的标签分类方法为多标签分类。
在现有方案中有一种方法,对训练数据进行字典学习,得到对应训练数据的字典数据,并将具有类似标签的字典组合为一个数据进行分类。但是目前这种方案得到的标签分类结果的准确性较低。
因此,如何提高多标签分类准确性,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种多标签分类方法、系统、装置及计算机可读存储介质,以解决如何提高多标签分类准确性的问题。
为实现上述目的,本发明实施例提供了如下技术方案:
一种多标签分类方法,包括:
确定训练数据;其中所述训练数据包括训练样本和对应每个训练样本的标签集合;
利用待学习字典对所述训练数据进行学习,得到对应每个标签的目标字典与每个标签的样本集合的稀疏编码;
对所述稀疏编码进行投影,得到每个标签的分析字典;
利用所述分析字典、所述目标字典与预设分类器得到目标优化问题;其中,所述预设分类器为对应预设矩阵的分类器,所述预设矩阵为对应标签个数与样本个数的矩阵;
利用所述优化问题确定所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解;
利用所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解对待分类标签进行分类。
可选地,所述对所述稀疏编码进行投影,得到每个标签的分析字典之前,还包括:
利用l2,1范数对所述系数编码进行约束处理。
可选地,所述目标优化函数包括:
式中,Xl为具有第l个标签的样本集合,为不具有第l个标签的样本集合,为分析非相关促进项,Sl为Xl的稀疏编码,Pl为对稀疏编码进行投影得到的分析字典;
为分析稀疏编码提取项,为预设分类器训练函数,α、σ和τ均为预设正则化参数;M为实数集中大小为L×N的矩阵,其中L为标签的个数,N为训练样本的个数,Ml为矩阵的第l行;β>0为正则化实数,δl为实数;C为正则化参数,用于调整误差的惩罚;ξl>0为松弛变量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910261794.X/2.html,转载请声明来源钻瓜专利网。