[发明专利]一种基于熵的多标签数据分类方法在审

申请号：	202010096523.6	申请日：	2020-02-17
公开（公告）号：	CN111325264A	公开（公告）日：	2020-06-23
发明（设计）人：	杜博;陈玉坤	申请（专利权）人：	武汉大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/10
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	王琪
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于标签数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于熵的多标签数据分类方法，包括训练阶段和测试阶段。训练阶段包括数据样本的选取、构建训练集、构建标签集、分类器构建及参数分析。选取合适的数据样本，将样本按照4:1的比例分为训练集与测试集，计算训练集样本中各个标签的熵值，通过对标签熵值的排序来选取出合适的标签集，进行参数分析，得出最优的标签子集数和投票阈值，基于Label Powerset分类器进行训练。在测试阶段，以测试集中样本为输入，经过训练好的分类器进行预测，并对预测结果进行评价，从而获得多标签数据分类结果。

技术领域

本发明属于机器学习多标签分类领域，尤其涉及一种基于熵的多标签数据分类方法。

背景技术

在机器学习领域，传统监督学习是研究得最多、应用最广泛的一种学习框架。在该框架下，对于真实世界的每一个对象，学习系统利用某种学习算法学得输入空间与输出空间之间的一个映射，基于该映射可以预测未见示例的类别标签,在待学习对象具有明确、单一的语义，即对象的类别标签唯一时，传统监督学习框架已经取得了巨大的成功。

然而，真实世界的对象往往并不只具有唯一的语义，而是可能具有多义性的。随着科学技术的不断提高，数据各式各样的表现形式也在不断丰富，样本单一类别标签的假设己经难以准确描述现实对象的语义信息。由于客观物体本身的复杂性和多义性，现实生活中的很多对象可能同时与多个类别标签相关。为了直观地反映多义性对象所具有的多种语义信息，一种很自然的方式就是为该对象显式地赋予一组合适的类别标签，即标签子集。基于上述考虑，多标签学习框架由此应运而生。在该框架下，每个对象由一个示例描述，该示例具有多个而不再是唯一的类别标签，学习的目标是将所有合适的类别标签赋予未知示例。

针对多标签分类问题，国内外学者提出了很多方法。现有的多标签学习方法可以被分为以下两大类，第一类是“问题转换”方法，第二类是“算法适应”方法。对于“问题转换”方法，其策略是将多标签分类问题转换成一系列单标签分类问题，从而可以更加方便地应用现有的单标签学习算法来解决问题。对于“算法适应”方法，其策略是将目前的单标签学习算法进行改进和扩展，使其能用到多标签分类任务中。

问题转化方法通常将多标签分类问题转化为已知的其他学习问题，例如单标签分类问题和标签排序问题等。考虑到单标签分类问题是多标签分类的特例以及针对单标签分类已有很多高效准确的算法，因此“问题转换”方法在研究过程中很自然地将多标签分类转换成不同类型的单标签分类问题，“算法适应”方法则是改编其他一些己知的学习算法来直接处理多标签分类问题。

除了二分类问题外，多分类问题同样是许多研究者在设计多标签分类算法时考虑转化的对象。LP(Label Powerset)方法首先将训练集中各个样本所对应的所有不同标签子集变换成一系列不同的类别值。其中每个唯一的标签子集都对应一个类别，并通过训练多类分类器对未知样本进行分类，然后把该多分类器输出的类别所对应的标签子集作为该样本最终的预测结果。但是对于一个包含q个标签的数据集来说，其标签子集的数目最多可达到2^q-1，因此实际数据集中很多标记子集所对应的样本数目都非常少，很可能导致不平衡分类问题，从而影响最终的分类泛化性能，并且方法也无法预测那些训练集中没有出现过的标签子集。为了克服这些不足，RAKEL(Random K-labelsets)算法随后被提出。它的主要思想是：通过集成学习的框架建立一系列多类分类器，其中每个多分类器都是从标签集合的所有标签子集中随机选择个子集，然后通过方法构造，最终通过投票法来预测未知样本的相关标签子集。RAKEL方法基于上述思想，克服了LP方法存在的不足，但也带来了一些其他的缺点，随机选择的标签集可能导致单标签多类学习的数据分布不均衡，同一标签集中不同标签之间的依赖关系也可能导致严重的信息冗余和重叠。这两种缺陷都会影响多标签学习的泛化能力。

发明内容

针对现有技术存在的不足，本发明提供了一种高准确度的基于熵的多标签数据分类方法。

为解决上述技术问题，本发明采用如下的技术方案，一种基于熵的多标签数据分类方法，包括如下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010096523.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于熵的多标签数据分类方法在审

专利文献下载