[发明专利]一种基于特征聚类和标签相似性的标签增强方法在审

申请号：	202110088305.2	申请日：	2021-01-22
公开（公告）号：	CN112766383A	公开（公告）日：	2021-05-07
发明（设计）人：	蒋文田;杨柏林;马希骜	申请（专利权）人：	浙江工商大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	杭州奥创知识产权代理有限公司 33272	代理人：	王佳健
地址：	310018 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于特征标签相似性增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种基于特征聚类和标签相似性的新型标签增强方法。本发明采用的方法如下：给定多标签样本的集合M，将集合M分成两部分，一部分是表示特征的集合F，另一部分表示标签的集合L；先对集合M进行预处理，主要包括数据缺失值处理、数据归一化；通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S；确定邻近样本集合S之后，通过标签权重的方法将样本a的标签从多标签数据状态，转化成标签分布的标签描述度；需要对所有的样本基于特征聚类和标签相似性的方法和标签权重的方法，得到标签分布的集合D。本发明简单高效，结合特征信息和标签信息，能有效地将多标签数据集转成标签分布数据集。

技术领域

本发明属于机器学习与模式识别领域，涉及多标签分类学习和标签分布学习，具体涉及一种基于特征聚类和标签相似性的标签增强方法。

背景技术

对比于单标签学习和多标签学习，标签分布学习则更加精确。单标签学习往往只有一个标签，只能将一个实例简单地映射到一个单一的逻辑标签，在实践中存在局限性。而多标签学习解决了这个问题，在多标签学习中，每个样本由一个标签向量描述，其中的元素为1或0，以证明该实例是否属于相应的标签。尽管多标签学习在许多地方上取得了成功，但是在一些复杂的场景中，例如面部表情识别和图片美学评估等，原始多标签学习的性能受到阻碍，因为模型精确地将实例映射到具有定量描述度的实值标签向量，即标签分布，在这些任务中是必需的。并且在多标签学习中标签对实例的描述具有不同的重要性，而且多标签学习中标签之间的重要性不完全相等。于是乎，标签分布学习就应运而生。标签分布学习是多标签学习的自然延伸。不同于传统的多标签学习来决定简单的0/1标签归属，标签分布学习输出一个软标签归属。此外，每个标签描述实例的程度由一个标签分布的相应值表示，称为描述度，且一个样本的所有描述度加起来的和等于1。

然而，标签分布数据集由于手工标注的原因，而极为稀少。于此相对的，多标签数据集较为丰富。因此我们考虑一种基于特征聚类和标签相似性的方法将多标签数据集转成标签分布数据集。

发明内容

本发明针对现有技术的不足，提出了一种基于特征聚类和标签相似性的新型标签增强方法。

本发明解决其技术问题所采用的技术方案具体步骤如下：

步骤1：给定多标签样本的集合M，将集合M分成两部分，一部分是表示特征的集合F，另一部分表示标签的集合L。

步骤2：对集合M进行预处理，主要包括数据缺失值处理、数据归一化。

步骤3：通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S。

步骤4：确定邻近样本集合S之后，通过标签权重的方法将样本a的标签从多标签数据状态，转化成标签分布的标签描述度。

步骤5：对所有的样本重复步骤3和4，得到标签分布的集合D。

本发明的有益效果：本发明简单高效，结合特征信息和标签信息，能有效地将多标签数据集转成标签分布数据集。

附图说明

图1为本发明方法流程图。