[发明专利]一种基于特征聚类和标签相似性的标签增强方法在审
申请号: | 202110088305.2 | 申请日: | 2021-01-22 |
公开(公告)号: | CN112766383A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 蒋文田;杨柏林;马希骜 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州奥创知识产权代理有限公司 33272 | 代理人: | 王佳健 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 标签 相似性 增强 方法 | ||
本发明提出了一种基于特征聚类和标签相似性的新型标签增强方法。本发明采用的方法如下:给定多标签样本的集合M,将集合M分成两部分,一部分是表示特征的集合F,另一部分表示标签的集合L;先对集合M进行预处理,主要包括数据缺失值处理、数据归一化;通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S;确定邻近样本集合S之后,通过标签权重的方法将样本a的标签从多标签数据状态,转化成标签分布的标签描述度;需要对所有的样本基于特征聚类和标签相似性的方法和标签权重的方法,得到标签分布的集合D。本发明简单高效,结合特征信息和标签信息,能有效地将多标签数据集转成标签分布数据集。
技术领域
本发明属于机器学习与模式识别领域,涉及多标签分类学习和标签分布学习,具体涉及一种基于特征聚类和标签相似性的标签增强方法。
背景技术
对比于单标签学习和多标签学习,标签分布学习则更加精确。单标签学习往往只有一个标签,只能将一个实例简单地映射到一个单一的逻辑标签,在实践中存在局限性。而多标签学习解决了这个问题,在多标签学习中,每个样本由一个标签向量描述,其中的元素为1或0,以证明该实例是否属于相应的标签。尽管多标签学习在许多地方上取得了成功,但是在一些复杂的场景中,例如面部表情识别和图片美学评估等,原始多标签学习的性能受到阻碍,因为模型精确地将实例映射到具有定量描述度的实值标签向量,即标签分布,在这些任务中是必需的。并且在多标签学习中标签对实例的描述具有不同的重要性,而且多标签学习中标签之间的重要性不完全相等。于是乎,标签分布学习就应运而生。标签分布学习是多标签学习的自然延伸。不同于传统的多标签学习来决定简单的0/1标签归属,标签分布学习输出一个软标签归属。此外,每个标签描述实例的程度由一个标签分布的相应值表示,称为描述度,且一个样本的所有描述度加起来的和等于1。
然而,标签分布数据集由于手工标注的原因,而极为稀少。于此相对的,多标签数据集较为丰富。因此我们考虑一种基于特征聚类和标签相似性的方法将多标签数据集转成标签分布数据集。
发明内容
本发明针对现有技术的不足,提出了一种基于特征聚类和标签相似性的新型标签增强方法。
本发明解决其技术问题所采用的技术方案具体步骤如下:
步骤1:给定多标签样本的集合M,将集合M分成两部分,一部分是表示特征的集合F,另一部分表示标签的集合L。
步骤2:对集合M进行预处理,主要包括数据缺失值处理、数据归一化。
步骤3:通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S。
步骤4:确定邻近样本集合S之后,通过标签权重的方法将样本a的标签从多标签数据状态,转化成标签分布的标签描述度。
步骤5:对所有的样本重复步骤3和4,得到标签分布的集合D。
本发明的有益效果:本发明简单高效,结合特征信息和标签信息,能有效地将多标签数据集转成标签分布数据集。
附图说明
图1为本发明方法流程图。
具体实施方式
以下结合附图1对本发明做一步说明。
如图1所示,本发明包括以下步骤:
步骤1:给定多标签样本的集合M,将集合M分成两个部分,一个是表示特征的集合F,另一个表示标签的集合L。对于每个实例来说有p个特征,q个标签。
步骤2:对集合M进行预处理操作,主要包括数据缺失值处理、数据归一化等。
步骤3:通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110088305.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:PYL3蛋白突变体及其应用
- 下一篇:数据加载方法、装置及存储介质