[发明专利]一种面向标记噪声的多标记分类方法有效
| 申请号: | 202010583875.4 | 申请日: | 2020-06-24 |
| 公开(公告)号: | CN111783788B | 公开(公告)日: | 2022-11-08 |
| 发明(设计)人: | 张敏灵;方军鹏 | 申请(专利权)人: | 东南大学 |
| 主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/30 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 颜盈静 |
| 地址: | 211100 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 标记 噪声 分类 方法 | ||
本发明公开了一种面向标记噪声的多标记分类方法,该方法适用于标记空间含有噪声的多标记数据分类场景,具体包括以下步骤:(1)用户在保证完全获得真实标记的前提下收集多标记数据;(2)利用ECOC编码对原始标记进行embedding,按照ECOC编码重新为每个码字选择正负训练样本;(3)基于每个码字重构的二类分类集训练二类分类模型;(4)根据训练所得分类模型对未见示例进行预测,得到每个码字上的分类结果;(5)根据欧式距离计算原始空间每个标记的ECOC编码和未见示例的预测编码之间的距离,将满足筛选条件的标记视为未见示例的真实标记;(6)如果用户对预测结果满意,则结束,否则转到步骤(2),对原始标记重新进行ECOC编码。
技术领域
本发明涉及一种面向标记噪声的多标记分类方法,属于弱监督分类技术领域。
背景技术
在传统的监督学习中,每一个示例都有单一和明确的标记,基于此前提的诸多监督学习方法都已经取得了巨大的成功。但是在实际应用中,我们获得的标记信息往往是多个而且可能是不准确的。所以研究者们提出了半监督学习、多标记学习、偏标记学习和多示例学习等框架用于解决此类困难。
含噪多标记学习是一种新型的学习框架,它可以看作是多标记学习和偏标记学习的结合。在多标记学习中,一个示例对应多个真实标记;在偏标记学习中,一个示例对应一个候选标记的集合,但是集合中只包含一个真实标记。而在含噪多标记学习中,一个示例对应一个候选标记的集合,集合中有一个或多个真实标记。含噪多标记学习的目标就是利用含有噪声的数据集训练一个多标记预测器,它能够预测出未见示例的所有真实标记。目前主流的方法是利用标记置信度等手段对数据集进行降噪,然后加以训练,但是这样的方法不能保证降噪的效果,因此在训练的过程中仍然会受到噪声标记的影响。
发明内容
本发明针对含噪多标记数据的数据特性以及降噪的预处理步骤的不确定性加以改进,通过ECOC编码直接利用含噪数据,免去降噪步骤,充分利用原始数据来提升分类的性能。
技术方案:一种面向标记噪声的多标记分类方法,包括以下步骤:
步骤1:获取具有真实标记的多标记样本数据D={(xi,Yi)|1≤i≤m},其中xi表示第i个样本数据,Yi表示xi对应的候选标记集合,m表示收集的多标记样本数量;
步骤2:构建编码矩阵,其中,编码矩阵的每一行表示类别标记的编码,其每一列表示对标记的一个划分;通过构建的编码矩阵的第一列对步骤1获取到的多标记样本数据的标记进行划分得到第一列对应的子训练集,以此类推直至得到编码矩阵最后一列对应的子训练集;
步骤3:采用编码矩阵的第一列对应的子训练集对二类分类器进行训练,得到其对应可用的二类分类器;以此类推直至完成编码矩阵最后一列对应的二类分类器的训练;
步骤4:将待分类数据输入至步骤3训练好的所有二类分类器中进行分类,得到与编码矩阵每一列对应的预测标记;
步骤5:根据欧式距离,计算待分类数据的预测标记的编码码字与编码矩阵的每行码字之间的距离,将满足距离阈值的预测标记视为待分类数据的真实标记;
步骤6:判断步骤5得到的待分类数据的真实标记是否满足用户要求,若满足,则结束,否则转到步骤2,对编码矩阵进行调整。
进一步的,所述步骤2具体为:
步骤2.1:定义一个q×L的ECOC编码矩阵M∈{+1,-1}q×L,用于对多标记样本数据的标记空间进行表示,其中,M的每一行M(j,:)的长度为L,其表示类别标记yj的编码,M的每一列M(:,l)表示对标记的一个划分,初始阶段,该编码矩阵为空矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010583875.4/2.html,转载请声明来源钻瓜专利网。





