[发明专利]基于附属参数判断无标签样本的推断结果可信度的方法在审
| 申请号: | 202010396591.4 | 申请日: | 2020-05-12 |
| 公开(公告)号: | CN113657417A | 公开(公告)日: | 2021-11-16 |
| 发明(设计)人: | 付彦伟;王艺楷;徐程明;张力 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/18 |
| 代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 卢泓宇 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 附属 参数 判断 标签 样本 推断 结果 可信度 方法 | ||
本发明提供一种基于附属参数判断无标签样本的推断结果可信度的方法,其特征在于,包括如下步骤:步骤S1,利用特征提取器提取有标签样本和无标签样本的特征,并将该特征降维;步骤S2,利用有标签样本训练分类模型;步骤S3,利用分类模型对无标签样本进行推断从而获得预测标签;步骤S4,根据有标签样本和含有预测标签的无标签样本构建含有附属参数的线性回归模型;步骤S5,将含有附属参数的线性回归模型进行转化;步骤S6,求解关于附属参数的线性回归模型的解路径,利用附属参数的稀疏程度得到每个无标签样本的可信程度;步骤S7,选取可信程度最高的部分无标签样本作为有标签样本重新训练分类模型;步骤S8,重复步骤S2‑S7直到所有无标签样本均被选取。
技术领域
本发明属于半监督学习领域,涉及一种基于附属参数判断无标签样本的推断结果可信度的方法。
背景技术
半监督学习旨在通过利用未标记数据来提高有限标记数据的学习性能。现有技术的重点是在标记和未标记的数据中找到低密度区域作为决策边界的偏好设置,并尝试避免从未标记的数据中学习“错误”知识。目前,具有深度学习模型的半监督学习使用一致性正则化,移动平均技术,对抗性摄动正则化,以及其他手段通过大量未标记数据训练网络。
自学习,也称为自我训练,是一种传统的半监督策略,利用未标记的数据来提高分类器的性能。通常,最初受过训练的分类器可预测未标记实例的类别标签,进一步选择带有伪标签的未标签数据以更新分类器。当前基于自学习的算法通过联合使用标记数据和伪标记数据来训练神经网络。使用未标记数据和标记数据之间的混合以减少噪声的影响,使用标签传播基于最近邻图进行伪标签,并使用熵测量可信度,然后根据特征空间上的聚类假设,对伪标记的数据重新加权。然而,预测的伪标签可能不可信,从而使得模型可能会学习到错误的信息,并因此导致模型的性能下降。
发明内容
为解决上述问题,提供一种基于附属参数判断无标签样本的推断结果可信度的方法,本发明采用了如下技术方案:
本发明提供了一种基于附属参数判断无标签样本的推断结果可信度的方法,用于在利用有标签样本和无标签样本训练模型时,筛选无标签样本中的可信样本进行模型训练从而提升分类模型性能,其特征在于,包括如下步骤:步骤S1,利用特征提取器提取所有有标签样本和无标签样本的特征,并利用降维方法将提取的特征进行降维;步骤S2,利用有标签样本训练分类模型;步骤S3,利用分类模型对无标签样本进行推断从而获得预测标签;步骤S4,根据有标签样本和含有预测标签的无标签样本构建含有附属参数的线性回归模型;步骤S5,将以结构化参数为回归系数含有附属参数的线性回归模型进行转化从而获得以附属参数为回归系数的线性回归模型;步骤S6,求解关于附属参数的线性回归模型的解路径,利用附属参数的稀疏程度得到每个无标签样本的可信程度;步骤S7,选取可信程度最高的部分无标签样本作为有标签样本重新训练分类模型;步骤S8,重复步骤S2-S7直到所有的无标签样本都被选为有标签样本,其中,设N个样本包含有标签样本和无标签样本,特征维度为d,总类别数量为c,Xi∈R1×d为特征提取器提取的特征,yi∈R1×c为独热向量,若样本i属于类别j,则yi第j维为1,否则为0,若样本i为有标签样本,则所属类别j由真实标签得到,若样本i为无标签样本,则所属类别j由分类模型预测得到,线性回归模型参数为β∈Rd×c,附属参数为γ∈RN×c,含有附属参数的线性回归模型为:
Y=Xβ+γ+ε
式中,X为样本按行排列后获得特征矩阵,X∈RN×d,Y为样本按行排列后获得标签矩阵,Y∈RN×c,ε为随机噪声,定义R(γ)为γ的惩罚项,||·||_F为Frobenius范数,令从而获得:
式中,为摩尔-彭罗斯伪逆,将代入L,从而获得:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010396591.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据清理方法、数据清理装置、存储介质及电子设备
- 下一篇:电子装置





