[发明专利]基于附属参数判断无标签样本的推断结果可信度的方法在审
| 申请号: | 202010396591.4 | 申请日: | 2020-05-12 |
| 公开(公告)号: | CN113657417A | 公开(公告)日: | 2021-11-16 |
| 发明(设计)人: | 付彦伟;王艺楷;徐程明;张力 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/18 |
| 代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 卢泓宇 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 附属 参数 判断 标签 样本 推断 结果 可信度 方法 | ||
1.一种基于附属参数判断无标签样本的推断结果可信度的方法,用于在利用有标签样本和无标签样本训练模型时,筛选所述无标签样本中的可信样本进行模型训练从而提升分类模型性能,其特征在于,包括如下步骤:
步骤S1,利用特征提取器提取所有所述有标签样本和无标签样本的特征,并利用降维方法将提取的所述特征进行降维;
步骤S2,利用所述有标签样本训练分类模型;
步骤S3,利用所述分类模型对所述无标签样本进行推断从而获得预测标签;
步骤S4,根据所述有标签样本和含有所述预测标签的所述无标签样本构建以结构化参数为回归系数的含有附属参数的线性回归模型;
步骤S5,将以结构化参数为回归系数的含有所述附属参数的所述线性回归模型进行转化从而获得以所述附属参数为回归系数的所述线性回归模型;
步骤S6,求解关于所述附属参数的所述线性回归模型的解路径,利用所述附属参数的稀疏程度得到每个所述无标签样本的可信程度;
步骤S7,选取所述可信程度最高的部分所述无标签样本作为所述有标签样本重新训练所述分类模型;
步骤S8,重复步骤S2-S7直到所有的无标签样本都被选为所述有标签样本,
其中,设N个样本包含所述有标签样本和所述无标签样本,特征维度为d,总类别数量为c,Xi∈R1×d为所述特征提取器提取的所述特征,yi∈R1×c为独热向量,若所述样本i属于类别j,则yi第j维为1,否则为0,若所述样本i为所述有标签样本,则所属类别j由真实标签得到,若所述样本i为所述无标签样本,则所属类别j由所述分类模型预测得到,线性回归模型参数为β∈Rd×c,所述附属参数为γ∈RN×c,含有所述附属参数的所述线性回归模型为:
Y=Xβ+γ+ε
式中,X为所述样本按行排列后获得特征矩阵,X∈RN×d,Y为所述样本按行排列后获得标签矩阵,Y∈RN×c,ε为随机噪声,
定义R(γ)为γ的惩罚项,||·||_F为Frobenius范数,令从而获得:
式中,为摩尔-彭罗斯伪逆,
将代入L,从而获得:
式中,定义λ为关于γ的惩罚项的惩罚系数,以γ的某一行的值第一次变为全0时所对应的λ值作为该行样本Xi的稀疏程度,从而获得关于所述附属参数的所述线性回归模型:
2.根据权利要求1所述的基于附属参数判断无标签样本的推断结果可信度的方法,其特征在于:
其中,所述特征提取器提取所述特征的过程为手动标示所述特征或利用神经网络模型的特征提取部分标示所述特征。
3.根据权利要求1所述的基于附属参数判断无标签样本的推断结果可信度的方法,其特征在于:
其中,所述降维方法为主成分分析方法或局部线性嵌入方法。
4.根据权利要求1所述的基于附属参数判断无标签样本的推断结果可信度的方法,其特征在于:
其中,所述分类模型由每个类别至少一个所述有标签样本训练获得,包括逻辑回归模型、支持向量机模型以及神经网络模型。
5.根据权利要求1所述的基于附属参数判断无标签样本的推断结果可信度的方法,其特征在于:
其中,求解关于所述附属参数的所述线性回归模型问题的解路径的过程如下,
计算λmin和λmax的值,计算公式为:
λmin=ελmax
式中,ε为一小量,从λmin到λmax均匀选取n个值,从而获得λ的序列,
对λ的所述序列中的每一个值求解关于所述附属参数的所述线性回归模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010396591.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据清理方法、数据清理装置、存储介质及电子设备
- 下一篇:电子装置





