[发明专利]一种结合分歧融合决策的半监督分类方法在审
申请号: | 202110641141.1 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113283531A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 袁华;甘玉婉;莫建文 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/20 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 陆梦云 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 分歧 融合 决策 监督 分类 方法 | ||
1.一种结合分歧融合决策的半监督分类方法,其特征在于,包括如下步骤:
1)模型初始化:结合分歧融合决策的半监督分类模型以集成深度网络为基础,所述集成深度网络框架设有顺序连接的一个共同的特征提取器和三个不同结构的分类器,首先将数据集分成有标记数据集DL={(xl,yl)|l=1,2,...,L}和未标记数据集DU={(xu)|u=1,2,...,U},采用mixup数据增强方法扩充初始有标记样本集,分别对三个分类器进行初始化即将真实标记数据集DL={(xl,yl)|l=1,2,...,L}分成三个子集从子集中随机抽取一个样本对和进行mixup线性插值,其中,i=1,2,3,过程如公式(1)所示:
其中λ~Beta(α,α),α∈(0,∞),λ∈[0,1],首先,根据公式(1)得到插值样本再利用插值样本得到的三个扩充后的训练集其中,i=1,2,3,分别对分类器h(i)进行初始化,i=1,2,3,损失函数为公式(2)所示:
其中,表示将输入特征提取器g后,经过分类器h(i)得到的输出,i=1,2,3;
2)预测伪标签和置信度:将未标记样本输入模型,预测伪标签和置信度即从未标记数据集DU={(xu)|u=1,2,...,U}中随机抽取N=1000×2t个样本,构成样本集DN={(xn)|n=1,2,...,N},将其中的样本依次输入三个分类器h(i),每个分类器会产生各自的输出值其中,i=1,2,3,将分类器h(1)、h(2)预测类别一致的样本挑选出来,并计算和之间的平均值作为该样本的伪标签,如公式(3)所示:
同时,将伪标签中的最大概率值作为该样本xn在分类器h(1)和h(2)上的决策置信度将分类器h(3)的预测值中的最大概率值作为该样本xn在分类器h(3)上的决策置信度再根据样本xn的伪标签和分类器h(3)的预测值判断对应的决策类别;
3)基于分歧的融合决策规则,筛选出高置信伪标记样本并计算相应的权重:根据每个样本对应的决策置信度和将伪标记样本集划分为高置信样本集和低置信样本集,并计算每个伪标记样本xn的权重,分为三种情况:
1-3)如果样本xn的伪标签和分类器h(3)的预测值所对应的决策类别相同,则将该样本判定为高置信样本,权重为
2-3)如果样本xn的伪标签和分类器h(3)的预测值所对应的决策类别不同,且该样本在分类器h(1)和h(2)上的决策置信度大于分类器h(3)上的决策置信度则仍将该样本判定为高置信样本,权重为
3-3)如果样本xn的伪标签和分类器h(3)的预测值所对应的决策类别不同,且该样本在分类器h(1)和h(2)上的决策置信度小于分类器h(3)上的决策置信度则仍将该样本判定为低置信样本,权重为0,
在结合分歧的融合决策筛选过程中,将伪标记样本xn的权重wn表示为如公式(4)所示:
4)将高置信样本加入原始有标记样本集,扩充训练集:将高置信样本加入原始有标记样本集Dp3,并将原始有标记样本集Dp3中样本的伪标签转化成one-hot形式,如公式(5)所示:
将原始有标记样本集其中wm表示权重,M表示原始有标记样本集Dp3的样本数量作为高置信伪标记样本集;
5)动态重加权:对每个分类器进行动态重加权训练即将作为新的伪标记样本集,和原始的真实标记样本集DL一同构成新的有标记训练集X(i),其中,其中表示权重、M表示集合Dpi的样本数量,此时,每个训练集X(i)=DL∪Dpi,分别对分类器h(i)进行动态重加权训练,损失函数为公式(6)所示:
6)重复步骤2)至步骤5),直至模型收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110641141.1/1.html,转载请声明来源钻瓜专利网。