[发明专利]一种结合分歧融合决策的半监督分类方法在审
申请号: | 202110641141.1 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113283531A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 袁华;甘玉婉;莫建文 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/20 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 陆梦云 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 分歧 融合 决策 监督 分类 方法 | ||
本发明公开了一种结合分歧融合决策的半监督分类方法,其特征在于,包括如下步骤:1)模型初始化;2)预测伪标签和置信度;3)基于分歧的融合决策规则,筛选出高置信伪标记样本并计算相应的权重;4)将高置信样本加入原始有标记样本集,扩充训练集;5)动态重加权;6)重复步骤2)至步骤5),直至模型收敛。这种方法在提升模型分类精度的同时,有效地缓解了过拟合问题,提升模型泛化性能。
技术领域
本发明涉及数字图像处理技术领域,具体是一种结合分歧融合决策的半监督分类方法。
背景技术
半监督分类是机器学习领域中的重要研究内容。在很多实际任务中,获取数量较多的有标记样本往往需要耗费大量的人力物力,半监督学习能够通过大量的未标记样本提升学习性能,因而受到广泛关注。早期的半监督学习代表性方法包括半监督支持向量机、图论半监督学习算法,由于早期的半监督学习代表性方法存在求解难度较大的缺点,很难在实际中应用。
随着深度学习的兴起,有标记样本数量不足成为制约深度学习发展的瓶颈。针对不同的应用场景,研究者们陆续提出了各种解决办法。Chai等提出了基于稀疏正则的半监督自编码器,通过激活少数重要神经元和标签约束提取更局部化的信息和更丰富的特征,达到了更好的图像识别效果;周建宇等针对有标记数据难以获取、模型泛化能力较弱的问题,利用半监督聚类算法对电离层杂波进行分类,由此可见,半监督深度学习算法在人们的日常生活中发挥着越来越重要的作用,迅速成为学术界的研究热点。
为了充分利用大量的未标记样本,基于伪标记的半监督学习方法逐渐成为主流。Wu等提出了改进的半监督自训练方法,通过寻找密度峰值数据,将整个数据空间的真实结构整合到自训练过程中,迭代训练分类器;Li等将未标记样本和有标记样本作为最优路径森林的顶点相互连接,利用特征空间的结构和分布,帮助自训练法给未标记数据贴标签,来指导自训练方法训练分类器;Gu等提出了一种基于自训练层次原型的半监督分类方法,在多个粒度层次上从有标记样本中识别出有意义的原型,利用伪标签技术,从未标记样本中识别新模式,挖掘关键信息用于分类;Tencer等提出了一种新的混合技术,通过结合主动学习方法来确定测试集样本中分类器的可信度,扩展了半监督技术中自训练和帮助训练的概念;He等提出了基于信念函数的半监督学习方法,采用信念模型对未标记数据进行标记,能够有效地利用有限的监督信息来促进分类过程;董立岩等提出改进的半监督朴素贝叶斯算法,利用高置信伪标记样本扩充数据集,从而更加准确和快速的对测试集做出预测;Mandal对训练数据中未标记部分的标签进行预测,然后学习多模态共同表示,以进行跨模态检索;Zhou等结合深度网络和三训练法,利用其中两个分类器生成的伪标签训练第三个分类器,直到三个分类器全部收敛。
上述基于伪标记的半监督分类方法,由于有标记样本数量有限,容易导致过拟合,出现预测错误的伪标签,而分类器难以察觉到自身的错误。因此,利用不同分类器之间的分歧则是查找伪标签错误的关键。
发明内容
本发明的目的是针对现有技术的不足,而提供一种结合分歧融合决策的半监督分类方法。这种方法采用基于分歧的融合决策规则,将每个分类器预测值之间的分歧进行量化,能够评估伪标签的置信度,用筛选出的高置信样本集扩充训练集、采用mixup数据增强与一致正则技术,对每个分类器进行动态重加权训练和一致性正则化,能缓解过拟合问题、提升模型泛化性能、提高伪标记样本的可靠性。
实现本发明目的的技术方案是:
一种结合分歧融合决策的半监督分类方法,与现有技术不同的是,包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110641141.1/2.html,转载请声明来源钻瓜专利网。