[发明专利]一种基于双重生成对抗网络的主动学习方法有效
| 申请号: | 202010779759.X | 申请日: | 2020-08-05 |
| 公开(公告)号: | CN111950619B | 公开(公告)日: | 2022-09-09 |
| 发明(设计)人: | 郭继峰;庞志奇;李禾;李星;费禹潇 | 申请(专利权)人: | 东北林业大学 |
| 主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/82 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 150040 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 双重 生成 对抗 网络 主动 学习方法 | ||
本发明涉及一种基于双重生成对抗网络的主动学习方法。包括如下步骤:1:利用标记池图像和未标记池图像对模型进行训练,模型训练包括表征学习和生成对抗两个部分;2:利用收敛后的模型,对待选池中的图像进行采样,之后对采样后的图像进行人工注释和图像生成;3:把采样得到的图像从待选池转移到标记池,并把生成的图像加入到待选池,根据更新后的待选池和标记池对采样模型进行训练。本发明在基于池的方法中引入生成对抗机制,赋予模型生成能力,在模型中形成两组生成对抗网络。本发明还引入了“同步更新”的概念,使采样模型随采样进程同步更新,从而使每次采样都能选择当前阶段含信息量最丰富的样本。
技术领域:
本发明涉及主动学习领域,尤其涉及一种基于双重生成对抗网络的主动学习方法。
背景技术:
基于深度学习的分类任务往往需要大规模的标记样本进行训练,而现实中样本的标注成本可能高得令人望而却步,甚至不可能大规模获得。为了弥补这一缺点,研究者们提出了主动学习。主动学习的目的是从未标注的数据集中选取或生成对模型训练最有益的样本,之后对选取的样本进行人工标注,并添加到训练集中,从而以较低的标注成本使任务模型获得较高的性能。经实践表明,对于图像分类任务,主动学习能够在保证模型性能的前提下,有效降低样本的标注成本。
目前主流的主动学习算法大致可分为两类:基于池的方法和基于合成的方法。基于池的方法的思想是使用设定的采样策略从样本池中选取含信息量最大的样本。根据采样策略的不同,基于池的方法可以细分为:基于不确定性的方法、基于表示的方法。基于不确定性的方法有很多,例如:不确定性可以通过贝叶斯框架中的概率模型来估计,如高斯过程或贝叶斯神经网络。同时,非贝叶斯经典主动学习方法中的不确定性启发式也得到了广泛的研究,如到决策边界的距离和条件熵。基于表示的方法通过增加给定批次中的多样性进行样本选择。
尽管相比传统方法,基于池的主动学习方法已经大幅度降低样本的标注成本,但基于池的主动学习方法有一个共性问题:在未标记样本池中采样得到的样本,经注释后被送入标记池,不再参与之后的采样过程。由于未标记池中样本数量有限,且算法以信息量为基础进行采样,故以上过程必然导致未标记池内单位样本所含信息量随采样次数的增加而减少,从而降低任务模型的性能提升速率。
基于合成的方法是通过主动合成含信息量丰富的样本,以促进模型的训练。其中具有开创性意义的是GAAL,与基于池的方法不同,其目的是生成对模型有用的新样本而不是在样本池中选取信息量最大的样本,且在理想情况下,GAAL生成的样本所含信息量大于现有的所有样本。但由于GAAL的采集函数必须易于计算和优化,故此方法在主动学习的应用中存在一定的局限性。
发明内容:
本发明的目的是克服现有基于池的主动学习方法的不足,提出一种基于双重生成对抗网络的主动学习方法,以解决基于深度学习的图像分类任务中数据集的标注成本过高的问题。
一种基于双重生成对抗网络的主动学习方法,其特征在于,包括如下步骤:
步骤1:利用标记池图像和未标记池图像对模型进行训练,模型训练包括表征学习和生成对抗两个部分,所述模型包括由一个生成器G和两个判别器D1、D2组成的两组生成对抗网络;
步骤2:利用收敛后的模型,对待选池XC中的图像进行采样,之后对采样后的图像进行人工注释和图像生成,所述待选池XC利用未标记池XU进行初始化,所述采样过程由D1完成,所述图像生成过程由G完成;
步骤3:把采样得到的图像从待选池转移到标记池,并把生成的图像加入到待选池,根据更新后的待选池和标记池对采样模型D1进行训练,最后根据更新后的标记池对任务模型进行训练,所述任务模型为通用图像分类模型。
所述步骤1包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北林业大学,未经东北林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010779759.X/2.html,转载请声明来源钻瓜专利网。





