[发明专利]一种结合标注质量控制的主动学习方法在审
| 申请号: | 202110036696.3 | 申请日: | 2021-01-12 |
| 公开(公告)号: | CN112766347A | 公开(公告)日: | 2021-05-07 |
| 发明(设计)人: | 宋艳枝;王星宇 | 申请(专利权)人: | 合肥黎曼信息科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
| 代理公司: | 安徽省蚌埠博源专利商标事务所(普通合伙) 34113 | 代理人: | 朱恒兰 |
| 地址: | 230001 安徽省合肥市高新区创新*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 结合 标注 质量 控制 主动 学习方法 | ||
本发明涉及主动学习技术领域,具体涉及一种结合标注质量控制的主动学习方法,包括以下步骤:S1:训练模型;S2:对全部未标注样本进行伪标注;S3:分折计算观测距离S4:基于观测距离挑选待标注和待检查的样本,基于观测距离挑选待标注和待检查的样本,对于需要标注的样本,将其标注后加入已标注样本集,对于需要检查的样本,对其进行一次额外的标注,再基于已有的历史标注确定其标注,然后更新已标注样本集,完成本步骤后返回步骤S1,直到模型性能可以接受,或者达到了标注预算限制;这种结合标注质量控制的主动学习方法,可以在主动学习的同时控制标注质量。
技术领域
本发明涉及主动学习技术领域,具体涉及一种结合标注质量控制的主动学习方法。
背景技术
主动学习,是利用模型选择最有价值的待标注样本的过程。在学习过程中,通过逐次标注最有价值的样本而降低训练模型所需的标注成本。
通常主动学习的模式,是不考虑样本的标注质量的,即认为标注人员给出的标注是可以信赖的。但实际中,标注人员给出错误的标注结果是不可避免的。所以在实际应用时,主动学习方法通常隐含一个标注质量控制方法,以确保获得的标注的质量可以接受。主动学习与标注质量控制都是独立工作的,没有协同工作,这降低了整体的标注效率。
发明内容
本发明的目的是提供一种结合标注质量控制的主动学习方法,可以在主动学习的同时控制标注质量。
为了实现以上目的,本发明采用的技术方案为:一种结合标注质量控制的主动学习方法,包括以下步骤:
S1:训练模型;
S2:对全部未标注样本进行伪标注;
S3:分折计算观测距离
S4:基于观测距离挑选待标注和待检查的样本,基于观测距离挑选待标注和待检查的样本,对于需要标注的样本,将其标注后加入已标注样本集,对于需要检查的样本,对其进行一次额外的标注,再基于已有的历史标注确定其标注,然后更新已标注样本集,完成本步骤后返回步骤S1,直到模型性能可以接受,或者达到了标注预算限制。
进一步的,所述的步骤S3中的观测距离采用分折实验的方法计算。
进一步的,所述的方法还包括选择待标注样本和待检查标注的指标,包括使用预测距离选择待标注样本,使用标注距离选择待检查的标注,还包括基于三角不等式使用观测距离作为预测距离和标注距离的下界。
本发明的技术效果在于:本发明中的结合标注质量控制的主动学习方法可以同时进行主动学习和标注质量控制,并使用模型选择待检查的样本,以降低质量控制的效率,降低总的标注成本。
附图说明
图1为本发明实施例提供的主动学习方法的流程示意图。
图2为本发明实施例提供的主动学习方法中“标注距离-预测距离-观测距离”示意图。
图3为本发明实施例提供的主动学习方法抗冗余实验结果分析。
图4为本发明实施例提供的主动学习方法模拟实验数据。
图5为本发明实施例提供的主动学习方法真实数据实验数据。
图6为本发明实施例提供的主动学习方法真实数据实验数据。
具体实施方式
参照附图1-6,一种结合标注质量控制的主动学习方法,包括以下步骤:
S1:训练模型;
S2:对全部未标注样本进行伪标注;
S3:分折计算观测距离
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥黎曼信息科技有限公司,未经合肥黎曼信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110036696.3/2.html,转载请声明来源钻瓜专利网。





