[发明专利]一种面向标签不平衡性的半监督众包标注数据整合方法有效
申请号: | 201610179728.4 | 申请日: | 2016-03-25 |
公开(公告)号: | CN105787521B | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 王东辉;洪高峰;李亚楠;蔺越檀;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 韩介梅 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 标签 不平衡 监督 标注 数据 整合 方法 | ||
本发明公开了一种面向标签不平衡性的半监督众包标注数据整合方法,其根据以下两种现象:(1)标注者对标签的标注准确率与对象无关;(2)标注者对同一对象的不同标注任务中考虑的权重相同;提出了新的加权参数的评估方法以及标注者能力的评估方法,并构建了面向标签不平衡性的半监督众包标注数据整合方法,利用迭代的方式进行求解,使得加权参数和标注者能力的评估更加客观准确,整合的标注结果更加准确;同时本发明对各种类型的众包标注数据均适用,包括但不限于:图像、文本、视频等数据形式的多类别标注等。
技术领域
本发明属于数据标注技术领域,具体涉及一种面向标签不平衡性的半监督众包标注数据整合方法,该方法综合考虑了加权参数与标注者能力。
背景技术
大数据时代来临,从大数据中提取知识,是现今计算机领域最重要的研究方向,吸引了人工智能和机器学习等领域的目光。而机器学习等方法依赖于高质量的标注数据集来进行算法和模型训练。因此,快速高效地构建高质量数据集具有十分重要的意义。过去的数据集构建主要依靠专家标注,通过雇佣的方式,经过一段时间的高强度工作来手工标注数据。这种方法具有高质量、高成本、难以成规模的特点。
近年来,众包技术作为数据标注的新尝试,引起了研究者的关注并快速发展。众包技术是把之前由专家完成的任务,即计算机无法准确解决而人类容易解决的问题,外包给大众去完成。在众包技术进行数据标注时,需要把标注任务分配给标注者进行标注。但是由于标注者的能力所限,标注结果无法如专家标注般准确,所以会把同一个标注任务同时分配给多个标注者来完成,并从其标注数据中整合得到准确率更高的结果,这需要使用到众包学习算法,即众包标注数据整合方法。
目前已知的众包标注数据整合方法中,最常用的方法是少数服从多数方法,即通过统计所有标注数据得到每个对象上各个标签获得的标签数目,从中选择数量最多的标签作为此对象的最终标注结果。这种方法具有简单方便的优点,但是相对的忽略了标注者之间的能力差异,把所有标注者统一对待。A.P.Dawid等人提出期望最大化算法,把各个标注者的标注能力建模为潜在混淆矩阵,从而形成相互推导公式,最终迭代收敛得到结果。后来Wei Tang等人提出了半监督的贝叶斯算法,对期望最大化算法进行了改进,利用已获得的正确标签精确对标注者能力的预估从而提高最终结果的准确率。上述算法虽然在一定程度上提高了对标注数据的整合精度,但是在此过程中,考虑到最终结果整合时假设每一种标签种类获得标注的概率是相同的。然而在实际标注中,标签种类之间往往是不平衡的,彼此之间存在着一定的权重差异,需要引入加权参数来重新平衡标签之间的关系。同时,不同的标注任务中权重必然是不同的,只能通过实际任务中进行训练,无法预先设置。
发明内容
针对现有技术所存在的上述技术问题,本发明提供了一种面向标签不平衡性的半监督众包标注数据整合方法,通过已获得的正确标签训练得到加权参数,之后基于加权参数和标注者能力生成一个更加准确的标注结果。
一种面向标签不平衡性的半监督众包标注数据整合方法,包括如下步骤:
(1)对于任一个标签种类,根据已获得的正确标签及其对应的所有标注结果计算出每种标签的加权参数;
(2)根据加权参数以及标注数据,获得初始的整合结果;
(3)根据初始的整合结果以及标注数据,获得每一个标注工作者的能力值;
(4)根据标注工作者的能力值、加权参数以及标注数据,重新整合得到标注结果;
(5)返回步骤(3)循环迭代,直至前后两次获得的标注结果一致,取此时的标注结果作为众包标注数据的最终标注结果。
上述技术方案中,所述的步骤(1)中计算每种标签加权参数的具体步骤如下:
1.1利用正确结果相对应的标注数据据统计出每个对象上每个标签类获取的标注总数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610179728.4/2.html,转载请声明来源钻瓜专利网。