[发明专利]一种标注策略的选择方法及相关装置有效

专利信息
申请号: 201711408351.6 申请日: 2017-12-22
公开(公告)号: CN108182448B 公开(公告)日: 2020-08-21
发明(设计)人: 赵开云;何朋 申请(专利权)人: 北京中关村科金技术有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06F17/18
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 罗满
地址: 100025 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 标注 策略 选择 方法 相关 装置
【说明书】:

本申请公开了一种标注策略的选择方法,包括:采用多个标注策略对已标注数据集进行模拟标注处理和监督学习训练,并根据处理过程中的指标数据进行回归预测模型训练,得到对应的回归预测模型;当获取到标注任务的指标数据时,利用所有回归预测模型根据指标数据进行预测计算处理,得到预测结果;根据预测结果和预期结果,确定人力成本最小的标注策略作为使用的标注策略。通过获取模拟标注处理中指标数据进行训练得到回归预测模型,可以实现‑对该标注策略‑进行预测,进而根据预测结果确定人力成本最小的标注策略,保证训练效果的情况下降低人力成本。本申请还公开了一种标注策略的选择装置、服务器以及计算机可读存储介质,具有上述有益效果。

技术领域

本申请涉及计算机技术领域,特别涉及一种标注策略的选择方法、选择装置、服务器以及计算机可读存储介质。

背景技术

随着信息技术的发展,机器学习技术被应用到越来越多的领域,提高不同应用场景下处理问题的效率。机器学习主要是通过大量数据进行训练,得到精准的识别模型,同时还要不断的使用原始数据对识别模型的进行测试,以判断该识别模型是否达到学习的要求。

其中,机器学习技术主要有两种学习方式,监督学习和无监督学习。监督学习即在学习过程中需要人工不断的干预,以调整训练模型的状态,得到符合预期的识别模型。一般情况下,人工干预是指对训练的所需要的原始数据进行人工识别,得到已经分类识别的后的数据,进而使用该种数据对识别模型进行训练以及测试。具体的,人工识别是指人工进行标注的过程,即需要人力对数据按照预设的类别进行分类。并且由于一般的机器学习需要的数据量非常大,其中数据标注需要的人力资源十分巨大。

进一步的,数据标注的效果决定了识别模型训练的效果,因此在很多应用情况下保证数据标注的质量就是十分重要的。一般为了保证数据标注的质量,就需要使用各种标注策略进行标注处理,例如,对于同一数据进行多人次标注,所以必须投入大量的人力资源。但是,在实际使用过程中,同一数据无论石碑单人标注还是多人标注,部分数据都已经达到了训练的最终效果。此时再投入大量的人力成本对于模型训练的整体效果并没有相应的提升,导致部分标注工作没有起到实际的作用,造成人力资源的浪费和不必要的成本投入。

因此,如何在保证数据标注的质量同时降低人力成本的投入,是本领技术人员所关注的重点问题。

发明内容

本申请的目的是提供一种标注策略的选择方法、选择装置、服务器以及计算机可读存储介质,可以通过获取某一个标注策略的训练数据量、标注准确率以及识别准确率,建立起各个指标数据之间的影响关系,形成回归预测模型,可以实现在实际标注任务中对该标注策略的训练效果进行预测,进而根据预测结果确定人力成本最小的标注策略,保证训练效果的情况下降低人力成本。

为解决上述技术问题,本申请提供一种标注策略的选择方法,包括:

采用多个标注策略对已标注数据集进行模拟标注处理和监督学习训练,并根据所述模拟标注处理和所述监督学习训练中的指标数据进行回归预测模型训练,得到对应的回归预测模型;其中,所述指标数据包括标注准确率、识别准确率以及数据量;

当获取到标注任务的目前标注准确率、已标注数据量以及预期标注数据量时,利用所有所述回归预测模型根据所述目前标注准确率、所述已标注数据量以及预期标注数据量进行预测计算处理,得到对应的预测识别准确率;

根据所有所述预测识别准确率和预期识别准确率,确定人力成本最小的标注策略作为所述标注任务中使用的标注策略;其中,所述人力成本为根据标注策略中的标注方式和预期标注数据量计算得到的。

可选的,采用多个标注策略对已标注数据集进行模拟标注处理和监督学习训练,并根据所述模拟标注处理和所述监督学习训练中的指标数据进行回归预测模型训练,得到对应的回归预测模型;其中,所述指标数据包括标注准确率、识别准确率以及数据量,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中关村科金技术有限公司,未经北京中关村科金技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711408351.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top