[发明专利]一种标注策略的选择方法及相关装置有效
申请号: | 201711408351.6 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108182448B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 赵开云;何朋 | 申请(专利权)人: | 北京中关村科金技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 100025 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标注 策略 选择 方法 相关 装置 | ||
1.一种标注策略的选择方法,其特征在于,包括:
采用多个标注策略对已标注数据集进行模拟标注处理得到对应的训练数据集,对所述训练数据集进行标注准确率计算,得到对应的标注准确率;
将所有所述训练数据集进行监督学习训练,得到对应的识别模型,对每个所述识别模型进行识别准确率计算,得到对应的识别准确率;
将每个所述标注策略对应的标注准确率、识别准确率以及数据量进行回归统计处理,得到对应的回归预测模型;
当获取到标注任务的目前标注准确率、已标注数据量以及预期标注数据量时,利用所有所述回归预测模型根据所述目前标注准确率、所述已标注数据量以及预期标注数据量进行预测计算处理,得到对应的预测识别准确率;
根据所有所述预测识别准确率和预期识别准确率,确定人力成本最小的标注策略作为所述标注任务中使用的标注策略;其中,所述人力成本为根据标注策略中的标注方式和预期标注数据量计算得到的。
2.根据权利要求1所述的选择方法,其特征在于,将每个所述标注策略对应的标注准确率、识别准确率以及数据量进行回归统计处理,得到对应的回归预测模型,包括:
将每个所述标注策略对应的所述标注准确率、所述识别准确率以及所述数据量进行统计,得到开始数据量、结束数据量、标注准确率以及识别准确率之间的对应关系;
将所述对应关系以所述识别准确率为目标值进行回归模型训练,得到每个所述标注策略对应的回归预测模型。
3.一种标注策略的选择装置,其特征在于,包括:
回归模型获取模块,用于采用多个标注策略对已标注数据集进行模拟标注处理得到对应的训练数据集,对所述训练数据集进行标注准确率计算,得到对应的标注准确率;将所有所述训练数据集进行监督学习训练,得到对应的识别模型,对每个所述识别模型进行识别准确率计算,得到对应的识别准确率;将每个所述标注策略对应的标注准确率、识别准确率以及数据量进行回归统计处理,得到对应的回归预测模型;
预测模块,用于当获取到标注任务的目前标注准确率、已标注数据量以及预期标注数据量时,利用所有所述回归预测模型根据所述目前标注准确率、所述已标注数据量以及预期标注数据量进行预测计算处理,得到对应的预测识别准确率;
策略选择模块,用于根据所有所述预测识别准确率和预期识别准确率,确定人力成本最小的标注策略作为所述标注任务中使用的标注策略;其中,所述人力成本为根据标注策略中的标注方式和预期标注数据量计算得到的。
4.根据权利要求3所述的选择装置,其特征在于,所述回归模型获取模块,包括:
数据统计处理子单元,用于将每个所述标注策略对应的所述标注准确率、所述识别准确率以及所述数据量进行统计,得到开始数据量、结束数据量、标注准确率以及识别准确率之间的对应关系;
回归模型训练子单元,用于将所述对应关系以所述识别准确率为目标值进行回归模型训练,得到每个所述标注策略对应的回归预测模型。
5.一种服务器,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至2任一项所述的选择方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述的选择方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中关村科金技术有限公司,未经北京中关村科金技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711408351.6/1.html,转载请声明来源钻瓜专利网。