[发明专利]一种多标签分类模型训练方法、数据处理方法及装置有效

专利信息
申请号: 201910771659.X 申请日: 2019-08-20
公开(公告)号: CN110458245B 公开(公告)日: 2021-11-02
发明(设计)人: 张凌寒;陈权;郑敏鹏 申请(专利权)人: 图谱未来(南京)人工智能研究院有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 安卫静
地址: 210000 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 标签 分类 模型 训练 方法 数据处理 装置
【说明书】:

本申请公开一种多标签分类模型训练方法、数据处理方法及装置,属于图像处理技术领域。该方法包括:利用i标签的样本数据对j标签分类模型进行训练,所述j标签分类模型包括j个独立的二元分类器,每个所述二元分类器对应有一个分类阈值;获取每个所述二元分类器经训练得到的最优分类阈值,并将每个所述二元分类器当前的分类阈值更新为对应的最优分类阈值;基于每个所述二元分类器对所述i标签的样本数据的分类结果对所述样本数据进行二次标注,得到k标签的样本数据;利用所述k标签的样本数据对更新后的所述j标签分类模型进行训练。该方法大大节省了训练多标签分类模型的标注成本,提高了多标签分类模型训练效率。

技术领域

本申请属于图像处理技术领域,具体涉及一种多标签分类模型训练方法、数据处理方法及装置。

背景技术

图像分类任务中,单一图像往往携带多种标签的特征,多标签分类是非常自然的一种需求。目前多标签分类模型训练需要多标签数据,但完善的多标签数据较难获得。目前获取多标签数据通常由工作人员人为观察图像,并对图像人工标注,以得到图像的多个分类标签。然而,当标签体系中的分类标签非常多时,工作人员需要依次人工标注图像是否属于标签体系中的每一个分类标签,耗时较长,且人工成本较高。

发明内容

鉴于此,本申请的目的在于提供一种多标签分类模型训练方法、数据处理方法及装置,以改善现有技术中基于多标签数据训练多标签分类模型时,获取多标签数据所存在的耗时较长以及成本较高的问题。

本申请的实施例是这样实现的:

第一方面,本申请实施例提供了一种多标签分类模型训练方法,包括:利用i标签的样本数据对j标签分类模型进行训练,所述j标签分类模型包括j个独立的二元分类器,每个所述二元分类器对应有一个分类阈值,其中,i和j均为正整数且i小于j;获取每个所述二元分类器经训练得到的最优分类阈值,并将每个所述二元分类器当前的分类阈值更新为对应的最优分类阈值;基于每个所述二元分类器对所述i标签的样本数据的分类结果对所述样本数据进行二次标注,得到k标签的样本数据,k为正整数,且k大于i小于等于j;利用所述k标签的样本数据对更新后的所述j标签分类模型进行训练。

本申请实施例中,在对多标签(j标签)分类模型的训练过程中,先通过标签数量较低的i标签数据进行训练,然后基于标签数量较低的i标签数据的分类结果对i标签数据进行二次标注,得到标签数量较大k标签数据,然后基于k标签数据再次进行训练。一方面,因为在训练过程中,可以根据前次训练结果标注下次使用到的数据,获取到更多标签的训练数据,另一方面,因为在获取标注数据的过程中,同时开始了模型训练,所以该方法大大节省了多标签数据的标注成本,提高了多标签分类模型训练效率,可以改善现有技术中基于多标签数据训练多标签分类模型时,获取多标签数据所存在的耗时较长以及成本较高的问题。

结合第一方面实施例,在一种可能的实施方式下,获取每个所述二元分类器经训练得到的最优分类阈值,包括:获取每个所述二元分类器对所述i标签的样本数据的分类结果的概率分布,得到各自的表征分类结果为正类的第一概率曲线和表征分类结果为负类的第二概率曲线;基于每个所述二元分类器各自对应的所述第一概率曲线和所述第二概率曲线,获取各自对应的所述最优分类阈值。本申请实施例通过通过获取每个二元分类器对i标签的样本数据的分类结果的概率分布而得到各自的表征分类结果为正类的第一概率曲线和表征分类结果为负类的第二概率曲线,然后再基于各自的第一概率曲线和第二概率曲线,获取各自对应的最优分类阈值,确保了所得的最优分类阈值的准确性和可靠性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于图谱未来(南京)人工智能研究院有限公司,未经图谱未来(南京)人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910771659.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top