[发明专利]文本分类模型训练方法、文本分类方法、设备和介质有效

专利信息
申请号: 202110332411.0 申请日: 2021-03-29
公开(公告)号: CN113139051B 公开(公告)日: 2023-02-10
发明(设计)人: 王连喜;林楠铠;林晓钿;蒋越 申请(专利权)人: 广东外语外贸大学
主分类号: G06F16/35 分类号: G06F16/35;G06F18/24;G06F18/214
代理公司: 广州嘉权专利商标事务所有限公司 44205 代理人: 黎扬鹏
地址: 510006 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 分类 模型 训练 方法 设备 介质
【说明书】:

发明公开了一种文本分类模型训练方法、文本分类方法、设备和介质,可应用于文本分类技术领域。训练方法包括以下步骤:获取第一训练数据,所述第一训练数据包括带标签的文本数据;采用所述第一训练数据对第一文本分类模型进行训练,得到第二文本分类模型;获取第二训练数据,所述第二训练数据包括不带标签的文本数据;采用所述第二文本分类模型预测所述第二训练数据的若干个标签;将若干个所述标签中满足预设要求的标签作为所述第二训练数据的伪标签;采用带有伪标签的第二训练数据和所述第一训练数据对所述第二文本分类模型进行训练,得到目标文本分类模型。本发明能节省标签标注时间和人工成本,并有效提高多标签分类结果的准确性。

技术领域

本发明涉及文本分类技术领域,尤其是一种文本分类模型训练方法、文本分类方法、设备和介质。

背景技术

随着互联网的迅速普及和社交媒体的盛行,大量的新闻文本在互联网上堆积。对于大量的新闻文本,如何使受众能够有效寻找、感知、确认以及标签化社会事件和信息,对新闻进行准确分类成为人们日益关注的话题。目前,新闻分类的方式大多是将其视为单标签的有监督学习任务,然而,实际的文本对象通常是复杂的,且同时具有多种语义意义,例如一篇文章往往同时覆盖与社会事件和信息相关的多个类别,对于这种多类型的文本单标签分类往往不适用。针对单标签无法适用的场景,目前提出了多标签分类方式,然而多标签分类模型的训练过程需要大量带有标签的数据进行训练,而构建大规模的带标签的数据费时且成本巨大,从而导致多标签分类模型要么分类结果准确性不高,要么耗时耗力。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种文本分类模型训练方法、文本分类方法、设备和介质,能够在节省时间和成本的前提下,有效提高多标签分类结果的准确性。

本发明第一方面实施例提供了一种文本分类模型训练方法,包括以下步骤:

获取第一训练数据,所述第一训练数据包括带标签的文本数据;

采用所述第一训练数据对第一文本分类模型进行训练,得到第二文本分类模型;

获取第二训练数据,所述第二训练数据包括不带标签的文本数据;

采用所述第二文本分类模型预测所述第二训练数据的若干个标签;

将若干个所述标签中满足预设要求的标签作为所述第二训练数据的伪标签;

采用带有伪标签的第二训练数据和所述第一训练数据对所述第二文本分类模型进行训练,得到目标文本分类模型。

本发明实施例提供的一种文本分类模型训练方法,具有以下有益效果:

本实施例通过先采用带有标签的文本数据对文本分类模型进行训练,然后采用训练后的文本分类模型对不带有标签的文本数据进行标签预测,并将满足预设要求的预测标签作为不带有标签的文本数据的伪标签,接着通过带有伪标签的文本数据和带有标签的文本数据对文本分类模进行再次训练,从而得到目标文本分类模型,以节省标签标注时间和人工成本,同时使得在通过该目标文本分类模型进行文本分类时,有效提高多标签分类结果的准确性。

可选地,所述将若干个所述标签中满足预设要求的标签作为所述第二训练数据的伪标签,包括:

获取第一分类阈值和第二分类阈值,所述第一分类阈值大于所述第二分类阈值;

确定若干个所述标签的第一标签概率和第二标签概率,所述第二标签概率小于所述第一标签概率且大于剩余标签概率,所述剩余标签概率为若干个所述标签中不包括第一标签和第二标签的标签概率;

当所述第一标签概率大于所述第一分类阈值,则将所述第一标签概率对应的标签作为所述第二训练数据的伪标签;

当所述第一标签概率小于等于所述第一分类阈值,则执行以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学,未经广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110332411.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top