[发明专利]文本分类方法、装置、电子设备及存储介质在审

专利信息
申请号: 202210083811.7 申请日: 2022-01-20
公开(公告)号: CN114579740A 公开(公告)日: 2022-06-03
发明(设计)人: 吕乐宾;蒋宁;王洪斌;吴海英;权佳成 申请(专利权)人: 马上消费金融股份有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62
代理公司: 深圳市智圈知识产权代理事务所(普通合伙) 44351 代理人: 苗燕
地址: 404100 重庆市渝北区*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 分类 方法 装置 电子设备 存储 介质
【说明书】:

本申请公开一种文本分类方法、装置、电子设备及存储介质,包括:将待识别文本输入到预先根据预训练模型训练而得到的文本分类模型。在文本分类模型中,确定待识别文本的目标主类别,再确定与目标主类别对应的文本识别算法。在文本分类模型内,根据文本识别算法确定待识别文本是否属于目标子类别并得到分类结果。本申请实施例中到的文本分类模型在确定待识别文本的主类别后,再根据该主类别对应的算法确定待识别文本所属的文本子类别。本申请中的文本分类模型具有区分不同主类别类型文本的特征,因此能够更加准确地识别出多个主类别文本的子类别。

技术领域

本申请涉及人工智能技术领域,尤其涉及一种文本分类方法、装置、电子设备及存储介质。

背景技术

文本分类广泛应用在资源推送/查询场景中,例如新闻资讯、论文等不同类别的文本内容的推送/查询。实践中发现文本分类的准确度较低,资源推送/查询的效率低,给用户带来的体验较差。因此,如何提高文本分类的准确度是现有技术中亟待解决的技术问题。

发明内容

鉴于上述问题,本申请提出了一种文本分类方法、装置、电子设备及存储介质,能解决上述问题。

第一方面,本申请实施例提供了一种文本分类方法,所述方法包括:获取待识别文本;将所述待识别文本输入文本分类模型进行分类处理,输出分类结果;其中,在所述分类处理中,所述文本分类模型具体用于:确定待识别文本的目标主类别;根据文本识别算法确定所述待识别文本是否属于目标子类别,得到所述分类结果,所述文本识别算法与所述目标主类别相对应。

可以看出,在本申请实施例中,由于文本识别算法与目标主类别相对应,所以在确定待识别文本是否属于子类别的时候,所使用的文本识别算法是根据待识别文本的主类别类型而确定的,从而能够避免针对所有类型的文本,在确定该文本是否为目标子类别的时候,都使用相同的文本识别算法进行分类,进而能够提高分类的准确度。

第二方面,本申请实施例提供了一种文本分类模型的训练方法,所述方法包括:获取训练数据集,所述训练数据集包括多个样本文本、多个主类别以及目标子类别的判定标签,其中,每个样本文本对应于一个主类别和一个判定标签,每个主类别对应一个判定标签;将所述训练数据集输入预训练模型中进行迭代训练,得到文本分类模型;其中,在每次迭代训练过程中,所述预训练模型具体用于:确定每个所述样本文本的预测主类别;根据预测识别算法确定每个所述样本文本是否属于所述目标子类别,得到预测结果,所述预测识别算法与所述预测主类别相对应;当所述预测主类别与该样本文本对应的主类别之间的误差小于第一预设误差,并且所述预测结果与该样本文本对应的判定标签之间的误差小于第二预设误差,完成迭代训练,得到所述文本分类模型。

可以看出,在本申请实施例中,每次迭代训练中可以得到预训练模型对样本文本预测的预测主类别,以及属于/不属于目标子类别的预测结果,其中,预测结果可以使用预测主类别对应的预测识别算法来确定。最后,将模型预测的预测主类别和预测结果与标注的主类别和判别标签分别进行比较,得出预测的误差,通过不断调整预训练模型的参数,使识别误差减小,最终完成迭代训练。这样,由于不同的预测识别算法对应不同的预测主类别,因此本申请针对性地对不同的预测主类别使用不同的预测识别算法进行目标子类别的识别,在迭代训练的过程中,可以使预训练模型逐渐能够区分各个目标主类别的文本,降低预测值与标准值之间的误差,使训练完成的文本分类模型能够更加准确地识别出多个目标主类别文本的子类别。

第三方面,本申请实施例提供了一种文本分类装置,所述装置包括:文本获取模块以及分类处理模块。其中,文本获取模块用于获取待识别文本;分类处理模块用于将所述待识别文本输入文本分类模型进行分类处理,输出分类结果;其中,在所述分类处理中,所述文本分类模型具体用于:确定待识别文本的目标主类别;根据文本识别算法确定所述待识别文本是否属于目标子类别,得到所述分类结果,所述文本识别算法与所述目标主类别相对应。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210083811.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top