[发明专利]文本分类方法、装置、电子设备及可读存储介质有效

申请号：	202110823177.1	申请日：	2021-07-21
公开（公告）号：	CN113505227B	公开（公告）日：	2022-06-10
发明（设计）人：	贾星星;王文强;刘昊;苏伟;王道顺	申请（专利权）人：	兰州大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	王思楠
地址：	730030 甘肃***	国省代码：	甘肃;62
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种文本分类方法、装置、电子设备及可读存储介质，涉及自然语言处理技术领域。该方法包括：将待处理文本以及待处理文本的至少一个子文本均输入预先训练得到的分类模型，得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率，根据各所述子文本属于各类别的概率，得到所述待处理文本的子文本特征，将所述子文本特征以及所述待处理文本属于各类别的概率输入修正模型进行概率修正，得到修正后的所述待处理文本属于各类别的概率；根据所述修正后的所述待处理文本属于各类别的概率，确定所述待处理文本的目标类别。本申请不仅提高了文本分类的准确率，而且还节省了训练模型所需的时间和存储空间。

技术领域

本申请涉及自然语言处理技术领域，具体而言，涉及一种文本分类方法、装置、电子设备及可读存储介质。

背景技术

文本分类是按照一定的分类体系或标准对文本集进行自动分类标记的过程，是自然语言处理的基本研究内容，其应用范围非常广泛，包括问答系统，情感分析，垃圾邮件过滤，新闻分类，词性标注等子任务。

目前，为了提高文本分类的准确性，采用集成学习算法，即训练并结合多个基算法完成学习任务，以达到结合各个基算法的优势对文本进行分类，从而提高文本分类的准确率的目的。

但是，一个基算法的训练就需要很多的时间和存储参数的空间，而集成学习算法需要多个基算法，因此，在训练时会耗费大量的时间和存储空间。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种文本分类方法、装置、电子设备及可读存储介质，以便解决现有技术中训练多个基算法进而耗费大量的时间和存储空间的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种文本分类方法，所述方法包括：

获取待处理文本以及所述待处理文本的至少一个子文本；

将所述待处理文本以及所述至少一个子文本均输入预先训练得到的分类模型，得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率，并将所述待处理文本属于各类别的概率作为所述待处理文本的总文本特征；