[发明专利]文本分类方法、装置、电子设备及可读存储介质有效
申请号: | 202110823177.1 | 申请日: | 2021-07-21 |
公开(公告)号: | CN113505227B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 贾星星;王文强;刘昊;苏伟;王道顺 | 申请(专利权)人: | 兰州大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 王思楠 |
地址: | 730030 甘肃*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 电子设备 可读 存储 介质 | ||
本申请提供一种文本分类方法、装置、电子设备及可读存储介质,涉及自然语言处理技术领域。该方法包括:将待处理文本以及待处理文本的至少一个子文本均输入预先训练得到的分类模型,得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率,根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,将所述子文本特征以及所述待处理文本属于各类别的概率输入修正模型进行概率修正,得到修正后的所述待处理文本属于各类别的概率;根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别。本申请不仅提高了文本分类的准确率,而且还节省了训练模型所需的时间和存储空间。
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本分类方法、装置、电子设备及可读存储介质。
背景技术
文本分类是按照一定的分类体系或标准对文本集进行自动分类标记的过程,是自然语言处理的基本研究内容,其应用范围非常广泛,包括问答系统,情感分析,垃圾邮件过滤,新闻分类,词性标注等子任务。
目前,为了提高文本分类的准确性,采用集成学习算法,即训练并结合多个基算法完成学习任务,以达到结合各个基算法的优势对文本进行分类,从而提高文本分类的准确率的目的。
但是,一个基算法的训练就需要很多的时间和存储参数的空间,而集成学习算法需要多个基算法,因此,在训练时会耗费大量的时间和存储空间。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种文本分类方法、装置、电子设备及可读存储介质,以便解决现有技术中训练多个基算法进而耗费大量的时间和存储空间的问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种文本分类方法,所述方法包括:
获取待处理文本以及所述待处理文本的至少一个子文本;
将所述待处理文本以及所述至少一个子文本均输入预先训练得到的分类模型,得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率,并将所述待处理文本属于各类别的概率作为所述待处理文本的总文本特征;
根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,所述子文本特征用于表征所述待处理文本的语义差异性;
将所述子文本特征以及所述总文本特征输入修正模型进行概率修正,得到修正后的所述待处理文本属于各类别的概率;
根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别。
可选的,根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,包括:
根据各所述子文本属于各类别的概率,计算所有子文本属于各类别的概率标准差、均值以及最大值,得到各类别对应的概率标准差、均值以及最大值;
将所述各类别对应的概率标准差、均值以及最大值作为所述待处理文本的子文本特征。
可选的,所述根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别,包括:
对所述待处理文本属于各类别的概率按照概率值大小进行排序;
将最大概率值对应的类别作为所述待处理文本的目标类别。
可选的,所述获取待处理文本以及所述待处理文本的至少一个子文本,包括:
获取所述待处理文本;
确定所述待处理文本的类型,所述类型包括:多段落文本、单段落文本以及句子文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰州大学,未经兰州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110823177.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种染料溶解输送系统
- 下一篇:一种抗老化防蚁鼠阻燃的PE管道