[发明专利]一种文本分类方法、装置和设备有效

申请号：	201710159632.6	申请日：	2017-03-17
公开（公告）号：	CN108628873B	公开（公告）日：	2022-09-27
发明（设计）人：	李探;温旭;常卓;闫清岭;张智敏;王树伟;花少勇	申请（专利权）人：	腾讯科技（北京）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	张颖玲;王花丽
地址：	100080 北京市海淀区海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种文本分类方法，所述方法包括：获取待分类文本；采用第一分类器对所述待分类文本进行分类，得到第一分类结果；采用第二分类器对所述第一分类结果中分类不正确的文本进行分类，得到第二分类结果；其中，所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系；基于所述第一分类结果和所述第二分类结果，对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。本发明的实施例同时还公开了一种文本分类装置和设备。

技术领域

本发明涉及计算机领域中的文本分类技术，尤其涉及一种文本分类方法、装置和设备。

背景技术

目前常用的文本分类器主要可以分成两大类：基于先验规则的文本分类器和基于模型的文本分类器。基于先验规则的文本分类器的分类规则需要靠人工挖掘或先验知识的积累，基于模型的文本分类器主要利用数据挖掘和机器学习的算法模型。在实际的文本分类应用中，无论是用哪种分类器模型经常会出现分类错误的问题，导致分类的准确率和召回率降低；而且在多层次分类中，如果上一级类出现错误直接会影响下面所有子分类的准确性。

现有技术中通常采用以下两种方案来解决该问题：一种方案是加入一系列的人工规则，修改分类错误的分类，但是规则通常不能覆盖所有的情况，而且还可能造成误修改；另一种方案是修改分类器模型，包括调整每个类别各自的特征，或修改分类器模型的参数。但是上述两种解决方案仍然存在无法准确修改分类的问题，还是会降低分类的准确率，可维护性与可扩展性变差。

发明内容

为解决上述技术问题，本发明实施例期望提供一种文本分类方法、装置和设备，解决了现有的文本分类方案中存在分类错误的问题，提高了文本分类的准确率，增强了可维护性和扩展性。

本发明的技术方案是这样实现的：

第一方面，提供一种文本分类方法，所述方法包括：

获取待分类文本；

采用第一分类器对所述待分类文本进行分类，得到第一分类结果；

采用第二分类器对所述第一分类结果中分类不正确的文本进行分类，得到第二分类结果；其中，所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系；

基于所述第一分类结果和所述第二分类结果，对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。

可选的，所述按照第二分类标准对所述第一分类结果中分类不正确的文本进行分类，得到第二分类结果，包括：

获取所述第一分类结果中分类不正确的文本的特征信息；

基于所述第一分类结果中分类不正确的文本的特征信息，设置分类参数；

基于所述分类参数并采用所述第二分类器，对所述第一分类结果中分类不正确的文本进行分类得到所述第二分类结果；其中，所述第一分类器的分类参数是根据所述待分类文本中的文本的特征信息生成的。