[发明专利]一种文本分类方法、装置和设备有效
申请号: | 201710159632.6 | 申请日: | 2017-03-17 |
公开(公告)号: | CN108628873B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 李探;温旭;常卓;闫清岭;张智敏;王树伟;花少勇 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张颖玲;王花丽 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 设备 | ||
本发明实施例公开了一种文本分类方法,所述方法包括:获取待分类文本;采用第一分类器对所述待分类文本进行分类,得到第一分类结果;采用第二分类器对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果;其中,所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系;基于所述第一分类结果和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。本发明的实施例同时还公开了一种文本分类装置和设备。
技术领域
本发明涉及计算机领域中的文本分类技术,尤其涉及一种文本分类方法、装置和设备。
背景技术
目前常用的文本分类器主要可以分成两大类:基于先验规则的文本分类器和基于模型的文本分类器。基于先验规则的文本分类器的分类规则需要靠人工挖掘或先验知识的积累,基于模型的文本分类器主要利用数据挖掘和机器学习的算法模型。在实际的文本分类应用中,无论是用哪种分类器模型经常会出现分类错误的问题,导致分类的准确率和召回率降低;而且在多层次分类中,如果上一级类出现错误直接会影响下面所有子分类的准确性。
现有技术中通常采用以下两种方案来解决该问题:一种方案是加入一系列的人工规则,修改分类错误的分类,但是规则通常不能覆盖所有的情况,而且还可能造成误修改;另一种方案是修改分类器模型,包括调整每个类别各自的特征,或修改分类器模型的参数。但是上述两种解决方案仍然存在无法准确修改分类的问题,还是会降低分类的准确率,可维护性与可扩展性变差。
发明内容
为解决上述技术问题,本发明实施例期望提供一种文本分类方法、装置和设备,解决了现有的文本分类方案中存在分类错误的问题,提高了文本分类的准确率,增强了可维护性和扩展性。
本发明的技术方案是这样实现的:
第一方面,提供一种文本分类方法,所述方法包括:
获取待分类文本;
采用第一分类器对所述待分类文本进行分类,得到第一分类结果;
采用第二分类器对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果;其中,所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系;
基于所述第一分类结果和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本。
可选的,所述按照第二分类标准对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果,包括:
获取所述第一分类结果中分类不正确的文本的特征信息;
基于所述第一分类结果中分类不正确的文本的特征信息,设置分类参数;
基于所述分类参数并采用所述第二分类器,对所述第一分类结果中分类不正确的文本进行分类得到所述第二分类结果;其中,所述第一分类器的分类参数是根据所述待分类文本中的文本的特征信息生成的。
可选的,所述基于所述第一分类结果和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到目标文本,包括:
获取所述第一分类结果中分类正确的文本的类别,得到第一类别;其中,所述第一类别中包括至少一种类别;
基于所述第一类别和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理得到所述目标文本。
可选的,所述基于所述第一类别和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行处理,得到所述目标文本,包括:
基于所述第二分类结果,获取所述第二分类结果对应的文本中类别为所述第一类别的文本,得到第一文本集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710159632.6/2.html,转载请声明来源钻瓜专利网。