[发明专利]一种文本分类方法、装置和设备有效
申请号: | 201710159632.6 | 申请日: | 2017-03-17 |
公开(公告)号: | CN108628873B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 李探;温旭;常卓;闫清岭;张智敏;王树伟;花少勇 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张颖玲;王花丽 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 设备 | ||
1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本;
基于所述待分类文本的特征信息,设置第一分类器的分类参数;其中,所述第一分类器为基于先验规则的文本分类器或者基于模型的文本分类器;
采用所述第一分类器对所述待分类文本进行分类,得到第一分类结果;其中,所述第一分类结果中包括至少两种分类信息;
当所述第一分类结果中存在分类不正确的文本时,获取所述第一分类结果中分类不正确的文本;
基于所述第一分类结果中分类不正确的文本的特征信息,设置第二分类器的分类参数;其中,所述第二分类器为基于先验规则的文本分类器或者基于模型的文本分类器,所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系,所述第一分类器所采用的分类算法与所述第二分类器所采用的分类算法相同;
采用所述第二分类器对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果;其中,所述第二分类结果中包括至少两种分类信息,且所述至少两种分类信息中的一种类别与所述第一分类结果中的一种类别相同;
获取所述第一分类结果中分类正确的文本的类别,得到第一类别;其中,所述第一类别中包括至少一种类别;
基于所述第一类别和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行筛选和组成,得到目标文本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一类别和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行筛选和组成,得到目标文本,包括:
基于所述第二分类结果,获取所述第二分类结果对应的文本中类别为所述第一类别的文本,得到第一文本集合;
将所述第一文本集合和所述第一分类结果中分类正确的文本中属于同一类别的文本结合,得到第一目标文本;
获取所述第二分类结果对应的文本中类别为除所述第一类别之外的文本,得到第二目标文本;其中,所述目标文本包括第一目标文本和第二目标文本。
3.根据权利要求1所述的方法,其特征在于,
所述第一分类器的分类参数与所述第二分类器的分类参数不同。
4.一种文本分类装置,其特征在于,所述装置包括:第一获取单元、第一分类单元、第二获取单元、第二分类单元和处理单元,其中:
所述第一获取单元,用于获取待分类文本;
所述第一分类单元,用于基于所述待分类文本的特征信息,设置第一分类器的分类参数;其中,所述第一分类器为基于先验规则的文本分类器或者基于模型的文本分类器;采用所述第一分类器对所述待分类文本进行分类,得到第一分类结果;其中,所述第一分类结果中包括至少两种分类信息;
所述第二获取单元,用于当所述第一分类结果中存在分类不正确的文本时,获取所述第一分类结果中分类不正确的文本;
所述第二分类单元,用于基于所述第一分类结果中分类不正确的文本的特征信息,设置第二分类器的分类参数;其中,所述第二分类器为基于先验规则的文本分类器或者基于模型的文本分类器,所述第二分类器的分类参数与所述第一分类器的分类参数具有关联关系,所述第一分类器所采用的分类算法与所述第二分类器所采用的分类算法相同;采用所述第二分类器对所述第一分类结果中分类不正确的文本进行分类,得到第二分类结果;其中,所述第二分类结果中包括至少两种分类信息,且所述至少两种分类信息中的一种类别与所述第一分类结果中的一种类别相同;
所述处理单元,用于获取所述第一分类结果中分类正确的文本的类别,得到第一类别;其中,所述第一类别中包括至少一种类别;基于所述第一类别和所述第二分类结果,对所述第一分类结果对应的文本和所述第二分类结果对应的文本进行筛选和组成,得到目标文本。
5.根据权利要求4所述的装置,其特征在于,所述处理单元 具体用于:
基于所述第二分类结果,获取所述第二分类结果对应的文本中类别为所述第一类别的文本,得到第一文本集合;
将所述第一文本集合和所述第一分类结果中分类正确的文本中属于同一类别的文本结合,得到第一目标文本;
获取所述第二分类结果对应的文本中类别为除所述第一类别之外的文本,得到第二目标文本;其中,所述目标文本包括第一目标文本和第二目标文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710159632.6/1.html,转载请声明来源钻瓜专利网。