[发明专利]一种文本分类方法、设备及计算机可读存储介质在审
申请号: | 202010463968.3 | 申请日: | 2020-05-27 |
公开(公告)号: | CN113742477A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/335 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 崔晓岚;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 设备 计算机 可读 存储 介质 | ||
1.一种文本分类方法,其特征在于,包括:
获取待分类文本;
对所述待分类文本进行特征提取,得到至少一个待分类关键特征,以及所述至少一个待分类关键特征的每个待分类关键特征对应的至少一个上下文特征;
将所述至少一个待分类关键特征与各个类别的预设关键特征进行匹配,得到所述每个待分类关键特征对应的初始类别;
针对所述每个待分类关键特征,依据所述各个类别的预设样本特征库和所述初始类别,确定所述至少一个上下文特征中的每个上下文特征的命中情况;所述预设样本特征库中包含极性相反的特征库;
基于所述每个上下文特征的命中情况,确定所述每个待分类关键特征的分类权重;
基于所述每个待分类关键特征的分类权重,确定所述待分类文本的类别。
2.根据权利要求1所述的方法,其特征在于,所述针对所述每个待分类关键特征,依据所述各个类别的预设样本特征库和所述初始类别,确定所述至少一个上下文特征中的每个上下文特征的命中情况,包括:
从所述各个类别的预设样本特征库中,挑选出与所述每个待分类关键特征的所述初始类别对应的目标样本特征库;
将所述至少一个上下文特征中的所述每个上下文特征,与所述目标样本特征库进行匹配,得到所述每个上下文特征的所述命中情况。
3.根据权利要求2所述的方法,其特征在于,所述目标样本特征库包括目标正向样本特征库和目标负向样本特征库;
所述将所述至少一个上下文特征中的所述每个上下文特征,与所述目标样本特征库进行匹配,得到所述每个上下文特征的所述命中情况,包括:
当所述每个上下文特征与所述目标正向样本特征库匹配时,确定所述命中情况为正向命中情况;
当所述每个上下文特征与所述目标负向样本特征库匹配时,确定所述命中情况为负向命中情况;
当所述每个上下文特征,与所述目标正向样本特征库和所述目标负向样本特征库均不匹配时,确定所述命中情况为未命中情况。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述命中情况为正向命中情况、负向命中情况和未命中情况中的任意一种;
所述基于所述每个上下文特征的命中情况,确定每个待分类关键特征的分类权重,包括:
当所述命中情况为所述正向命中情况时,确定所述每个待分类关键特征在所述初始类别的分类权重为预设最大正向权重;
当所述命中情况为所述负向命中情况时,确定所述每个待分类关键特征在所述初始类别的分类权重为预设最大负向权重;
当所述命中情况为所述未命中情况时,对所述每个待分类关键特征,分别与所述目标正向样本特征库以及所述目标负向样本特征库进行互信息计算,得到所述每个待分类关键特征在所述初始类别的分类权重。
5.根据权利要求4所述的方法,其特征在于,所述对所述每个待分类关键特征,分别与所述目标正向样本特征库以及所述目标负向样本特征库进行互信息计算,得到所述每个待分类关键特征在所述初始类别的分类权重,包括:
对所述每个待分类关键特征和所述目标正向样本特征库中的至少一个正向上下文特征,进行互信息挖掘,得到至少一个正向互信息;
利用所述至少一个正向互信息,构造出所述每个待分类关键特征在所述初始类别的正向权重;
对所述每个待分类关键特征和所述目标负向样本特征库中的至少一个负向上下文特征,进行互信息挖掘,得到至少一个负向互信息;
利用所述至少一个负向互信息,构造出所述每个待分类关键特征在所述初始类别的负向权重;
对所述负向权重和所述正向权重进行整合,得到所述每个待分类关键特征在所述初始类别的所述分类权重。
6.根据权利要求1至3、或5任一项所述的方法,其特征在于,所述基于所述每个待分类关键特征的分类权重,确定所述待分类文本的类别,包括:
统计分类权重大于预设权重阈值的待分类关键特征的数量,得到第一特征数量;
统计所述分类权重小于或等于所述预设权重阈值的待分类关键特征的数量,得到第二特征数量;
当所述第一特征数量大于所述第二特征数量时,将所述初始类别作为所述待分类文本的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010463968.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于零件设计的自动化出图方法
- 下一篇:一种抗菌聚氨酯弹性体及其制备方法