[发明专利]文本分类方法和计算机设备有效
| 申请号: | 201811653926.5 | 申请日: | 2018-12-29 |
| 公开(公告)号: | CN109739989B | 公开(公告)日: | 2021-05-18 |
| 发明(设计)人: | 李斌;禹庆华 | 申请(专利权)人: | 奇安信科技集团股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 杨静 |
| 地址: | 100088 北京市西城区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 分类 方法 计算机 设备 | ||
1.一种文本分类方法,包括:
获取待分类文本;
基于所述待分类文本的全文本数据,获得第一分类结果,所述第一分类结果包括所述全文本数据关于各预置类别的第一得分;
基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果,所述第二分类结果包括所述一个或多个子文本数据关于各预置类别的第三得分;
从所述全文本数据中提取一个或多个子文本数据包括:
利用预设关键词集合中的关键词与所述全文本数据进行匹配;
对于匹配成功的第一关键词,从所述全文本数据中提取所述第一关键词之前的第一预设长度的字符串和/或所述第一关键词之后的第二预设长度的字符串;以及
将提取出的字符串和所述第一关键词按照在所述全文本数据中的位置顺序组合为一个子文本数据;
对于第一子文本数据,将所述第一子文本数据输入对应于所述多个预置类别的子文本分类模型,基于所述子文本分类模型确定所述第一子文本数据关于所述多个预置类别中的各预置类别的第二得分;以及
基于所述一个或多个子文本数据中的各子文本数据关于各预置类别的第二得分计算所述一个或多个子文本数据关于各预置类别的第三得分,将第三得分最高的预置类别作为与所述一个或多个子文本数据对应的类别;以及
根据所述第一分类结果和所述第二分类结果,确定所述待分类文本的分类结果,包括:
根据所述全文本数据关于各预置类别的第一得分和所述一个或多个子文本数据关于各预置类别的第三得分,计算得到所述待分类文本关于各预置类别的综合得分,将综合得分最高的预置类别作为与所述待分类文本对应的类别。
2.根据权利要求1所述的方法,其中,所述基于所述待分类文本的全文本数据,获得第一分类结果包括:
将所述全文本数据输入对应于多个预置类别的全文本分类模型,基于所述全文本分类模型确定所述全文本数据关于所述多个预置类别中的各预置类别的第一得分,将第一得分最高的预置类别作为与所述全文本数据对应的类别。
3.根据权利要求1所述的方法,其中,所述基于所述一个或多个子文本数据中的各子文本数据关于各预置类别的第二得分计算一个或多个子文本数据关于各预置类别的第三得分包括:
对于所述多个预置类别中的任一预置类别,将各子文本数据关于该预置类别的第二得分进行加权求和,得到所述一个或多个子文本数据关于该预置类别的第三得分。
4.根据权利要求1所述的方法,其中,所述根据所述全文本数据关于各预置类别的第一得分和所述一个或多个子文本数据关于各预置类别的第三得分,计算得到所述待分类文本关于各预置类别的综合得分包括:
设置与所述全文本数据对应的第一权重和与所述一个或多个子文本数据对应的第二权重;以及
对于所述多个预置类别中的任一预置类别,根据所述第一权重和所述第二权重,对所述全文本数据关于该预置类别的第一得分和所述一个或多个子文本数据关于该预置类别的第三得分进行加权求和,得到所述待分类文本关于该预置类别的综合得分。
5.根据权利要求2所述的方法,其中,所述基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果包括:
对于第一子文本数据,将所述第一子文本数据输入对应于所述多个预置类别的子文本分类模型,基于所述子文本分类模型确定所述第一子文本数据关于各预置类别的得分,将得分最高的预置类别作为与所述第一子文本数据对应的类别;
当与所述一个或多个子文本中的各子文本数据对应的类别中存在第一类别时,确定与所述一个或多个子文本数据对应的类别为第一类别;以及
当与所述一个或多个子文本中的各子文本数据对应的类别均为第二类别时,确定与所述一个或多个子文本数据对应的类别为第二类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇安信科技集团股份有限公司,未经奇安信科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811653926.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种行业热度获取方法
- 下一篇:信息处理方法和终端





