[发明专利]文本分类方法和计算机设备有效
申请号: | 201811653926.5 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109739989B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 李斌;禹庆华 | 申请(专利权)人: | 奇安信科技集团股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 杨静 |
地址: | 100088 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 计算机 设备 | ||
本公开提供了一种文本分类方法,包括:获取待分类文本;基于所述待分类文本的全文本数据,获得第一分类结果;基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果;以及,根据所述第一分类结果和所述第二分类结果,确定所述待分类文本的分类结果。本公开还提供了一种计算机设备。
技术领域
本公开涉及一种文本分类方法和计算机设备。
背景技术
文本分类是在给定分类体系下,根据文本内容确定文本类别的过程。文本分类是自然语言处理的一个重要部分,具有广泛的应用,包括新闻分类、邮件分类、垃圾邮件识别、违规网页识别等。
现有的文本分类方案基于文本的整体内容进行分类,由于文本的整体内容中存在大量与文本分类无关的干扰信息,可能导致文本分类的判别性特征湮没在干扰信息中,进而无法得到准确的分类结果。
发明内容
本公开的一个方面提供了一种文本分类方法,包括:获取待分类文本;基于所述待分类文本的全文本数据,获得第一分类结果;基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果;以及,根据所述第一分类结果和所述第二分类结果,确定所述待分类文本的分类结果。
可选地,上述基于所述待分类文本的全文本数据,获得第一分类结果包括:将所述全文本数据输入对应于多个预置类别的全文本分类模型,基于所述全文本分类模型确定所述全文本数据关于所述多个预置类别中的各预置类别的第一得分,将第一得分最高的预置类别作为与所述全文本数据对应的类别。
可选地,在上述基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果之前,上述方法还包括:从所述全文本数据中提取一个或多个子文本数据。上述从所述全文本数据中提取一个或多个子文本数据包括:利用预设关键词集合中的关键词与所述全文本数据进行匹配;对于匹配成功的第一关键词,从所述全文本数据中提取所述第一关键词之前的第一预设长度的字符串和/或所述第一关键词之后的第二预设长度的字符串;以及,将提取出的字符串和所述第一关键词按照在所述全文本数据中的位置顺序组合为一个子文本数据。
可选地,上述基于从所述全文本数据中提取的一个或多个子文本数据,获得第二分类结果包括:对于第一子文本数据,将所述第一子文本数据输入对应于所述多个预置类别的子文本分类模型,基于所述子文本分类模型确定所述第一子文本数据关于所述多个预置类别中的各预置类别的第二得分;以及,基于所述一个或多个子文本数据中的各子文本数据关于各预置类别的第二得分计算所述一个或多个子文本数据关于各预置类别的第三得分,将第三得分最高的预置类别作为与所述一个或多个子文本数据对应的类别。
可选地,上述基于所述一个或多个子文本数据中的各子文本数据关于各预置类别的第二得分计算一个或多个子文本数据关于各预置类别的第三得分包括:对于多个预置类别中的任一预置类别,将各子文本数据关于该预置类别的第二得分进行加权求和,得到所述一个或多个子文本数据关于该预置类别的第三得分。
可选地,上述根据所述第一分类结果和所述第二分类结果,确定所述待分类文本的分类结果包括:根据所述全文本数据关于各预置类别的第一得分和所述一个或多个子文本数据关于各预置类别的第三得分,计算得到所述待分类文本关于各预置类别的综合得分,将综合得分最高的预置类别作为与所述待分类文本对应的类别。
可选地,上述根据所述全文本数据关于各预置类别的第一得分和所述一个或多个子文本数据关于各预置类别的第三得分,计算得到所述待分类文本关于各预置类别的综合得分包括:设置与所述全文本数据对应的第一权重和与所述一个或多个子文本数据对应的第二权重;以及,对于所述多个预置类别中的任一预置类别,根据所述第一权重和所述第二权重,对所述全文本数据关于该预置类别的第一得分和所述一个或多个子文本数据关于该预置类别的第三得分进行加权求和,得到所述待分类文本关于该预置类别的综合得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇安信科技集团股份有限公司,未经奇安信科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811653926.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种行业热度获取方法
- 下一篇:信息处理方法和终端