[发明专利]文本分类方法、装置、设备和介质在审
申请号: | 201910487301.4 | 申请日: | 2019-06-05 |
公开(公告)号: | CN110209819A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 陶超;沙韬伟;邓金秋 | 申请(专利权)人: | 江苏满运软件科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 210012 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 待分类文本 文本分类 分类模型 匹配 词语 关键词匹配 场景 长度确定 准确率 分类 失败 | ||
本发明实施例公开了一种文本分类方法、装置、设备和介质,涉及文本分类领域。该方法包括:若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致,则将匹配一致的关键词作为所述待分类文本的类别;若所述待分类文本中的词语与所述待分类文本所属场景的关键词均匹配失败,则根据所述待分类文本的长度确定分类模型;基于确定的分类模型,对所述待分类文本进行分类。本发明实施例提供的文本分类方法、装置、设备和介质,提高了文本分类准确率。
技术领域
本发明实施例涉及文本分类领域,尤其涉及一种文本分类方法、装置、设备和介质。
背景技术
在对论坛中的帖子进行展示之前,需要对待展示的帖子进行内容分类,并将分类结果返回给运营方,由运营方根据分类结果对帖子进行不同的操作,比如:删除、打码、警告等。
目前对帖子的内容分类方法主有如下两种:
第一种是基于策略的方法。该方法具体为:根据分类标准,确定不同种类下的关键字,只要文本命中了该类别下的关键字,就判定该文本属于这个类别。
第二种是为策略和机器学习算法相结合的方法,例如关键字+词向量+SVM,在第一种方法的基础上,将没有命中关键字的文本以向量的形式来表示,然后通过预训练的有监督的机器学习算法(如SVM或者LR)进行判别,返回该文本对应的类别。
然而,上述方法存在如下缺点:
第一种方法最大的缺点是当分词器在切词不准确的情况下,会存在大量误判。
第二种方法中传统的机器学习方法无法提取深层次、非线性化的语义结构;另外这种方法的词向量是静态的,无法在训练模型时候,根据分类目标动态变化,从而导致分类准确率低的问题。
发明内容
本发明实施例提供一种文本分类方法、装置、设备和介质,以提高文本分类准确率。
第一方面,本发明实施例提供了一种文本分类方法,该方法包括:
若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致,则将匹配一致的关键词作为所述待分类文本的类别;
若所述待分类文本中的词语与所述待分类文本所属场景的关键词均匹配失败,则根据所述待分类文本的长度确定分类模型;
基于确定的分类模型,对所述待分类文本进行分类。
进一步地,所述根据所述待分类文本的长度确定分类模型,包括:
若所述待分类文本的长度大于长度阈值,则确定所述分类模型为层数大于层数阈值的分类模型;
若所述待分类文本的长度小于或等于长度阈值,则确定所述分类模型为层数小于或等于层数阈值的分类模型。
进一步地,所述层数大于层数阈值的分类模型是BiLSTM模型;
所述层数小于或等于层数阈值的分类模型是TextCNN模型。
进一步地,所述长度阈值的确定包括:
对获取的文本的长度按照大小进行排序;
确定相邻两长度之间的长度差;
将最大长度差值关联的文本长度中的任一文本长度作为所述长度阈值。
进一步地,所述若待分类文本中的词语与所述待分类文本所属场景的关键词匹配一致,则将匹配一致的关键词作为所述待分类文本的类别之前,所述方法还包括:
去除所述待分类文本中的符号;
基于待分类文本所属行业的词库,对去除符号后的所述待分类文本进行切词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏满运软件科技有限公司,未经江苏满运软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910487301.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向语义敏感词句的分析方法
- 下一篇:用户标识检测方法、装置及存储介质