[发明专利]一种短文本分类方法及装置在审
| 申请号: | 202010062909.5 | 申请日: | 2020-01-19 |
| 公开(公告)号: | CN111309901A | 公开(公告)日: | 2020-06-19 |
| 发明(设计)人: | 刘晓春;杨春宇;闫继培;王竞文 | 申请(专利权)人: | 北京海鑫科金高科技股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
| 地址: | 100070 北京市丰台区南*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 分类 方法 装置 | ||
本发明实施例公开了一种短文本分类方法及装置,方法包括:对目标短文本进行向量化处理,得到向量化目标短文本;提取所述向量化目标短文本的特征,得到向量化目标短文本特征;根据所述向量化目标短文本特征,确定所述目标短文本的语义向量;根据所述目标短文本的语义向量,确定所述目标短文本的类别。本发明实施例根据所述目标短文本的语义向量,确定所述目标短文本的类别,提高了分类精度,提高了分类准确率;克服了支持向量机模型分类只能进行二分类的问题,本发明支持多类分类;克服了支持向量机模型对大规模训练样本难以实施的问题;自动化对目标短文本进行分类,减少了工作人员工作量。
技术领域
本发明涉及计算机技术领域,具体涉及一种短文本分类方法及装置。
背景技术
目前,在文本分类领域,支持向量机模型得到了广泛的应用。
支持向量机模型分类适用于小样本学习,解决了非线性问题和高维问题,抗干扰能力强,总体表现出色。但是,支持向量机模型分类存在以下问题:第一方面,对缺失数据敏感,对样本的预测依赖于训练所得的分类决策函数,根据决策函数的值判断样本更接近哪个类别,即使在决策函数的值的置信度很低的情况下,依然会给出一个结果;第二方面,在公共安全领域案件分类这一特定场景,案件类别存在层次结构,如果仅采用单一层次的分类器,忽视了案件类别的层次关系,会导致分类的准确率低下;第三方面,支持向量机模型分类是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间,因此,对大规模训练样本难以实施;第四方面,支持向量机模型分类只给出了二分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题,因此,使用支持向量机模型分类解决多分类问题存在困难。
中国专利“CN107798033A一种公安领域案件文本的分类方法”公开了一种公安领域案件文本的分类方法,包括以下步骤:对案件文本进行预处理;建立支持向量机模型对预处理后的案件文本进行分类;建立基于词典的规则匹配案件分类器;根据决策函数值,对支持向量机分类所得结果置信度低的案件,利用所述基于词典的规则匹配案件分类器进行二次分类,以该分类结果为最终结果。上述专利主要是解决支持向量机模型分类中置信度较低时的误判问题,并不能从根本上解决支持向量机模型分类的其他方面问题。
发明内容
由于现有方法存在上述问题,本发明实施例提出一种短文本分类方法及装置。
第一方面,本发明实施例提出一种短文本分类方法,包括:
对目标短文本进行向量化处理,得到向量化目标短文本;
提取所述向量化目标短文本的特征,得到向量化目标短文本特征;
根据所述向量化目标短文本特征,确定所述目标短文本的语义向量;
根据所述目标短文本的语义向量,确定所述目标短文本的类别。
可选地,所述对目标短文本进行向量化处理,得到向量化目标短文本之前,所述短文本分类方法,还包括:
对所述目标短文本进行预处理,得到预处理后的目标短文本。
可选地,所述对目标短文本进行向量化处理,得到向量化目标短文本,包括:
根据训练好的词向量库,对所述预处理后的目标短文本进行向量化处理,得到所述向量化目标短文本。
可选地,所述根据训练好的词向量库,对所述预处理后的目标短文本进行向量化处理,得到所述向量化目标短文本,包括:
对所述预处理后的目标短文本划分词项,得到各个词项;
根据所述训练好的词向量库,对所述各个词项进行向量化处理,得到所述向量化目标短文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海鑫科金高科技股份有限公司,未经北京海鑫科金高科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010062909.5/2.html,转载请声明来源钻瓜专利网。





