[发明专利]一种文本分类方法及装置有效

申请号：	201710906486.9	申请日：	2017-09-29
公开（公告）号：	CN110019784B	公开（公告）日：	2021-10-15
发明（设计）人：	王天祎	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06F40/30
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100080 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本分类方法及装置，可以获取待分析文本；基于所述待分析文本的分字结果以及所述待分析文本的文本长度，生成表征所述待分析文本在预设空间分布情况的向量矩阵；根据所述待分析文本对应的向量矩阵，分析得到所述待分析文本的类别。本发明使用待分析文本的分字结果，待分析文本的分字结果唯一，不会分错，进而不存在现有技术中的当分词错误时，造成待分析文本的类别分析错误的问题。

技术领域

本发明涉及文本分析领域，更具体的说，涉及一种文本分类方法及装置。

背景技术

文本分类是文本分析领域最常见的需求点之一。

在进行文本分类时，首先对待分析文本进行分词得到分词结果，对分词结果去重得到去重后的分词结果，根据去重后的分词结果，基于机器学习算法分析得到待分析文本的类别。

由于现有技术中首先需要对待分析文本进行分词，当分词错误时，就会造成待分析文本的类别分析错误的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本分类方法及装置。

具体技术方案如下：

一种文本分类方法，包括：

获取待分析文本；

基于所述待分析文本的分字结果以及所述待分析文本的文本长度，生成表征所述待分析文本在预设空间分布情况的向量矩阵；

根据所述待分析文本对应的向量矩阵，分析得到所述待分析文本的类别。

优选地，基于所述待分析文本的分字结果以及所述待分析文本的文本长度，生成表征所述待分析文本在预设空间分布情况的向量矩阵，包括：

当所述文本长度不小于预设长度时，从样本数据库中获取得到所述分字结果中的前预设数量的字中存在于所述样本数据库的字对应的字向量；其中，所述样本数据库中保存有不同的字对应的字向量，字向量表示字在预设空间分布的位置；

将所述分字结果中的前预设数量的字中未存在于所述样本数据库中的字对应的字向量设置为第一预设向量；

根据所述分字结果中的前预设数量的每个字对应的字向量，生成所述待分析文本对应的向量矩阵。

优选地，基于所述待分析文本的分字结果以及所述待分析文本的文本长度，生成表征所述待分析文本在预设空间分布情况的向量矩阵，包括：

当所述文本长度小于预设长度时，从样本数据库中获取得到所述分字结果中存在于所述样本数据库的字对应的字向量；其中，所述样本数据库中保存有不同的字对应的字向量，字向量表示字在预设空间分布的位置；

将所述分字结果中未存在于所述样本数据库中的字对应的字向量设置为第一预设向量；

确定所述文本长度与所述预设长度之间的字数差，生成所述字数差数量的第二预设向量；

根据所述分字结果中的每个字对应的字向量以及生成的至少一个所述第二预设向量，生成所述待分析文本对应的向量矩阵。

优选地，所述样本数据库的生成过程包括：

获取第一文本数据库；其中，所述第一文本数据库中包括多个文本样本；

对所述第一文本数据库中的每个所述文本样本进行分字，得到每个所述文本样本的分字结果；

统计每个所述文本样本的分词结果中的每个字在所述第一文本数据库中出现的概率值，将各所述文本样本的分字结果中对应的概率值不小于预设数值的字确定为待训练字；

对各待训练字进行向量训练，得到各待训练字的字向量；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司，未经北京国双科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710906486.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本分类方法及装置有效

专利文献下载