[发明专利]一种文本分类方法及装置有效
| 申请号: | 201710906486.9 | 申请日: | 2017-09-29 |
| 公开(公告)号: | CN110019784B | 公开(公告)日: | 2021-10-15 |
| 发明(设计)人: | 王天祎 | 申请(专利权)人: | 北京国双科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
| 地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 分类 方法 装置 | ||
本发明公开了一种文本分类方法及装置,可以获取待分析文本;基于所述待分析文本的分字结果以及所述待分析文本的文本长度,生成表征所述待分析文本在预设空间分布情况的向量矩阵;根据所述待分析文本对应的向量矩阵,分析得到所述待分析文本的类别。本发明使用待分析文本的分字结果,待分析文本的分字结果唯一,不会分错,进而不存在现有技术中的当分词错误时,造成待分析文本的类别分析错误的问题。
技术领域
本发明涉及文本分析领域,更具体的说,涉及一种文本分类方法及装置。
背景技术
文本分类是文本分析领域最常见的需求点之一。
在进行文本分类时,首先对待分析文本进行分词得到分词结果,对分词结果去重得到去重后的分词结果,根据去重后的分词结果,基于机器学习算法分析得到待分析文本的类别。
由于现有技术中首先需要对待分析文本进行分词,当分词错误时,就会造成待分析文本的类别分析错误的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本分类方法及装置。
具体技术方案如下:
一种文本分类方法,包括:
获取待分析文本;
基于所述待分析文本的分字结果以及所述待分析文本的文本长度,生成表征所述待分析文本在预设空间分布情况的向量矩阵;
根据所述待分析文本对应的向量矩阵,分析得到所述待分析文本的类别。
优选地,基于所述待分析文本的分字结果以及所述待分析文本的文本长度,生成表征所述待分析文本在预设空间分布情况的向量矩阵,包括:
当所述文本长度不小于预设长度时,从样本数据库中获取得到所述分字结果中的前预设数量的字中存在于所述样本数据库的字对应的字向量;其中,所述样本数据库中保存有不同的字对应的字向量,字向量表示字在预设空间分布的位置;
将所述分字结果中的前预设数量的字中未存在于所述样本数据库中的字对应的字向量设置为第一预设向量;
根据所述分字结果中的前预设数量的每个字对应的字向量,生成所述待分析文本对应的向量矩阵。
优选地,基于所述待分析文本的分字结果以及所述待分析文本的文本长度,生成表征所述待分析文本在预设空间分布情况的向量矩阵,包括:
当所述文本长度小于预设长度时,从样本数据库中获取得到所述分字结果中存在于所述样本数据库的字对应的字向量;其中,所述样本数据库中保存有不同的字对应的字向量,字向量表示字在预设空间分布的位置;
将所述分字结果中未存在于所述样本数据库中的字对应的字向量设置为第一预设向量;
确定所述文本长度与所述预设长度之间的字数差,生成所述字数差数量的第二预设向量;
根据所述分字结果中的每个字对应的字向量以及生成的至少一个所述第二预设向量,生成所述待分析文本对应的向量矩阵。
优选地,所述样本数据库的生成过程包括:
获取第一文本数据库;其中,所述第一文本数据库中包括多个文本样本;
对所述第一文本数据库中的每个所述文本样本进行分字,得到每个所述文本样本的分字结果;
统计每个所述文本样本的分词结果中的每个字在所述第一文本数据库中出现的概率值,将各所述文本样本的分字结果中对应的概率值不小于预设数值的字确定为待训练字;
对各待训练字进行向量训练,得到各待训练字的字向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710906486.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:属性词聚类方法及装置
- 下一篇:一种文本分类方法及装置





