[发明专利]文本的分类方法及系统、电子设备、存储介质在审
| 申请号: | 201910185723.6 | 申请日: | 2019-03-12 |
| 公开(公告)号: | CN111694948A | 公开(公告)日: | 2020-09-22 |
| 发明(设计)人: | 夏锦春;华夏;赵明明 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
| 代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;李梦男 |
| 地址: | 100086 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 分类 方法 系统 电子设备 存储 介质 | ||
本发明公开了一种文本的分类方法及系统、电子设备、存储介质。分类方法包括:设置网络新词库;网络新词库存储有网络新词;根据网络新词库和常用词库对待分类文本进行分词处理,获得特征词;常用词库存储有常用词;采用第一计算公式计算属于常用词的特征词的第一特征权重;采用第二计算公式计算属于网络新词的特征词的第二特征权重;将第一特征权重和第二特征权重构成待分类文本的特征向量,并根据特征向量对待分类文本进行分类。本发明把网络新词发现的结果加入文本预处理过程,在降低特征空间的维度的同时,有效提高分类器性能,优化分类结果,可被广泛用于用户检索,对信息频繁更新电商领域、搜索引擎都有积极作用。
技术领域
本发明涉及计算机技术领域,特别涉及一种文本的分类方法及系统、电子设备、存储介质。
背景技术
随着互联网的发展,网络成为用户获取信息的主要渠道,而信息的爆炸式增长使得用户难以从海量数据中获得需要的信息。这在搜索引擎和电子商务搜索中体现的越发明显。为提升用户体验,对待分类文本进行有效分类变得越来越重要。通过分类算法对未知类别的文档进行处理,可以判定它所属的预定义类别,而分类算法主要建立在向量空间模型的基础上,特征词权重算法的优劣将直接影响文本分类的精准度。
特征权重算法用以衡量词条在文本中的重要性,TF-IDF算法是最为经典的特征词权重算法,传统的TF-IDF算法主要考虑特征词的TF和IDF两个方面的信息,改进后的TF-IDF算法也均从算法本身进行分析和修改,没有结合时代背景对处理对象进行分析,忽略了文本表达方式变化带来的影响,也就不能实现对待分类文本的有效分类。
发明内容
本发明实施例要解决的技术问题是为了克服现有技术中的分类方法,没有结合文本表达方式进行分析,不能实现对待分类文本的有效分类的缺陷,提供一种文本的分类方法及系统、电子设备、存储介质。
本发明实施例是通过下述技术方案来解决上述技术问题:
一种文本的分类方法,所述分类方法包括:
设置网络新词库;所述网络新词库存储有网络新词;
根据所述网络新词库和常用词库对待分类文本进行分词处理,获得特征词;所述常用词库存储有常用词;
采用第一计算公式计算属于所述常用词的特征词的第一特征权重;采用第二计算公式计算属于所述网络新词的特征词的第二特征权重;
其中,对于同一特征词,所述第一计算公式的计算结果小于所述第二计算公式的计算结果;
将所述第一特征权重和所述第二特征权重构成所述待分类文本的特征向量,并根据所述特征向量对所述待分类文本进行分类。
较佳地,根据所述网络新词库和所述常用词库对所述待分类文本进行分词处理的步骤之后,还包括:
将分词后的所述待分类文本转换为词频矩阵;
对所述词频矩阵进行特征提取,得到所述特征词。
较佳地,根据所述特征向量对所述待分类文本进行分类的步骤,具体包括:
计算所述待分类文本与已分类文本的相似度,并按照所述相似度由高至低的顺序对所述已分类文本进行排序;
从所述已分类文本中获取排序靠前的若干目标文本;
根据所述相似度计算所述待分类文本所属于所述若干目标文本所在分类类别的文本权重;
将所述待分类文本分配至所述文本权重最大的所述分类类别。
较佳地,根据所述网络新词库和所述常用词库对所述待分类文本进行分词处理的步骤之后,还包括:
去除分词处理后的所述待分类文本中的停用词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910185723.6/2.html,转载请声明来源钻瓜专利网。





