[发明专利]文本分类方法和装置、电子设备、计算机可读存储介质有效
| 申请号: | 201910877110.9 | 申请日: | 2019-09-17 |
| 公开(公告)号: | CN110717039B | 公开(公告)日: | 2023-10-13 |
| 发明(设计)人: | 郑立颖;徐亮;阮晓雯 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284 |
| 代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 孙强 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 分类 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种文本分类方法,其特征在于,包括:
通过对待分类文本进行分词处理,获得所述待分类文本对应的分词集合;
根据预设的词向量词典对所述分词集合进行向量化处理,获得所述待分类文本对应的词向量集合,所述词向量词典融合有分词所对应的快速文本向量和词嵌入向量;
通过预设的标签预测模型对所述待分类文本对应的词向量集合进行类别标签预测,所述标签预测模型是共同根据所述训练集和测试集进行训练得到的,所述测试集用于修正所述训练集中的错误数据;
获取所述标签预测模型所输出的预测结果,所述预测结果对应于所述待分类文本所对应的文本类别。
2.根据权利要求1所述的方法,其特征在于,在所述通过对待分类文本进行分词处理,获得所述待分类文本的分词集合之前,所述方法还包括:
获取待进行词向量训练的语料分词词库;
对所述语料分词词库中的各分词,分别通过快速文本模型的连续跳跃元语法模式和词嵌入模型进行词向量训练,获得所述分词对应的快速文本向量和词嵌入向量;
通过计算分词所对应快速文本向量和词嵌入向量的平均向量,获取所述平均向量为所述分词对应的向量表达;
获取所述语料分词词库中每一分词所对应向量表达形成所述词向量词典。
3.根据权利要求2所述的方法,其特征在于,所述连续跳跃元语法模式下的子字长度参数用于指示将所述分词拆解为1个字或者2个字进行所述词向量训练。
4.根据权利要求1所述的方法,其特征在于,在所述通过对待分类文本进行分词处理,获得所述待分类文本的分词集合之前,所述方法还包括:
按照设定比例,将待进行标签预测模型训练的标注语料划分为训练集和测试集,所述标注语料含有标注的类别标签;
根据所述训练集对待训练的标签预测模型进行初始训练;
对初始训练所得标签预测模型,分别通过所述训练集和测试集进行组合训练,根据所述标签预测模型所输出预测结果对所述训练集中标注错误的类别标签进行修正;
根据修正得到的类别标签对所述训练集更新,且通过所述测试集和更新所得训练集迭代执行所述标签预测模型的训练过程,直至所述标签预测模型收敛。
5.根据权利要求4所述的方法,其特征在于,所述根据所述标签预测模型所输出预测结果对所述训练集中标注错误的类别标签进行修正,包括:
根据所述标签预测模型所输出结果,分别计算所述标签预测模型为所述训练集和测试集进行标签预测的准确率;
在所述训练集和测试集对应的准确率均低于设定的准确率阈值时,筛选所述训练集中预测标签结果与所标注类别标签不一致的训练样本集合;
通过计算所述训练样本集合中预测结果正确且类别标签标注错误的概率,获得所述训练样本集合对应的预测概率值;
在所述预测概率值低于设定的概率阈值时,获取人工输入的类别标签对所述训练样本集合中训练样本所标注类别标签进行修正。
6.一种文本分类装置,其特征在于,包括:
分词处理模块,用于通过对待分类文本进行分词处理,获得所述待分类文本对应的分词集合;
向量化处理模块,用于根据预设的词向量词典对所述分词集合进行向量化处理,获得所述待分类文本对应的词向量集合,所述词向量词典融合有分词所对应的快速文本向量和词嵌入向量;
标签预测模块,用于通过预设的标签预测模型对所述待分类文本对应的词向量集合进行类别标签预测,所述标签预测模型是共同根据所述训练集和测试集进行训练得到的,所述测试集用于修正所述训练集中的错误数据;
类别获取模块,用于获取所述标签预测模型所输出的预测结果,所述预测结果对应于所述待分类文本所对应的文本类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910877110.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:对象分类方法及装置
- 下一篇:词典扩充方法及装置、电子设备、存储介质





