[发明专利]文本分类方法、装置及计算机可读存储介质有效

申请号：	201910967010.5	申请日：	2019-10-11
公开（公告）号：	CN110851596B	公开（公告）日：	2023-06-27
发明（设计）人：	张翔;于修铭;刘京华;汪伟	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/284;G06N3/0464
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类方法装置计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本分类方法，其特征在于，包括：

对原始文本数据进行预处理得到文本向量；

对所述文本向量进行标签匹配，得到带有标签的文本向量和不带有标签的文本向量；

将所述带有标签的文本向量输入BERT模型获得字向量特征；

根据所述字向量特征，利用卷积神经网络模型对所述不带有标签的文本向量进行训练，得到带有虚拟标签的文本向量；

利用随机森林模型对所述带有标签的文本向量和带有虚拟标签的文本向量进行多标签的分类，得到文本分类结果；

其中，所述将所述带有标签的文本向量输入BERT模型获得字向量特征，包括：使用位置编码给带有标签的文本向量加上位置信息，并使用初始词向量表示添加所述位置信息的带有标签的文本向量；获取带有标签的文本向量的词性，将所述词性转换为词性向量；将所述初始词向量与所述词性向量相加，得到所述带有标签的文本向量的词向量；将使用所述词向量表示的带有标签的文本向量输入至Transformer模型中进行数据处理，得到所述带有标签的文本向量的词矩阵；使用所述词矩阵，预测所述带有标签的文本向量中两个语句是否为上下句、两个语句中掩盖词和所述掩盖词的词性特征；对词性特征做归一化处理得到所述字向量特征；

所述根据所述字向量特征，利用卷积神经网络模型对所述不带有标签的文本向量进行训练，得到带有虚拟标签的文本向量包括：将所述不带有标签的文本向量输入所述卷积神经网络模型的卷积层对所述卷积神经网络模型进行训练，得到训练后的卷积神经网络模型；将所述字向量特征输入所述训练后的卷积神经网络模型，得到特征向量；将所述特征向量进行归一化处理得到所述虚拟标签；将所述虚拟标签匹配给所述不带有标签的文本向量，得到带有虚拟标签的文本向量。

2.如权利要求1所述的文本分类方法，其特征在于，所述对原始文本数据进行预处理得到文本向量包括：

对所述原始文本数据进行分词操作得到第二文本数据；

对所述第二文本数据进行去停用词操作得到第三文本数据；

对所述第三文本数据进行去重操作得到第四文本数据；

对所述第四文本数据进行词向量形式转化得到所述文本向量。

3.如权利要求1所述的文本分类方法，其特征在于，所述BERT模型包括输入层、词向量层、分类层、编码层。

4.如权利要求1所述的文本分类方法，其特征在于，所述得到带有虚拟标签的文本向量之后，还包括：生成所述随机森林模型；

所述生成所述随机森林模型包括：

利用袋装算法的有放回抽样，从所述带有标签的文本向量和带有虚拟标签的文本向量中抽取多个样本子集，并使用所述样本子集训练决策树模型；

采用所述决策树模型作为基分类器，利用预先设定的分裂规则对所述样本子集进行划分，生成由多棵所述决策树模型组成的随机森林模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载