[发明专利]基于卷积神经网络的多标签文本分类方法在审
| 申请号: | 202111205909.7 | 申请日: | 2021-10-15 |
| 公开(公告)号: | CN113987170A | 公开(公告)日: | 2022-01-28 |
| 发明(设计)人: | 徐建;丁钦峻 | 申请(专利权)人: | 南京理工大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
| 地址: | 210094 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 卷积 神经网络 标签 文本 分类 方法 | ||
1.一种基于卷积神经网络的多标签文本分类方法,其特征在于,包括以下步骤:
步骤1,文本预处理,训练词嵌入模型,过程如下:
给定一个训练样本集合T;对集合中的每个文本去除其中的停止词、数字以及标签符号,得到处理过的训练样本集合T′,使用Word2Vec方法训练得到词嵌入模型;获得词嵌入矩阵M;
步骤2,训练卷积神经网络模型,过程如下:
该网络模型由嵌入层、卷积层、池化层、瓶颈层以及输出层组成;使用词嵌入矩阵M初始化嵌入层参数,根据样本集合T中的样本长度分布情况对每个样本进行截取或填充作为神经网络的输入;通过多轮训练优化网络参数,最后得到卷积神经网络模型Model;
步骤3,训练阈值线性分类器,过程如下:
将每个训练样本重新输入到训练好的模型Model中得到输出向量集合Outputs,结合每个训练样本的真实标签得到阈值集合Thre;再求训练样本的one-hot编码向量集合V,使用Thre和V训练线性分类器S;
步骤4,预测未知样本关联标签集合,过程如下:
求得未知样本的one-hot编码向量作为线性回归分类器S的输入预测出未知样本的阈值;将未知样本作为网络模型Model的输入得到预测向量;结合阈值与预测向量得到未知样本的标签集合。
2.根据权利要求1所述的基于卷积神经网络的多标签文本分类方法,其特征在于步骤1文本预处理,训练词嵌入模型的具体步骤如下:
步骤1.1,给定一个包含多个文本文件训练集合T={text1,text2,…,textn},以及每个文本对应的真实标签集合Yset={Y1,Y2,…,Yn},Yi表示texti的关联标签集合;
步骤1.2,首先删除文本中的换行符、跳格符、回车符;利用token化工具将文本分词,再对单词进行词形还原;借助nltk工具包中的停止词集合,删除文本中的停止词,最后再利用正则表达式去除文本中的标签符号和数字,得到处理过的训练集合T′={text′1,text′2,…,text′n};
步骤1.3,将T′作为输入,使用Word2Vec方法训练词嵌入模型emdModel;利用sklearn工具获得T′的词汇表voc,对于voc中的每个单词通过emdModel求得词向量组成词向量矩阵M∈Rv×d,其中v为词汇表大小,d为emdModel输出的词向量长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111205909.7/1.html,转载请声明来源钻瓜专利网。





