[发明专利]基于卷积神经网络的多标签文本分类方法在审

申请号：	202111205909.7	申请日：	2021-10-15
公开（公告）号：	CN113987170A	公开（公告）日：	2022-01-28
发明（设计）人：	徐建;丁钦峻	申请（专利权）人：	南京理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/284;G06N3/04;G06N3/08
代理公司：	南京理工大学专利中心 32203	代理人：	陈鹏
地址：	210094 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于卷积神经网络标签文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于卷积神经网络的多标签文本分类方法，包括以下步骤：步骤1，文本文件预处理，训练词嵌入模型；步骤2，训练卷积神经网络模型；步骤3，训练阈值线性分类器；步骤4，预测未知样本关联标签集合。本发明提出的多标签文本分类方法，能够通过训练卷积神经网络模型，并与阈值分类器结合，预测未知样本的关联标签集合；该方法克服了过去卷积神经网络中的缺陷，并继承了其优点，提出新的网络结构，有效提高了多标签文本分类准确度。

技术领域

本发明属于多标签文本分类技术领域，特别是一种卷积神经网络的多标签文本分类方法。

背景技术

在传统分类方法中，一个样本只能关联于一个标签，但是真实世界中一个对象通常具有多义性，即通常属于多个类别，这使得传统的单标签学习框架不再适用。而多标签分类在完成训练后，能够自动地为样本分配一个和多个类别标签，能够更好适应。并且相比每个样本仅关联于一个类别标签的单标签学习框架而言，多标签学习框架中的每个样本可以与多个类别标签相关联，其目的是通过学习给定的多标签训练集来有效预测未知样本所属的标签集合。除此之外，多标签分类面临算法复杂度更高、相关标签数目不确定等问题(Zhang Y,Li Y,Zhi C.Correlation-based pruning of dependent binary relevancemodels for Multi-label classification[C].2015IEEE 14th InternationalConference on Cognitive InformaticsCognitive Computing(ICCICC),2015.)，难度更大。目前，多标签分类方法不仅应用于文本分类，还应用于生物信息学、图像标注以及信息检索等多个领域。因此如何构建具有优秀性能的多标签分类器是目前多标签分类领域的重要研究课题。

在传统机器学习方法中，往往将多标签分类问题转化为多个单标签分类问题，这需要训练多个分类器。当标签空间庞大时，这种方法显然是不适用的。有的方法则是通过对单标签分类方法进行改进得到的，这类方法虽然只需要训练一个分类器就能解决多标签分类问题(Zhang M-L,Zhou Z-H.A review on multi-label learning algorithms[J].IEEEtransactions on knowledge and data engineering,2013,26(8):1819-1837.)，但仍然无法克服传统机器学习中存在的劣势，即特征提取。在传统机器学习方法中，面对不同问题或者不同类型的数据时，研究人员需要人工设计不同的特征提取模型。深度学习(Goodfellow I,Bengio Y,Courville A,et al.Deep learning[M].1.MIT pressCambridge,2016.)方法正好可以克服这一问题。深度学习是机器学习的一种，相较于传统机器学习方法，它的最大优势就是其特征提取并不依靠人工，而是机器自动提取。并且在训练数据充足的情况下，深度学习拥有更好泛化能力和预测精度。

卷积神经网络(CNN)是深度学习中一种典型网络结构。CNN通过卷积核进行特征提取，在特征提取的同时还能够有效压缩特征个数。目前有许多基于卷积神经网络的深度学习方法被用于解决多标签分类问题，并且都取到了不错的效果。但这些方法都有各自的局限性，各自在卷积或者池化部分都还有不足之处。

发明内容

本发明的目的在于提供一种基于卷积神经网络的多标签文本分类方法。

实现本发明目的的技术解决方案为：一种基于卷积神经网络的多标签文本分类方法，包括以下步骤：

步骤1，文本预处理，训练词嵌入模型，过程如下：

给定一个训练样本集合T；对集合中的每个文本去除其中的停止词、数字以及标签符号，得到处理过的训练样本集合T′，使用Word2Vec方法训练得到词嵌入模型；获得词嵌入矩阵M；

步骤2，训练卷积神经网络模型，过程如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京理工大学，未经南京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111205909.7/2.html，转载请声明来源钻瓜专利网。