[发明专利]一种基于多任务对抗学习的文本分类方法在审

专利信息
申请号: 201811201446.5 申请日: 2018-10-16
公开(公告)号: CN109543031A 公开(公告)日: 2019-03-29
发明(设计)人: 陆璐;贾志豪 申请(专利权)人: 华南理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62;G06N3/04;G06N3/08
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 陈宏升
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 特征空间 文本分类 对抗 共享 领域文本 任务学习 正交约束 构建 分类 学习分类器 共享网络 关联信息 目标领域 任务特征 冗余特征 损失函数 特征矩阵 文本数据 提取器 引入 准确率 富含 向量 嵌入 剥离 提炼 网络 学习 预测 应用 联合
【说明书】:

发明公开了一种基于多任务对抗学习的文本分类方法,包括以下步骤:预训练词嵌入向量;构建多任务特征提取器,提炼出多领域文本数据的共享特征和私有特征;引入多领域的对抗网络,使得共享特征空间包含更多共享特征和更少的私有特征;引入特征矩阵的正交约束,消除同时存在于共享特征空间和私有特征空间中的冗余特征;设计联合损失函数,构建完整的多任务对抗学习分类器;将共享网络层剥离出来,用于新目标领域文本数据的分类预测。本发明可直接应用于实际多领域文本数据的分类任务中,采用本发明中的多任务学习分类方法可以解决单任务学习会忽略任务之间所富含的关联信息的问题,且通过对抗网络和正交约束可提高文本分类的准确率。

技术领域

本发明涉及自然语言处理领域中的信息挖掘和文本分类领域,特别涉及一种基于多任务对抗学习的文本分类方法。

背景技术

信息时代以惊人的速度发展,容纳了海量的各种类型的信息,其中包括文本信息、声音信息、图像信息等。文本分类作为处理和组织大量文本数据的关键技术,可以较大程度上解决信息杂乱的问题,方便用户准确定位信息,提高信息检索的效率,大大降低组织整理文档耗费的人力资源。因此,越多越多的自然语言处理研究和实践人员开始高度关注基于机器学习和深度学习的文本分类方法,并不断提出新的模型优化文本分类的准确性。

基于机器学习的传统文本分类方法,首先从文本数据中提出特征,常用的特征计算有TF/IDF,互信息量,信息增益、X2统计量、N-Gram等方法。这些特征主要利用的是统计学分析获取的特征。进一步地,文本分类方法运用如支持向量机、随机森林、逻辑回归等监督学习模型构造分类器得到分类模型,最终对新文本数据进行分类预测。

基于深度学习的文本分类方法,使用一些神经网络模型如卷积神经网络CNN、长短期记忆网络LSTM等模型来做特征的提取,往往取得了更好的分类效果。然而,面对多领域(任务)文本分类处理,分别对单一领域(任务)的文本数据集进行训练学习效果有限,效率也不高;另一方面,多任务学习中的Shared-Private模型可以同时学习多领域文本数据的共享特征和私有特征,且通过引入对抗训练网络和特征矩阵的正交约束,多领域的文本分类准确率得到进一步提升,训练学习得到的共享网络层还可以进行保存,用于缺乏训练数据的新目标领域的文本分类预测。

基于上述动机和技术,本发明提出一种基于多任务对抗学习的文本分类方法。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于多任务对抗学习的文本分类方法,结合多任务中的Shared-Private模型、对抗训练网络和特征矩阵的正交约束模型,解决现有文本分类方法单任务学习会忽略多任务之间所富含的关联信息的问题,进一步提高分类的准确率。该方法操作简易,只需在已有的多任务文本数据集上训练出一种文本分类模型,然后提供新目标领域的文本数据集即可提供一套对该领域文本数据集的分类预测结果,为新领域文本自动分类整理提供参考依据。

本发明的目的通过以下的技术方案实现:

一种基于多任务对抗学习的文本分类方法,包括以下步骤:

1)基于word2vec模型,在未贴标签的大规模数据集上预训练wordembeddings词嵌入向量,用于文本数据的矩阵向量化;

2)构建基于Shared-Private模型的多任务特征提取网络,利用步骤1)得到的预训练词向量初始化Shared-Private网络的输入;

3)引入多领域对抗网络,优化步骤2)得到的共享特征空间,使之包含更多的共享特征和更少的私有特征;

4)引入特征矩阵的正交约束模型,在步骤3)中优化共享特征空间的基础上,消除共享特征空间和私有特征空间中的冗余特征;

5)在步骤2)、步骤3)和步骤4)的基础上,设计带超参数的联合损失函数,训练出基于多任务对抗学习的文本分类模型;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811201446.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top