[发明专利]一种基于深度多任务学习的文本分类方法在审
申请号: | 201611117038.2 | 申请日: | 2016-12-07 |
公开(公告)号: | CN106777011A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 张梓滨;潘嵘 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 任务 学习 文本 分类 方法 | ||
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种基于深度多任务学习的文本分类方法。
背景技术
随着互联网的发展,话题识别、垃圾邮件鉴别、情感分析等任务的需求也越来越多,而这些任务的基础都是文本分类。文本分类的目标是给定一些文档及其对应类标签作为训练集,通过算法学习一个分类器,能够将测试集中不带标签的文档的类标签预测出来。
现在已有了很多基于深度神经网络的文本分类算法,包括循环神经网络、卷积神经网络、递归卷积神经网络,以及这些网络与注意力机制、记忆模块等的结合。这些神经网络在很多数据集上取得较好的效果,但是他们也很容易遇到由于训练数据不够导致过拟合,只能减小网络规模,从而导致网络学习能力下降的问题。如果我们把自然语言认为是词之间的组合,那么词表的规模经常有数十万,那样bi-gram、tri-gram的规模就非常大了,因此需要神经网络有大量的参数去学习可能出现的组合。神经网络参数规模大、训练数据较少,那么带来的问题就是很容易过拟合,从而在测试集上的泛化能力下降。现在有很多方法都用来改善过拟合问题,比如参数正则化、批归一化等,然而并没有本质上解决训练数据不够的问题。
发明内容
本发明提供一种提高文本分类准确率的基于深度多任务学习的文本分类方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于深度多任务学习的文本分类方法,包括以下步骤:
S1:利用词向量和双向循环网络学习当前任务的文档表示;
S2:利用卷积神经网络,从其他任务的文档表示抽取特征;
S3:利用当前任务的文档表示、其他任务的特征学习分类器。
进一步地,所述步骤S1的具体过程为是:
将所有任务中所有中文文档进行分词,假设总共有N个词,然后赋予每个词一个唯一标示,然后表示成一个K维的向量,即所有词向量行程一个N*K的矩阵,然后使用正态分布随机初始化,词向量矩阵是所有任务共享的;
用词向量和双向循环网络学习当前任务的文档表示,双向循环网络的上文表示学习部分公式为:
双向循环网络的下文表示学习部分公式为:
其中,分别表示文档的上下文表示;ei为词wi的词向量,使用均值为0方差为0.06的正态分布进行随机初始化,训练的时候通过查表得到或使用较大规模的语料及word2vec预词向量同时进行替换掉随机初始化;Wl、Wr、Wrl、Wrr为参数矩阵,分别用在上文词向量、下文词向量、上文循环状态、下文循环状态上;f为非线性激活函数;
将得到所有单词的表示链接到一起,得到整个文档的矩阵表示X,即文档上文向量,下文向量的连接,其中
进一步地,所述步骤S2的具体过程为是:
1)、利用不同宽度的核矩阵对辅助任务的双向循环网络得到的特征进行一维卷积运算,检测出不同宽度的文档潜在候选语义特征:
ci=f(w·xi:i+h-1+b)
其中的w为一个卷积核矩阵;h为卷积核矩阵的宽度,b为偏执项;f为非线性激活函数;
2)对于不同卷积核矩阵得到的潜在语义特征,进行最大池化操作,即每个特征取最大值:
3)、不同卷积核矩阵得到的最大池化特征连接在一起,得到的任务的文档特征,具体公式为:
其中,m为卷积核矩阵的个数。
进一步地,将当前任务的文档语义表示和其他任务的文档表示连接到一起,即得到当前任务的文档的深度多任务文本表示,对该当前任务的文档的深度多任务文本表示进行全连接神经网络的特征学习,在全连接神经网络的输出层,将最终的语义表示赋予softmax操作,根据softmax的输出结果进行分类器学习。
进一步地,所述f为非线性激活函数sigmoid函数。
与现有技术相比,本发明技术方案的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611117038.2/2.html,转载请声明来源钻瓜专利网。