[发明专利]基于ResLCNN模型的短文本分类方法在审
申请号: | 201710609311.1 | 申请日: | 2017-07-25 |
公开(公告)号: | CN107562784A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 王俊丽;杨亚星;王小敏 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙)31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 reslcnn 模型 文本 分类 方法 | ||
技术领域
本发明涉及文本挖掘和深度学习领域,特别涉及到一种用于短文本分类的深度学习模型。
背景技术
短文本分类是自然语言处理中的关键任务,能够帮助用户从海量数据中发掘有用信息。句子模型目的是学习文本特征对句子进行表征,是短文本分类的关键模型,对于情感识别、问答系统、翻译等任务都有重要意义。
传统的句子模型使用的是词袋模型。基于向量空间模型表示方法,句子和文档被看作是无序的单词集合,每个特征词之间相互独立,模型没有包含词序和语法信息,并且,普遍具有维度灾难、稀疏等问题。所以,随着研究不断改进,对词序敏感的深度神经网络框架成为句子模型的主流框架。
不同于传统的方法,神经网络句子模型是基于词向量来训练的。词向量是神经网络语言模型的副产品,将词表达为低维度的向量,可以用欧氏距离来衡量向量的距离。目前,有研究者采用Skip-gram模型来预测上下文训练词向量,一同出现的信息被有效地用于表示单词,可以更好地表达出语义或句法信息。词向量具有两大特性:一是语义相近词的词向量距离相近;二是词向量线性运算也具有意义。
神经网络句子模型能够自己学习如何抓取特征,这些特征比人为处理的特征在后期的自然语言处理任务中表现得更好。深度神经网络可以分为两部分:特征层(Features)和映射层(Mapping Layer)。特征层,顾名思义,就是学习提取输入数据的特征;映射层是将获取的特征映射到输出层,用于分类或者递归任务。基于深度学习的句子模型关键是能通过多个特征层学习到更复杂的特征。卷积神经网络和循环神经网络(Recurrent Neural Network,RNN)是应用到句子模型的两种典型深度学习框架。
卷积神经网络采用权重共享的策略,可以在空间上获取较好的局部特征,在计算机视觉、语音识别领域取得了领先的研究成果,随后在语义分析、查询检索、句子建模等自然语言处理任务中都取得了较好的实分类效果。在模型中,卷积神经网络通过不同大小的卷积核来获取句子中不同的词组特征,并利用池化操作提取不同长度、不同位置的重要词组特性。
循环神经网络是另一个广泛应用在自然语言处理任务中的神经网络框架。它在时间结构上存在共享特性,能够顺序处理任意长度的句子。但是存在梯度消失和梯度爆炸的问题。为了解决该问题,能够更好的记忆信息,长短时记忆网络(Long Short-Term Memory,LSTM)应运而生,并在机器翻译、情感分类、答案排序、事件获取等方面都表现良好。
CNN和LSTM是比较典型的两种获取特征的神经网络结构。CNN利用卷积核在空间上获取局部特征,LSTM则能够在时间序列上获取依赖特征,它们各有优势。目前,在一些任务中,已经有结合CNN与LSTM的相关研究。例如:图片描述、语音识别、语言模型、句子文档建模等。他们训练卷积神经网络获取空间上的特征,通过长短时记忆网络结合序列方向上的特征,在空间结构和时间序列特征比较重要的任务中表现优异。
深度学习的优势在于通过多个特征层来得到更复杂、更高级的特征。但是,深层的神经网络面临的一个挑战是梯度消失问题。有研究也证实多层LSTM由于梯度消失问题出现了性能“退化”,效果不如两层的LSTM好。这主要是因为误差无法有效地反向传播到上层网络,致使上层网络的参数没能充分地优化。残差网络就是为改进深层神经网络梯度消失而提出的。有研究者对残差网络进行深入研究,得出同深度的残差网络效果更好,并且计算量更少。
发明内容
本发明要解决的技术问题是提供一种面向短文本分类的深度学习模型,有效结合长短时记忆网络和卷积神经网络,从时序和空间两个层次获取文本特征,并加深网络层以学习到更复杂的特征,改进短文本分类效果。
为达到上述发明目的,本发明技术方案:
一种基于三层LSTM和CNN网络结构的ResLCNN深度学习模型,其特征在于,采用多层LSTM获取文本序列的长距离依赖特征,利用CNN层通过卷积操作获取句子局部特征,有效结合LSTM和CNN从时序和空间两个层次获取特征,并借鉴残差网络理论,在第一层长短时记忆网络层与卷积神经网络层之间加入恒等映射,构建残差层,缓解了深层模型梯度消失问题。
本发明首先采用多层LSTM获取文本序列的长距离依赖特征,并将第一层LSTM的输出与第三层LSTM的输出相加,作为CNN层的输入,然后CNN层通过卷积操作结合句子空间上的特征,从而得到更复杂、更有效的文本特征。
本发明给出了具体的方法过程技术方案,包括步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710609311.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息查询方法、终端及服务器
- 下一篇:一种阅读内容整理分类方法及设备