[发明专利]基于ResLCNN模型的短文本分类方法在审
申请号: | 201710609311.1 | 申请日: | 2017-07-25 |
公开(公告)号: | CN107562784A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 王俊丽;杨亚星;王小敏 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙)31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 reslcnn 模型 文本 分类 方法 | ||
1.一种基于ResLCNN模型的短文本分类方法,其特征在于,采用多层LSTM获取文本序列的长距离依赖特征,利用CNN层通过卷积操作获取句子局部特征,有效结合LSTM和CNN从时序和空间两个层次获取特征,并借鉴残差网络理论,在第一层长短时记忆网络层与卷积神经网络层之间加入恒等映射,构建残差层,缓解了深层模型梯度消失。
2.如权利要求1所述的方法,其特征在于,包括步骤如下:
(1)输入层,预处理数据集。获取输入文本中每个单词的词向量。按照文本中单词顺序,构成表示文本的词向量矩阵M0。
(2)长短时记忆网络层。以词向量构成的文本矩阵M0作为输入,长短时记忆网络层根据输入门、遗忘门、输出门过滤信息,并通过线性自连接的记忆单元积累信息,将其作为中间产物来计算当前时刻隐藏层输出,获得文本时序上的特征矩阵M1。
(3)残差层。残差层有两条数据流,一条是恒等映射,结果和输入等同;另一条是残差块,包含两层长短时记忆网络,是ResLCNN模型的第二和第三网络层,对步骤(2)获得的特征矩阵M1进行同样的时序处理,学习更深层次的长距离依赖特征。残差层的输出是残差块与恒等映射两条数据流结合后的特征矩阵M3。
(4)卷积神经网络层。使用多个卷积核对残差层输出的特征矩阵M3进行卷积运算,提取局部卷积特征;采用max-over-time pooling算法(此算法在本领域已属现有技术)对局部卷积特征矩阵进行下采样,选取最优的特征,将得到的全局特征矩阵转换为语义特征向量M4。
(5)Softmax分类器。将文本的语义特征向量赋予分类器,对文本的类别进行预测。
3.如权利要求2所述的方法,其特征在于,所述步骤(1)输入层对数据集预处理的具体方法如下:
对于长度为n的文本,首先从Word2Vec(谷歌词向量)和GloVe(全局词向量)中查询每个单词对应的词向量,没有的采用正态分布函数生成;然后,将两种词向量按照公式(1)相结合得到对应单词的词向量x。随后,将每个单词的词向量按照文本顺序进行连接,见公式(2),得到词向量矩阵M0。
M0=[x1,x2,...,xn](2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710609311.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息查询方法、终端及服务器
- 下一篇:一种阅读内容整理分类方法及设备