[发明专利]一种结合注意力机制的深度学习多分类情感分析模型有效
申请号: | 201910553755.7 | 申请日: | 2019-06-25 |
公开(公告)号: | CN110287320B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 刘磊;孙应红;陈浩;李静 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 注意力 机制 深度 学习 分类 情感 分析 模型 | ||
1.一种结合注意力机制的深度学习多分类情感分析方法,其特征在于包括以下步骤:
步骤(1)数据预处理
设情感数据集表示为:G=[(segtxt1,y1),(segtxt2,y2),...,(segtxtN,yN)],其中,segtxti表示第i个样本,yi则为对应的情感类别标签,N表示数据集G中样本个数,对G中样本进行数据预处理,
数据集G经预处理后,表示为G′=[(seg1,y1),(seg2,y2),...,(segM,yM)],其中:segi表示为数据集G′中第i个样本,yi则为对应的情感类别标签,M表示数据集G′中样本个数;
步骤(2)构建模型的输入
对于数据集G′中任意一个待分析样本数据(seg,y),将其进一步细化表示为:
seg=[w1,w2,...,wi,...,wd]T (1)
y=[0,0,1,...,0] (2)
其中:wi∈Rε是指依据词表wordList对待分析文本中第i词语的one-hot编码,ε为词表wordList的大小,d表示该文本的句长,y∈Rp是依据情感类别的one-hot编码,p表示模型待分类的类别数目,则该样本的词向量嵌入矩阵可表示为:
X=seg*ET (3)
其中:X∈Rd×m,X=[x1,x2,...,xd]T为待分析文本的词向量矩阵表示,m为词向量的维度,xi∈Rm为该文本中第i个词汇的词向量表示,E为词向量嵌入层表示;
步骤(3)构建深度学习多分类情感分析模型
深度学习多分类情感分析模型包括基于CNN网络的局部特征提取阶段和基于LSTM网络的语序关系特征提取阶段,将基于CNN网络的局部特征提取阶段的池化层结果CCnn和基于LSTM网络的语序关系特征提取阶段的结果C'Rnn拼接,即向量[CCnn;C'Rnn]作为模型最终提取的特征向量,然后将特征向量[CCnn;C'Rnn]经过全连接层得到最终的模型输出向量其中p表示模型待分类的类别数目,
所述的基于CNN网络的局部特征提取阶段,包括以下内容:
局部特征提取阶段输入为公式3的待分析文本的词向量矩阵表示X;
局部特征提取阶段基于CNN网络,一共包括两层,即一层卷积层、一层池化层,其中:
卷积层采用n种不同尺度的卷积核对待分析文本进行卷积,且同一尺度卷积核的滤波器即神经元各k个;
池化层采用最大池化层的方法将卷积所得的向量做下采样,选出局部最优特征,因此每个滤波器通过最大池化层变为一个标量,该标量代表着该滤波器中最优的情感特征;
局部特征提取模块的输出为CCnn=[c1,c2,...,cnk],即将池化层中不同尺寸的多个滤波器选取的最优特征拼接到一起CCnn=[c1,c2,...,cnk]作为本模块的输出,其中,CCnn∈Rnk,nk为卷积层中所有滤波器的个数;
所述的基于LSTM网络的语序关系特征提取阶段,包括以下内容:
多尺度CNN网络局部特征提取:将基于CNN网络的局部特征提取阶段中卷积层同一卷积尺度的k个滤波器的卷积结果拼接,得到集合ZCnn,然后将集合ZCnn中的每个向量Zi输入到GLU门控机制中,得到的结果记为{π1,π2,...,πn},完成多尺度CNN网络局部特征的提取,
其中,ZCnn={Z1,Z2,...,Zn},Zi为尺度为i的多个滤波器卷积结果的拼接;
其中,Zi代表某一尺度的k个滤波器卷积结果的拼接,W1,W2∈Rλ×q为权重矩阵,λ表示对应权重矩阵的维度,b1,b2∈Rq为偏置量,σ表示sigmoid函数,πi∈Rq,q为LSTM网络的输出维度;
然后,利用注意力机制,将多尺度CNN网络局部特征提取结果{π1,π2,...,πn}融入到LSTM网络中,得到基于LSTM网络的语序关系特征提取阶段的输出结果C'Rnn,即
其中,表示待分析文本中最后一个词语所对应的LSTM模块的输出,表示待分析文本中第一个词语所对应的LSTM模块的输出,本发明采用双向LSTM模型,即BiLSTM模型,
采用正向传播,具体计算过程如下:
d为待分析文本的长度,该文本中每一个词语顺序对应一个LSTM模块,
正向传播过程中,第t-1个LSTM模块的输出为则第t个LSTM模块的输出计算公式如下:
其中:是两个向量的点乘,也称打分函数,是用来计算前一词语的LSTM的输出和当前局部特征向量的相似度,
其中:αt,i∈R代表特征πi的权重,
其中:st-1∈Rq是多个卷积特征的加权结果,利用st-1代替结合当前词语的词向量xt求得当前LSTM模块的输出公式如下:
采用反向传播,具体计算过程与正向传播一样;
步骤(4)模型训练:将训练数据输入多分类情感分析模型,采用交叉熵损失函数,结合反向传播BP算法调整参数,利用softmax回归作为分类算法,完成训练;
步骤(5)模型分析:将待分析文本输入训练完成的模型,最终输出对该文本分析后的情感分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910553755.7/1.html,转载请声明来源钻瓜专利网。