[发明专利]一种基于多语言层次机制的方面级情感分析方法有效

申请号：	201910324300.8	申请日：	2019-04-22
公开（公告）号：	CN110046353B	公开（公告）日：	2022-05-13
发明（设计）人：	黄贤英;刘广峰;刘小洋;范海波	申请（专利权）人：	重庆理工大学
主分类号：	G06F40/30	分类号：	G06F40/30;G06N3/04;G06N3/08
代理公司：	重庆天成卓越专利代理事务所(普通合伙) 50240	代理人：	王宏松
地址：	400054 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语言层次机制方面情感分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多语言层次机制的方面级情感分析方法，其特征在于，包括以下步骤：

S1，将输入文本转化为向量表示；

对每一个用户评论进行主题词提取，并将所有主题词出现的次数由大到小排列，取前A₁个主题词保存，所述A₁为正整数；

将用户评论对应的主题词映射为一个m维的连续值向量；

并将用户评论对应的方面词映射为一个m维的连续值向量；

S11，对于输入句子的每个词w_ζ，ζ为词在句子中的序号，使用一个预训练的词查找表E，将其表示为一个低维向量

其中，为词w_ζ的one-hot编码；

S12，使用字符级别的卷积神经网络得到词语对应的字符向量表示；首先使用一个预定义的字符查找表，将输入词中的每一个字符映射为一个低维的字符向量；这样每个单词表示为一个字符矩阵；然后将字符矩阵作为卷积神经网络的输入，得到每个词在字符级别的词嵌入；使用C[i:j]表示矩阵C第i行到第j行之间所有行构成的子矩阵；卷积神经网络使用一个维度为h×ψ的滤波器，在大小为h个字符的窗口上进行卷积，产生一个特征序列c：

c_ξ＝f(w·C[ξ:ξ+h-1]+b)，

其中，f( )为非线性激活函数，w为卷积核权重，b为偏置项；然后使用max-pooling对特征序列求最大值，得到该滤波器产生的特征最后使用n个滤波器产生n个特征，将这n个特征进行拼接得到词；

S13，使用门机制来自适应地选择最合适的融合方式，得到词语的最终向量表示：

其中，G₁、G₂、G₃和G₄为变换参数，将字符级别的词向量变换到与相同维度的空间中，得到σ( )为sigmoid函数，g为门权重值，用来衡量与的重要性，最终得到每个词w_ζ的向量表示

S2，获取输入文本中不同句子之间的时序关系，并获取方面词在单个句子中的局部特征和在整个句子中的长距离依赖关系；

S21，对输入文本进行词嵌入操作；

S22，对于长度为d的独立区域r_k，将独立区域r_k中每一个词语映射为一个m维的连续值向量，得到每一个区域的向量表示，

将用户评论中的每一个独立区域作为卷积神经网络的输入，然后使用长度为l的卷积核对独立区域r_k做卷积操作：

N_k＝f(w·r_k+b)，

其中，f( )为非线性激活函数，w为卷积核权重，b为偏置项，对每一个区域通过卷积操作得到独立区域r_k的特征图N：

对于每一个区域，采用max-pooling方法进行局部特征的下采样，提取每一个特征图N最重要的特征信息：

N＝max-pooling(N)，

经过词向量模型得到的句子词向量信息以及区域CNN输出的特征信息，按下述步骤进行执行：

第一步，使用词语层网络将方面向量和主题向量分别与LSTM网络的上一个神经单元的隐藏层输出结合作为下一个LSTM神经单元的输入：

其中U和T分别为对应隐藏层输出的权重矩阵，W_α和W_β分别为方面词向量α和主题词向量β的权重矩阵；为正向LSTM网络函数；为反向LSTM网络函数；为正向LSTM网络的上一个神经单元的隐藏层输出，为正向LSTM网络的神经单元的隐藏层输出，e_aspect为方面词对应的深度特征，e_topic为主题词对应的深度特征；

为反向LSTM网络的上一个神经单元的隐藏层输出，为反向LSTM网络的神经单元的隐藏层输出；

第二步，将区域CNN的输出按句子的先后顺序形成序列化矩阵和将词语层Bi-LSTM网络的最终输出结合作为句子层双向LSTM网络的输入：

其中h_L、h_L′分别为词语层两个LSTM网络最后一层LSTM单元的输出，为简单拼接操作，N为提取特征图最重要的特征信息；

通过两个LSTM网络生成对应的隐藏状态输出P＝{P₁,P₂,P₃,…,P_k}、Q＝{Q₁,Q₂,Q₃,…,Q_k}，P₁，Q₁为两个LSTM网络第一层输出，P₂，Q₂为两个LSTM网络第二层输出，P₃，Q₃为两个LSTM网络第三层输出，P_k，Q_k为两个LSTM网络最后一层输出，将其最后一层LSTM网络输出进行拼接所得到的向量即为本文所需要的情感分类向量：