[发明专利]一种基于多语言层次机制的方面级情感分析方法有效
| 申请号: | 201910324300.8 | 申请日: | 2019-04-22 |
| 公开(公告)号: | CN110046353B | 公开(公告)日: | 2022-05-13 |
| 发明(设计)人: | 黄贤英;刘广峰;刘小洋;范海波 | 申请(专利权)人: | 重庆理工大学 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 重庆天成卓越专利代理事务所(普通合伙) 50240 | 代理人: | 王宏松 |
| 地址: | 400054 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语言 层次 机制 方面 情感 分析 方法 | ||
1.一种基于多语言层次机制的方面级情感分析方法,其特征在于,包括以下步骤:
S1,将输入文本转化为向量表示;
对每一个用户评论进行主题词提取,并将所有主题词出现的次数由大到小排列,取前A1个主题词保存,所述A1为正整数;
将用户评论对应的主题词映射为一个m维的连续值向量;
并将用户评论对应的方面词映射为一个m维的连续值向量;
S11,对于输入句子的每个词wζ,ζ为词在句子中的序号,使用一个预训练的词查找表E,将其表示为一个低维向量
其中,为词wζ的one-hot编码;
S12,使用字符级别的卷积神经网络得到词语对应的字符向量表示;首先使用一个预定义的字符查找表,将输入词中的每一个字符映射为一个低维的字符向量;这样每个单词表示为一个字符矩阵;然后将字符矩阵作为卷积神经网络的输入,得到每个词在字符级别的词嵌入;使用C[i:j]表示矩阵C第i行到第j行之间所有行构成的子矩阵;卷积神经网络使用一个维度为h×ψ的滤波器,在大小为h个字符的窗口上进行卷积,产生一个特征序列c:
cξ=f(w·C[ξ:ξ+h-1]+b),
其中,f( )为非线性激活函数,w为卷积核权重,b为偏置项;然后使用max-pooling对特征序列求最大值,得到该滤波器产生的特征最后使用n个滤波器产生n个特征,将这n个特征进行拼接得到词;
S13,使用门机制来自适应地选择最合适的融合方式,得到词语的最终向量表示:
其中,G1、G2、G3和G4为变换参数,将字符级别的词向量变换到与相同维度的空间中,得到σ( )为sigmoid函数,g为门权重值,用来衡量与的重要性,最终得到每个词wζ的向量表示
S2,获取输入文本中不同句子之间的时序关系,并获取方面词在单个句子中的局部特征和在整个句子中的长距离依赖关系;
S21,对输入文本进行词嵌入操作;
S22,对于长度为d的独立区域rk,将独立区域rk中每一个词语映射为一个m维的连续值向量,得到每一个区域的向量表示,
将用户评论中的每一个独立区域作为卷积神经网络的输入,然后使用长度为l的卷积核对独立区域rk做卷积操作:
Nk=f(w·rk+b),
其中,f( )为非线性激活函数,w为卷积核权重,b为偏置项,对每一个区域通过卷积操作得到独立区域rk的特征图N:
对于每一个区域,采用max-pooling方法进行局部特征的下采样,提取每一个特征图N最重要的特征信息:
N=max-pooling(N),
经过词向量模型得到的句子词向量信息以及区域CNN输出的特征信息,按下述步骤进行执行:
第一步,使用词语层网络将方面向量和主题向量分别与LSTM网络的上一个神经单元的隐藏层输出结合作为下一个LSTM神经单元的输入:
其中U和T分别为对应隐藏层输出的权重矩阵,Wα和Wβ分别为方面词向量α和主题词向量β的权重矩阵;为正向LSTM网络函数;为反向LSTM网络函数;为正向LSTM网络的上一个神经单元的隐藏层输出,为正向LSTM网络的神经单元的隐藏层输出,easpect为方面词对应的深度特征,etopic为主题词对应的深度特征;
为反向LSTM网络的上一个神经单元的隐藏层输出,为反向LSTM网络的神经单元的隐藏层输出;
第二步,将区域CNN的输出按句子的先后顺序形成序列化矩阵和将词语层Bi-LSTM网络的最终输出结合作为句子层双向LSTM网络的输入:
其中hL、hL′分别为词语层两个LSTM网络最后一层LSTM单元的输出,为简单拼接操作,N为提取特征图最重要的特征信息;
通过两个LSTM网络生成对应的隐藏状态输出P={P1,P2,P3,…,Pk}、Q={Q1,Q2,Q3,…,Qk},P1,Q1为两个LSTM网络第一层输出,P2,Q2为两个LSTM网络第二层输出,P3,Q3为两个LSTM网络第三层输出,Pk,Qk为两个LSTM网络最后一层输出,将其最后一层LSTM网络输出进行拼接所得到的向量即为本文所需要的情感分类向量:
S3,基于分类特征来判别输入文本中不同方面的情感极性,将用户评论的情感展示出来;
情感极性的计算方法为:
y=softmax(W·C+b),
其中W为权重矩阵,b为偏置项,softmax( )为softmax函数;
对情感极性计算交叉熵,情感极性交叉熵的计算方法为:
其中,Y为训练集样本集合,O为类别标签集合,为待分类句子的实际类别,为待分类句子的预测类别,λ||θ||2为交叉熵的正则项,λ为正则参数、θ为正则算子,|| ||为范数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910324300.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:地址标准化方法及装置
- 下一篇:诵读引导方法、装置、设备及存储介质





