[发明专利]基于CNN的方面级跨领域情感分析方法有效

专利信息
申请号: 202011026500.4 申请日: 2020-09-25
公开(公告)号: CN112163091B 公开(公告)日: 2023-08-22
发明(设计)人: 孟佳娜;于玉海;吴诗涵 申请(专利权)人: 大连民族大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06F40/211;G06F40/289;G06N3/0464;G06N3/08
代理公司: 大连智高专利事务所(特殊普通合伙) 21235 代理人: 毕进
地址: 116600 辽宁省*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 cnn 方面 领域 情感 分析 方法
【权利要求书】:

1.一种基于CNN的方面级跨领域情感分析方法,其特征在于:

S1.构建方面级情感分析模型

S2.方面级跨领域情感分析

S1的步骤如下:

方面级情感分析模型的输入分为两部分,分别是方面词和上下文,对应的卷积过程也包含两部分,上下文X包含了l个单词,将每个单词转换为d维的词向量,句子X表示为d*l维的矩阵,使用d*k(k<L)维的卷积核Wc,在上下文矩阵上进行单向平移扫描,k表示卷积核每次扫描所包含的单词的个数,每次扫描可以得到一个卷积结果ci,如式(2-1)所示:

ci=f(Xi:i+k-1*Wc+bc)       (2-1)

其中bc是偏置,f为激活函数,*代表卷积操作,因此扫描完该句子后,得到向量c,如式(2-2)所示:

c=[c1,c2,...,clk]      (2-2)

其中lk表示向量c的长度,在实验中设置nk个大小为k的卷积核,当所有句子扫描结束后,可以得到一个nk*lk维的矩阵,再对该矩阵进行最大池化处理,即取每行的最大值,此时该句子可以用一个nk维的向量来表示;

由于方面词T可能由一或多个词构成,因此添加一个小的CNN,将方面词T转化为词嵌入矩阵,如式(2-3),并通过卷积和池化操作,提取方面词的特征,如式(2-4)所示:

T=[Ti,Ti+1,...,Ti+k]      (2-3)

vi=frelu(Ti:i+k*Wv+bv)     (2-4)

其中,Wv是d*k维的卷积核,bv是偏执;

设置两组相同大小的卷积核同时扫描句子,并将结果分别输入到两个门单元中,分别对方面和情感两类信息进行了编码,得到两个向量si、ai,在计算si时,采用tanh作为激活函数,如式(2-5)所示;

si=ftanh(Xi:i+k*Ws+bs)      (2-5)

其中,Ws是d*k维的卷积核,bs是偏执;

在计算ai时,在输入中加入方面词的嵌入向量va,va由vi做最大池化得到,并采用relu作为激活函数,如式(2-6)所示,ai视为方面特征

ai=frelu(Xi:i+k*Wa+Vava+ba)    (2-6)

经过训练,通过relu函数后,模型会给与方面词较密切的情感词一个较高的权重ai,反之,若二者关系较远,则权重可能很小或者为0,最后将si、ai这两个向量对应相乘,得到的结果即为最终的特征向量oi,如式(2-7)所示:

oi=si*ai    (2-7)

将oi输入到池化层,做最大池化处理,最后将得到的向量输入到全连接层,使用Softmax分类器得到各个类的概率,通过概率大小判断其类别;

S2的步骤如下:

第一步,使用源领域有标签数据训练神经网络模型,将句子X中的每个单词转换为d维的词嵌入,将句子最大长度固定为l,不足特定值的部分用0补充,超出特定值的部分截断,句子中共有L个单词,此时句子X表示为d*l维的矩阵,如式(2-8)所示:

Xs∈Rd*l       (2-8)

方面词表示为d*l维的矩阵,如式(2-9)所示:

Ts∈Rd*l      (2-9)

将句子和方面词分别输入到卷积层,利用卷积层提取句子中的特征,将卷积核W的大小设置为d*k维,k<L,并将卷积核在句子矩阵和方面词矩阵上分别进行单向平移扫描,k表示卷积核每次扫描所包含的单词的个数,扫描后得到卷积结果ci和vi,如式(2-10)(2-11)所示:

ci=f(Xi:i+k-1*Wc+bc)     (2-10)

vi=f(Ti:i+k*Wv+bv)    (2-11)

其中bc,bv是偏置,f为卷积核激活函数,*代表卷积操作;

第二步,将vi通过最大池化操作后得到的vs和ci一起送入到门控单元中,对方面信息和情感信息进行匹配与融合,最后得到一组情感向量Os,如式(2-12)所示:

Os=[o1,o2,...,olk]      (2-12)

第三步,针对模型训练时出现的过拟合现象,使用Dropout提高神经网络结构性能,选择用最大池化操作,取出特征值中的最大值作为主要的特征,如式(2-13)所示:

max(Os)=(max o1,max o2,...,max olk)     (2-13)

第四步,将提取到的特征输入到全连接层,全连接层通过使用softmax分类器得到各个类的概率,通过概率的大小判断其所属的类别,公式如式(2-14)(2-15)所示:

第五步,得到源领域的分类结果后,使用少部分已标注的目标领域数据对模型进行微调,并在卷积层使用源域训练好的卷积核的权重,应用前向传播算法获取特征图,对全连接层中的权重使用随机梯度下降方法进行微调,再对目标领域进行情感分类,得到最终的分类结果,如式(2-16)(2-17)所示:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011026500.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top