[发明专利]一种基于注意力机制的双模态情感分析方法有效

申请号：	202110103283.2	申请日：	2021-01-26
公开（公告）号：	CN112860888B	公开（公告）日：	2022-05-06
发明（设计）人：	林翔鹏;王甲海	申请（专利权）人：	中山大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62;G06N3/04;G06N3/08
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	张金福
地址：	510260 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于注意力机制双模情感分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于注意力机制的双模态情感分析方法，其特征在于，包括以下步骤：

S1：获取文本数据和图片数据，所述文本数据和图片数据中的文本图片一一对应，并对文本数据和图片数据进行预处理；

S2：对于文本数据，将文本编码为词向量后作为文本模态的输入；对于图片数据，将图片编码为图片向量作为图片模态的输入；

S3：分别提取文本模态和图片模态的模态内高维特征；

S4：采用模态间的双向注意力机制和门控多模态单元对文本模态和图片模态的数据进行深层次的交互提取工作，提取模态间互补特征，得到文本侧模态间互补特征表示和图片侧模态间互补特征表示；

S5：分别对文本侧模态间互补特征表示和图片侧模态间互补特征表示进行细粒度特征提取，得到文本模态细粒度特征表示和图片模态细粒度特征表示；

S6：将文本模态细粒度特征表示和图片模态细粒度特征表示进行加权拼接，通过softmax函数计算情感极性的概率，得到分类结果；

S7：对上述步骤S1至S6的模型进行多次迭代训练，将准确率最高的模型用于双模态情感分类任务；

步骤S4中的双向注意力机制具体为：

将图片对文本所做的注意力机制后的得到的模态间特征F₁，多模态联合表示g以及步骤S3中所提取的文本侧的模态内高维特征表示T₂进行拼接，再送入一层线性层及激活函数tanh，得到融合后的文本侧的模态间互补特征T₄：

T₄＝tanh(W₇[T₂：F₁：g])

其中矩阵表示第i个文本内容和第j个图片内容之间的联系，之后对于矩阵的每行，用softmax函数来量化得到每个图片模态对文本模态的重要性权重矩阵因此图片对文本的注意力机制的输出表示为F₁，W₇表示全连接层的可训练参数，T₃、V₃分别是为了拼接向量而进行的维度处理后的文本模态和图像模态；

将图片对文本所做的注意力机制后的得到的模态间特征F₂，门控多模态单元g以及步骤S3中所提取的图片侧的模态内高维特征表示V₂进行拼接，再送入一层线性层及激活函数tanh，得到融合后的图片侧的模态间互补特征V₄：

V₄＝tanh(W₈[V₂：F₂：g])

其中矩阵表示第i个图片内容和第j个文本内容之间的联系，之后对于矩阵M的每行，用softmax函数来量化得到每个文本模态对图片模态的重要性权重矩阵因此文本对图片的注意力机制的输出表示为F₂，W₈表示全连接层的可训练参数。

2.根据权利要求1所述的基于注意力机制的双模态情感分析方法，其特征在于，所述步骤S1中对文本数据和图片数据进行预处理，具体为：

对于文本数据，所述预处理包括分词、去除停用词、去除标点符号得到相同长度的文本；

对于图片数据，所述预处理包括标准化和归一化过程得到相同大小的图片。

3.根据权利要求2所述的基于注意力机制的双模态情感分析方法，其特征在于，步骤S2中，采用GloVe或BERT预训练模型将文本编码为词向量后作为文本模态的输入T₁，采用ResNet152预训练模型将图片编码为图片向量后作为图片模态的输入V₁。

4.根据权利要求3所述的基于注意力机制的双模态情感分析方法，其特征在于，将每个单词映射成一个300维或768维的向量，再结合每段文本固定的句子长度，组成文本模态矩阵作为文本输入T₁。

5.根据权利要求4所述的基于注意力机制的双模态情感分析方法，其特征在于，将每张固定像素大小的图片映射成一个7x7x2048维的图片模态矩阵，再将每个特征图进行展平形成图片模态矩阵作为图片输入V₁。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110103283.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载