[发明专利]一种基于紧凑双线性融合的图文跨模态情感分类方法有效
申请号: | 201710243764.7 | 申请日: | 2017-04-14 |
公开(公告)号: | CN107066583B | 公开(公告)日: | 2018-05-25 |
发明(设计)人: | 陈锻生;吴琼;吴扬扬;雷庆;张洪博 | 申请(专利权)人: | 华侨大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 张松亭 |
地址: | 362000*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于紧凑双线性融合的图文跨模态情感分类方法,包括如下6个步骤:(1)图像特征表示的提取;(2)文本特征表示的提取;(3)软注意力图的生成;(4)图像注意力特征表示的生成;(5)多模态紧凑双线性融合算法融合图像注意力特征表示和文本特征表示;(6)图文情感分类。本发明方法中软注意力图和多模态紧凑双线性融合算法的使用,能够有效提高情感分类的准确率。 | ||
搜索关键词: | 情感分类 双线性 紧凑 图文 文本特征表示 融合算法 特征表示 多模态 模态 注意力 图像特征表示 融合图像 融合 准确率 图像 | ||
【主权项】:
1.一种基于紧凑双线性融合的图文跨模态情感分类方法,其特征在于,包括:从图文标注情感训练数据集中,逐一提取出图像及其对应的文字信息,将图像调整为448*448大小,将调整好的图像输入到经过ImageNet数据集上预训练好的152层的残差网络中,提取出图像经过152层残差网络计算后,其中最后一层卷积层的输出,大小为2048*14*14,作为图像的特征表示;使用GloVe模型生成的300维词向量,将图像对应的文字信息转化计算机可以处理的矩阵表示,输入到双层LSTM网络中,每层LSTM网络包含100个单元,每层的输出向量为1024维,最后将每层LSTM的输出拼接,组成2048维的向量,作为文本的特征表示;根据得到的图像与文本特征表示,生成每个空间位置的注意力权重,即软注意力图,根据得到的软注意力图,与之前提取到的图像的特征表示进行权重相乘,再求和,得到2048维的图像注意力特征表示;将得到的2048维的文本特征表示和图像注意力特征表示,使用多模态紧凑双线性融合算法MCB进行特征融合,得到16k融合特征,在得到融合特征后,后面一层是全连接层,最后使用softmax分类器对图文跨模态数据进行积极和消极二类的情感预测,接着对比真实的情感标签,对该紧凑双线性融合的图文跨模态情感分类模型MCBC进行训练;从图文标注情感测试数据集中抽取出图像及其对应的文字信息,送入到训练好的模型中,得到其相应的情感倾向,根据真实的情感标签,得到测试集的情感分类准确率;所述软注意力图的生成方法,包括:将得到的2048维的文本特征表示,复制14*14=256次,组合成2048*14*14的大小,再与之前得到的大小为2048*14*14的图像特征表示进行拼接,组合成4096*14*14大小的特征,接着经过两层卷积层,得到1*14*14大小的输出,接着使用softmax分类器得到1*14*14大小的软注意力图;所述图像注意力特征表示的获取方法,包括:将得到的1*14*14的软注意力图,分别与提取到的2048个14*14大小的图像特征表示进行逐个逐元素相乘并求和,得到2048维的图像注意力特征表示;所述使用多模态紧凑双线性融合算法MCB进行特征融合,包括:a、使用式(1)进行特征融合,如下: Z = W · [ I ⊗ C ] - - - ( 1 ) ]]> 其中,I表示提取得到的2048维图像注意力特征表示,C表示提取得到的2048维文本特征表示, 代表外积,[]代表将外积的计算结果线性化为一个向量来表示,W用来筛选外积计算结果并得到固定大小的融合特征,Z表示融合之后的特征;b、降低W所需参数:使用Count Sketch投影函数ψ,将向量x∈Rn 投影到y∈Rd :首先初始化两个向量h∈{-1,1}n 和g∈{1,...,d}n ,h每个位置只取1或-1,g使得输入x的索引i变化成输出y的索引j;其中,h和g使用均匀分布随机生成,并始终保持不变;对于每个元素x[i],它的最终索引j=h[i],最终输出y[j]=h[i]·x[i];通过上述方法,将外积映射到低维空间当中,从而降低了W的参数;由于外积计算的复杂性,为了避免直接的计算外积,使用Count Sketch函数计算两个向量的外积可以表示成两个向量的Count Sketch函数进行卷积的形式,如式(2), ψ ( I ⊗ C , g , h ) = ψ ( I , g , h ) * ψ ( C , g , h ) - - - ( 2 ) ]]> 其中,*表示卷积操作;c、使用逐元素相乘完成MCB融合算法:根据卷积理论,在时域下的卷积,等价于频率域中逐元素相乘;因此,令I′=ψ(I,g,h),C′=ψ(C,g,h),上述式(2)的I′*C′就改写成FFT-1 (FFT(I′)e FFT(C′))的形式,e代表逐元素相乘,以此完成MCB融合算法,完成外积的计算,并且MCB融合算法支持更多模态作为输入。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侨大学,未经华侨大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710243764.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种硬岩隧道岩爆的主动防治方法
- 下一篇:一种焊管的外镀锌装置