[发明专利]基于度量注意力机制的图像字幕生成方法有效
| 申请号: | 201911306345.9 | 申请日: | 2019-12-18 |
| 公开(公告)号: | CN111046966B | 公开(公告)日: | 2022-04-05 |
| 发明(设计)人: | 宋威;周俊昊 | 申请(专利权)人: | 江南大学 |
| 主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/774;G06V10/82;G06K9/62;G06N3/04 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉;刘秋彤 |
| 地址: | 214122 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 度量 注意力 机制 图像 字幕 生成 方法 | ||
1.基于度量注意力机制的图像字幕生成方法,其特征在于,步骤如下:
目标是给定一幅图片,将字幕作为图像预测的条件概率:
其中I表示输入的图像,θ是模型的参数;S等价为一个句子中的单词S=(S0,...,St+1),则上述(1)又描述为:
步骤1、首先读取数据集的图片,使用卷积神经网络CNN作为编码器,对图像的特征进行提取,得到如下的特征向量:
其中D表示提取特征的维度,xi表示特征图对应的D维特征向量,L是特征图的高和宽的乘积;
步骤2、使用长短神经网络LSTM生成具有低级语义的字幕:
i1t=σ(Wixxt+Wihht-1) (4)
f1t=σ(Wfxxt+Wfhht-1) (5)
ot1=σ(Woxxt+Wohht-1) (6)
c1t=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1) (7)
h1t=ot⊙tanh(ct) (8)
其中,第一步输入x是公式(3)中的X,i1t、f1t、c1t和ot1分别代表输入门、遗忘门、记忆细胞和输出门,h1t代表隐藏层,Wix、Wfx、Wox、Wcx和Wch为度量注意力机制的输入门、遗忘门、输出门、更新的细胞状态,σ、Wfh、Wih、Woh分别为sigmoid函数,遗忘门,输入门和输出门隐藏层的参数⊙表示向量的乘法运算;公式(4)-(8)上角标1代表的是低级语义字幕生成过程,由(4)-(8)得:
ht+1=f(ht,xt) (9)
其中xt表示LSTM的输入,在第一个单元中,xt代表的是图像特征,在另外的单元中代表的是上下文单词的特征;通过训练,来获得模型的参数θ;
步骤3、通过注意力机制获取图像中的特定区域,以此来获得图像的高级语义信息;再结合步骤2中得到的低级语义的字幕,得到具有高级语义信息的字幕;在时刻t,都能得到一组权重,代表着在图像中的重要程度;
i2t=σ(Wixxt+Wihht-1+WizZt) (10)
f2t=σ(Wfxxt+Wfhht-1+WfzZt) (11)
o2t=σ(Woxxt+Wohht-1+WozZt) (12)
c2t=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1+WczZt) (13)
h2t=ot⊙tanh(ct) (14)
其中Wiz、Wfz、Woz、Wcz为输入门、遗忘门、输出门和细胞状态的训练参数;注意力机制在解码的过程中使用了上下文向量Zt得到:
Zt=Φ({ai},{αi}) (15)
其中,Φ表示给定一个图像的向量和对应的权重的函数;ai代表的是图像位置为i的向量,αi代表的是相关联的权重矩阵;
对于公式(15)中的αi计算如下:
eti=fatt(ai,ht-1) (16)
其中,eti为t位置时刻全局注意力的输出,fatt(·)为全局注意力机制函数,ati为t时刻ai对应的权重;
对于公式(16)中的ht-1表示的是上一个时刻解码器中的隐含层向量,
注意力公式为:
fatt=βTtanh(W1ht-1+W2ai) (18)
其中,fatt为全局注意力机制,β为隐藏层状态,W1和W2为隐藏层参数;
最后得到一个上下文向量:
其中αti由公式17得到
使用LSTM作为解码器:
f(yt-1,ht-1,ct)=softmax(Wot) (20)
其中yt-1表示的是词向量,Wot表示的是输出门的参数;
步骤4、引入度量学习,学习和真实标签之间的差异;对于不符合阈值的,会输入进一个新的注意力模块,该模块重新结合了图像的内容和语义信息,作为新的字幕生成;
对于一个的要学习的度量矩阵M,M要是正定或者半正定矩阵;即M要有正交基底,使得
M=HHT (21)
优化的目标函数为:
其中,H为属性权重,Ωs为与xi属于同类别的样本下标集合,xs表示的是样本,对于上式,采用随机梯度下降法SGD求解;
然后对于不理想的生成字幕输入新的注意力模块:
wt=E(xt) (23)
zt=softmax(i⊙ct) (25)
xt=wt+zt (26)
其中,当t=1时,xt=X表示输入的是图像的特征,当t>1表示的是输入的是词嵌入向量;wt为词嵌入矩阵,代表的是当前时刻之前所产生的所有单词信息,E代表的是词嵌入模型,由此获得词嵌入矩阵;zt代表的是重新结合图像和语义信息相结合的矩阵;最后,把得到的新的图像和语义信息的和作为LSTM的输入,带入上述公式(10)-(14)重新生成字幕;
步骤5、生成字幕的同时得到了模型概率分布P(S|I),采用最小交叉熵对模型进行学习;
采用和度量学习一样的随机梯度下降法SGD来训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911306345.9/1.html,转载请声明来源钻瓜专利网。





