[发明专利]基于度量注意力机制的图像字幕生成方法有效

申请号：	201911306345.9	申请日：	2019-12-18
公开（公告）号：	CN111046966B	公开（公告）日：	2022-04-05
发明（设计）人：	宋威;周俊昊	申请（专利权）人：	江南大学
主分类号：	G06V10/44	分类号：	G06V10/44;G06V10/774;G06V10/82;G06K9/62;G06N3/04
代理公司：	大连理工大学专利中心 21200	代理人：	梅洪玉;刘秋彤
地址：	214122 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于度量注意力机制图像字幕生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于度量注意力机制的图像字幕生成方法，其特征在于，步骤如下：

目标是给定一幅图片，将字幕作为图像预测的条件概率：

其中I表示输入的图像，θ是模型的参数；S等价为一个句子中的单词S＝(S₀,...,S_t+1)，则上述(1)又描述为：

步骤1、首先读取数据集的图片，使用卷积神经网络CNN作为编码器，对图像的特征进行提取，得到如下的特征向量：

其中D表示提取特征的维度，x_i表示特征图对应的D维特征向量，L是特征图的高和宽的乘积；

步骤2、使用长短神经网络LSTM生成具有低级语义的字幕：

i¹_t＝σ(W_ixx_t+W_ihh_t-1) (4)

f¹_t＝σ(W_fxx_t+W_fhh_t-1) (5)

o_t¹＝σ(W_oxx_t+W_ohh_t-1) (6)

c¹_t＝f_t⊙c_t-1+i_t⊙tanh(W_cxx_t+W_chh_t-1) (7)

h¹_t＝o_t⊙tanh(c_t) (8)

其中，第一步输入x是公式(3)中的X，i¹_t、f¹_t、c¹_t和o_t¹分别代表输入门、遗忘门、记忆细胞和输出门，h¹_t代表隐藏层，W_ix、W_fx、W_ox、W_cx和W_ch为度量注意力机制的输入门、遗忘门、输出门、更新的细胞状态，σ、W_fh、W_ih、W_oh分别为sigmoid函数，遗忘门，输入门和输出门隐藏层的参数⊙表示向量的乘法运算；公式(4)-(8)上角标1代表的是低级语义字幕生成过程，由(4)-(8)得：

h_t+1＝f(h_t,x_t) (9)

其中x_t表示LSTM的输入，在第一个单元中，x_t代表的是图像特征，在另外的单元中代表的是上下文单词的特征；通过训练，来获得模型的参数θ；

步骤3、通过注意力机制获取图像中的特定区域，以此来获得图像的高级语义信息；再结合步骤2中得到的低级语义的字幕，得到具有高级语义信息的字幕；在时刻t，都能得到一组权重，代表着在图像中的重要程度；

i²_t＝σ(W_ixx_t+W_ihh_t-1+W_izZ_t) (10)

f²_t＝σ(W_fxx_t+W_fhh_t-1+W_fzZ_t) (11)

o²_t＝σ(W_oxx_t+W_ohh_t-1+W_ozZ_t) (12)

c²_t＝f_t⊙c_t-1+i_t⊙tanh(W_cxx_t+W_chh_t-1+W_czZ_t) (13)

h²_t＝o_t⊙tanh(c_t) (14)

其中W_iz、W_fz、W_oz、W_cz为输入门、遗忘门、输出门和细胞状态的训练参数；注意力机制在解码的过程中使用了上下文向量Z_t得到：

Z_t＝Φ({a_i},{α_i}) (15)

其中，Φ表示给定一个图像的向量和对应的权重的函数；a_i代表的是图像位置为i的向量，α_i代表的是相关联的权重矩阵；

对于公式(15)中的α_i计算如下：

e_ti＝f_att(a_i,h_t-1) (16)

其中，e_ti为t位置时刻全局注意力的输出，f_att(·)为全局注意力机制函数，a_ti为t时刻a_i对应的权重；

对于公式(16)中的h_t-1表示的是上一个时刻解码器中的隐含层向量，

注意力公式为：

f_att＝β^Ttanh(W₁h_t-1+W₂a_i) (18)

其中，f_att为全局注意力机制，β为隐藏层状态，W₁和W₂为隐藏层参数；

最后得到一个上下文向量：

其中α_ti由公式17得到

使用LSTM作为解码器：

f(y_t-1,h_t-1,c_t)＝softmax(W_ot) (20)

其中y_t-1表示的是词向量，W_ot表示的是输出门的参数；

步骤4、引入度量学习，学习和真实标签之间的差异；对于不符合阈值的，会输入进一个新的注意力模块，该模块重新结合了图像的内容和语义信息，作为新的字幕生成；

对于一个的要学习的度量矩阵M，M要是正定或者半正定矩阵；即M要有正交基底，使得

M＝HH^T (21)

优化的目标函数为：

其中，H为属性权重，Ω_s为与x_i属于同类别的样本下标集合，x_s表示的是样本，对于上式，采用随机梯度下降法SGD求解；

然后对于不理想的生成字幕输入新的注意力模块：

w_t＝E(x_t) (23)

z_t＝softmax(i⊙c_t) (25)

x_t＝w_t+z_t (26)

其中，当t＝1时，x_t＝X表示输入的是图像的特征，当t＞1表示的是输入的是词嵌入向量；w_t为词嵌入矩阵，代表的是当前时刻之前所产生的所有单词信息，E代表的是词嵌入模型，由此获得词嵌入矩阵；z_t代表的是重新结合图像和语义信息相结合的矩阵；最后，把得到的新的图像和语义信息的和作为LSTM的输入，带入上述公式(10)-(14)重新生成字幕；

步骤5、生成字幕的同时得到了模型概率分布P(S|I)，采用最小交叉熵对模型进行学习；

采用和度量学习一样的随机梯度下降法SGD来训练模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江南大学，未经江南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911306345.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种异质结复合光催化材料及其制备方法
下一篇：一种电池模组线束隔离板组件及其电池模组

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于度量注意力机制的图像字幕生成方法有效

专利文献下载