[发明专利]基于度量注意力机制的图像字幕生成方法有效

专利信息
申请号: 201911306345.9 申请日: 2019-12-18
公开(公告)号: CN111046966B 公开(公告)日: 2022-04-05
发明(设计)人: 宋威;周俊昊 申请(专利权)人: 江南大学
主分类号: G06V10/44 分类号: G06V10/44;G06V10/774;G06V10/82;G06K9/62;G06N3/04
代理公司: 大连理工大学专利中心 21200 代理人: 梅洪玉;刘秋彤
地址: 214122 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 度量 注意力 机制 图像 字幕 生成 方法
【权利要求书】:

1.基于度量注意力机制的图像字幕生成方法,其特征在于,步骤如下:

目标是给定一幅图片,将字幕作为图像预测的条件概率:

其中I表示输入的图像,θ是模型的参数;S等价为一个句子中的单词S=(S0,...,St+1),则上述(1)又描述为:

步骤1、首先读取数据集的图片,使用卷积神经网络CNN作为编码器,对图像的特征进行提取,得到如下的特征向量:

其中D表示提取特征的维度,xi表示特征图对应的D维特征向量,L是特征图的高和宽的乘积;

步骤2、使用长短神经网络LSTM生成具有低级语义的字幕:

i1t=σ(Wixxt+Wihht-1) (4)

f1t=σ(Wfxxt+Wfhht-1) (5)

ot1=σ(Woxxt+Wohht-1) (6)

c1t=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1) (7)

h1t=ot⊙tanh(ct) (8)

其中,第一步输入x是公式(3)中的X,i1t、f1t、c1t和ot1分别代表输入门、遗忘门、记忆细胞和输出门,h1t代表隐藏层,Wix、Wfx、Wox、Wcx和Wch为度量注意力机制的输入门、遗忘门、输出门、更新的细胞状态,σ、Wfh、Wih、Woh分别为sigmoid函数,遗忘门,输入门和输出门隐藏层的参数⊙表示向量的乘法运算;公式(4)-(8)上角标1代表的是低级语义字幕生成过程,由(4)-(8)得:

ht+1=f(ht,xt) (9)

其中xt表示LSTM的输入,在第一个单元中,xt代表的是图像特征,在另外的单元中代表的是上下文单词的特征;通过训练,来获得模型的参数θ;

步骤3、通过注意力机制获取图像中的特定区域,以此来获得图像的高级语义信息;再结合步骤2中得到的低级语义的字幕,得到具有高级语义信息的字幕;在时刻t,都能得到一组权重,代表着在图像中的重要程度;

i2t=σ(Wixxt+Wihht-1+WizZt) (10)

f2t=σ(Wfxxt+Wfhht-1+WfzZt) (11)

o2t=σ(Woxxt+Wohht-1+WozZt) (12)

c2t=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1+WczZt) (13)

h2t=ot⊙tanh(ct) (14)

其中Wiz、Wfz、Woz、Wcz为输入门、遗忘门、输出门和细胞状态的训练参数;注意力机制在解码的过程中使用了上下文向量Zt得到:

Zt=Φ({ai},{αi}) (15)

其中,Φ表示给定一个图像的向量和对应的权重的函数;ai代表的是图像位置为i的向量,αi代表的是相关联的权重矩阵;

对于公式(15)中的αi计算如下:

eti=fatt(ai,ht-1) (16)

其中,eti为t位置时刻全局注意力的输出,fatt(·)为全局注意力机制函数,ati为t时刻ai对应的权重;

对于公式(16)中的ht-1表示的是上一个时刻解码器中的隐含层向量,

注意力公式为:

fatt=βTtanh(W1ht-1+W2ai) (18)

其中,fatt为全局注意力机制,β为隐藏层状态,W1和W2为隐藏层参数;

最后得到一个上下文向量:

其中αti由公式17得到

使用LSTM作为解码器:

f(yt-1,ht-1,ct)=softmax(Wot) (20)

其中yt-1表示的是词向量,Wot表示的是输出门的参数;

步骤4、引入度量学习,学习和真实标签之间的差异;对于不符合阈值的,会输入进一个新的注意力模块,该模块重新结合了图像的内容和语义信息,作为新的字幕生成;

对于一个的要学习的度量矩阵M,M要是正定或者半正定矩阵;即M要有正交基底,使得

M=HHT (21)

优化的目标函数为:

其中,H为属性权重,Ωs为与xi属于同类别的样本下标集合,xs表示的是样本,对于上式,采用随机梯度下降法SGD求解;

然后对于不理想的生成字幕输入新的注意力模块:

wt=E(xt) (23)

zt=softmax(i⊙ct) (25)

xt=wt+zt (26)

其中,当t=1时,xt=X表示输入的是图像的特征,当t>1表示的是输入的是词嵌入向量;wt为词嵌入矩阵,代表的是当前时刻之前所产生的所有单词信息,E代表的是词嵌入模型,由此获得词嵌入矩阵;zt代表的是重新结合图像和语义信息相结合的矩阵;最后,把得到的新的图像和语义信息的和作为LSTM的输入,带入上述公式(10)-(14)重新生成字幕;

步骤5、生成字幕的同时得到了模型概率分布P(S|I),采用最小交叉熵对模型进行学习;

采用和度量学习一样的随机梯度下降法SGD来训练模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911306345.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top