[发明专利]一种基于全局与局部注意力机制的图像标题生成方法有效
申请号: | 202010214091.4 | 申请日: | 2020-03-24 |
公开(公告)号: | CN111444367B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 刘海波;杨喜;沈晶;卢越;白玉;姜生;田乔;林森 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 全局 局部 注意力 机制 图像 标题 生成 方法 | ||
1.一种基于全局与局部注意力机制的图像标题生成方法,其特征在于,包括以下步骤:
步骤1:收集带有人工标注的图像,构建训练集;
步骤2:训练卷积神经网络,对数据集中图像进行正向传播运算,提取图像的全局特征和局部特征;
采用ImageNet数据集上预训练模型GoogLeNet模型来提取图像的全局特征和局部特征,全局特征从GoogLeNet模型最后全连接层提取,局部特征从GoogLeNet模型最低卷积层进行提取;选用GoogLeNet模型的每一层激活函数选用Relu函数,并且在最后三成加上Dropout层;采用Adadelta梯度下降算法作为训练算法,并以下面公式进行网络参数更新:
wt+1=wt+Δwt
其中,wt代表第t次迭代的参数值;g代表梯度;E[g2]代表所述梯度g平方的移动平均数;α为计算所述移动平均数的系数,取0.99;η为学习率,取0.0001;ε为常数,用于防止分母为0;
在图像的全局特征提取中,由于多数预训练模型中的最后一层或者两层是全连接层,并且与softmax激活相结合以进行分类,提取最后一层全连接层输出向量作为图像全局特征,记为G;
在图像的局部特征提取中,假设所提取的特征图大小为H×W,一共有D个通道,即CNN(I)属于RH×W×D;其中,CNN为去掉全连接层的卷积神经网络;I为输入图像的像素矩阵;令v(x,y)代表该特征图在(x,y)位置的特征,其中x属于[1,H],y属于[1,W],则图像局部特征一共有L=H×W个特征向量,每个特征向量对应图像的某一部分D维表示,如下式;
a={a1,a2,...,aL},ai∈RD
步骤3:对数据集中的图像标题进行分词,并构造词典;
步骤4:利用注意力机制对图像的全局特征和局部特征每部分赋予不同权重,分别抽取关键信息,将带有注意力信息的全局特征和局部特征集成在一起,得到图像的完整信息的特征向量,作为长短时记忆网络的输入;将全局特征和局部特征分别与LSTM的隐层做注意力计算,得到全局特征注意力信息的上下文向量和局部特征注意力信息的上下文向量;
所述的局部特征的注意力计算具体为:已知图像的局部特征一共有L=H×W个位置特征向量,表示为a={a1,a2,...,aL},ai∈RD,注意力计算就是让解码器LSTM在解码时拥有在这L个位置特征中选择的能力;设在第t时间步传入到LSTM的具有局部特征注意力信息的上下文向量为zt,LSTM的上一隐层状态为ht-1;具有局部特征注意力信息的上下文向量zt就是a={a1,a2,...,aL},ai∈RD的一个加权平均,具体地,zt和a的如下面公式所示:
其中,αti是衡量生成第t个单词时,第i个位置的图像特征所占的权重;权重αti是由前一个隐层状态ht-1和第i个位置的图像特征向量ai求得,如下面公式所示:
eti=fatt(ai,ht-1)
其中,函数fatt是一种对齐模型,用来计算ai和ht-1的相似性;由于eti数值取值范围不一致,使用softmax函数将其数值进行转化,将原始计算分值整理成所有元素权重之和为1的概率分布,即:“注意力”;
所述的全局特征的注意力计算具体为:由于全局特征G和局部特征a的维度不同,将G经过全连接层变换为与a相同的维度,如下面公式所示:
g=(WGG+bG)
其中,g表示经过全连接层变换后的全局特征向量,WG和bG为权重矩阵,即模型待学习参数;由于g和a维度相同,因此g也可以表示为g={g1,g2,…,gL},gi∈RD;带有全局特征注意力信息的上下文向量Gt就是g={g1,g2,…,gL},gi∈RD的一个加权平均,具体地,Gt和g的关系如下面公式所示:
其中,βti是衡量生成第t个单词时,第i个位置的图像特征所占的权重;权重βti是由前一个隐层状态和第i个位置的图像特征求得,如下面公式所示:
eti=fatt(gi,ht-1)
其中,函数fatt为MLP,同时采用softmax函数对eti进行权重初始化得到βti;
得到全局特征注意力信息的上下文向量Gt和局部特征注意力信息的上下文向量zt之后,带有全局特征和局部特征的注意力信息图像特征可以通过下面公式得到:
步骤5:训练长短时记忆网络进行图像标题生成;加入Dropout层,减少训练参数;将全局特征注意力信息的上下文向量、局部特征注意力信息的上下文向量和单词特征向量作为LSTM的输入;
步骤6:图像标题生成;在测试和使用阶段,将待生成标题的图像依次通过卷积神经网络、注意力机制和长短时记忆网络,完成图像标题生成任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010214091.4/1.html,转载请声明来源钻瓜专利网。