[发明专利]基于物体显著性和跨模态融合特征的图片描述生成方法有效

申请号：	201910544985.7	申请日：	2019-06-21
公开（公告）号：	CN110276396B	公开（公告）日：	2022-12-06
发明（设计）人：	何立火;张怡;高新波;路文;屈琳子;钟炎喆;邢志伟;李琪琦	申请（专利权）人：	西安电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04
代理公司：	陕西电子工业专利中心 61205	代理人：	王品华
地址：	710071 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于物体显著跨模态融合特征图片描述生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于物体显著性和跨模态融合特征的图片描述生成方法，其特征在于，包括如下：

(1)对MSCOCO数据库的训练集和验证集依据‘Karpathy’splits进行重新划分，得到包含113,287张图片的训练集Q和5,000张图片的验证集V和5,000张图片的测试集E；

(2)统计MSCOCO数据库中所有单词出现次数，用出现次数大于5次的单词建词典并将其表示成独热编码形式，词典中单词总数记为L；

(3)对数据库中的图片，生成其对应的内容描述A：

(3a)针对一张图片，采用时序的方式生成当前图片对应的文字描述A＝{y₁,...,y_t-1,...,y_T}，其中y_t表示t时刻生成的单词，T表示该幅图片对应的描述的总单词数；

(3b)使用Faster R-CNN+ResNet-101网络检测该图片的显著性区域，提取这些区域的视觉特征信息S＝{v₁,v₂,...,v_i,...,v_n}及其对应的物体类别信息B＝{b₁,b₂,...,b_i,...,b_n}，其中v_i表示第i个显著性区域的视觉特征，b_i表示第i个显著性区域的对应的物体类别，i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量；

(3c)设t-1时刻译码器LSTM网络隐藏层单元的状态向量为译码器网络生成单词为w_t-1；

(3d)采用跨模态特征融合算法，利用该图片的视觉特征S和t-1时刻生成单词w_t-1计算当前时刻的融合特征z_t；

(3e)将t-1时刻译码器长短时记忆网络LSTM隐藏层状态向量和t时刻融合特征z_t与视觉特征S及其对应的物体类别B的词嵌入向量C级联，计算t时刻记忆力长短时记忆网络LSTM隐藏层状态向量和t时刻视觉特征S与词嵌入向量C的共享权重α_t；

(3f)利用图片的视觉特征S及其对应词嵌入向量C和t时刻的共享权重α_t计算t时刻的加权平均视觉特征和加权平均物体类别的词嵌入向量

(3g)将t时刻加权平均视觉特征加权平均物体类别的词嵌入向量和注意力长短时记忆网络LSTM的隐藏层状态向量级联作为译码器的输入，计算t时刻译码器长短时记忆网络LSTM的隐藏层状态向量和t时刻译码器生成的单词y_t；

(4)将训练集中图片每10张划分为一组，以组为单位按照(3)生成训练集Q图片描述，并与数据库中该组图片对应的人工标注的描述进行对比，使用交叉熵函数计算损失，优化网络参数；

(5)按照(3)生成验证集V所有图片对应的描述，并与数据库中对应人工标注的描述对比，利用验证指标，测试当前网络的性能；

(6)重复(4)-(5)，直到前后两次网络性能的指标值变化在±0.2％的范围内时，得到训练好的网络；

(7)将测试集E所有图片输入到训练好的网络中，时序地生成对图片的自然语言描述。

2.如权利要求1所述的方法,其中对于(3d)计算当前时刻的融合特征z_t，实现如下：

(3d1)将t-1时刻生成单词w_t-1转化成其对应的独热编码，将该独热编码输入到一个有512个神经元的全连接层，得到该单词的词嵌入向量Π_t-1；

(3d2)将(3b)提取的图片显著区域的视觉特征S＝{v₁,v₂,...,v_i,...,v_n}平均池化得到图片全局特征