[发明专利]基于物体显著性和跨模态融合特征的图片描述生成方法有效
申请号: | 201910544985.7 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110276396B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 何立火;张怡;高新波;路文;屈琳子;钟炎喆;邢志伟;李琪琦 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 物体 显著 跨模态 融合 特征 图片 描述 生成 方法 | ||
1.一种基于物体显著性和跨模态融合特征的图片描述生成方法,其特征在于,包括如下:
(1)对MSCOCO数据库的训练集和验证集依据‘Karpathy’splits进行重新划分,得到包含113,287张图片的训练集Q和5,000张图片的验证集V和5,000张图片的测试集E;
(2)统计MSCOCO数据库中所有单词出现次数,用出现次数大于5次的单词建词典并将其表示成独热编码形式,词典中单词总数记为L;
(3)对数据库中的图片,生成其对应的内容描述A:
(3a)针对一张图片,采用时序的方式生成当前图片对应的文字描述A={y1,...,yt-1,...,yT},其中yt表示t时刻生成的单词,T表示该幅图片对应的描述的总单词数;
(3b)使用Faster R-CNN+ResNet-101网络检测该图片的显著性区域,提取这些区域的视觉特征信息S={v1,v2,...,vi,...,vn}及其对应的物体类别信息B={b1,b2,...,bi,...,bn},其中vi表示第i个显著性区域的视觉特征,bi表示第i个显著性区域的对应的物体类别,i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量;
(3c)设t-1时刻译码器LSTM网络隐藏层单元的状态向量为译码器网络生成单词为wt-1;
(3d)采用跨模态特征融合算法,利用该图片的视觉特征S和t-1时刻生成单词wt-1计算当前时刻的融合特征zt;
(3e)将t-1时刻译码器长短时记忆网络LSTM隐藏层状态向量和t时刻融合特征zt与视觉特征S及其对应的物体类别B的词嵌入向量C级联,计算t时刻记忆力长短时记忆网络LSTM隐藏层状态向量和t时刻视觉特征S与词嵌入向量C的共享权重αt;
(3f)利用图片的视觉特征S及其对应词嵌入向量C和t时刻的共享权重αt计算t时刻的加权平均视觉特征和加权平均物体类别的词嵌入向量
(3g)将t时刻加权平均视觉特征加权平均物体类别的词嵌入向量和注意力长短时记忆网络LSTM的隐藏层状态向量级联作为译码器的输入,计算t时刻译码器长短时记忆网络LSTM的隐藏层状态向量和t时刻译码器生成的单词yt;
(4)将训练集中图片每10张划分为一组,以组为单位按照(3)生成训练集Q图片描述,并与数据库中该组图片对应的人工标注的描述进行对比,使用交叉熵函数计算损失,优化网络参数;
(5)按照(3)生成验证集V所有图片对应的描述,并与数据库中对应人工标注的描述对比,利用验证指标,测试当前网络的性能;
(6)重复(4)-(5),直到前后两次网络性能的指标值变化在±0.2%的范围内时,得到训练好的网络;
(7)将测试集E所有图片输入到训练好的网络中,时序地生成对图片的自然语言描述。
2.如权利要求1所述的方法,其中对于(3d)计算当前时刻的融合特征zt,实现如下:
(3d1)将t-1时刻生成单词wt-1转化成其对应的独热编码,将该独热编码输入到一个有512个神经元的全连接层,得到该单词的词嵌入向量Πt-1;
(3d2)将(3b)提取的图片显著区域的视觉特征S={v1,v2,...,vi,...,vn}平均池化得到图片全局特征
其中,vi表示第i个显著性区域对应的视觉特征;
(3d3)使用图片全局特征和单词的词嵌入向量Πt-1的外积,作为t时刻融合特征zt,公式如下:
其中,表示外积操作,FFT-1(·)表示逆傅里叶变换操作,FFT(·)表示傅里叶变换操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910544985.7/1.html,转载请声明来源钻瓜专利网。