[发明专利]基于推敲注意力机制的图像描述生成系统及方法有效
申请号: | 201910004805.6 | 申请日: | 2019-01-03 |
公开(公告)号: | CN109726696B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 宋井宽;樊凯旋;高联丽 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V20/20 | 分类号: | G06V20/20;G06V10/774;G06V30/262 |
代理公司: | 成都希盛知识产权代理有限公司 51226 | 代理人: | 陈泽斌 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 推敲 注意力 机制 图像 描述 生成 系统 方法 | ||
1.基于推敲注意力机制的图像描述生成方法,应用于基于推敲注意力机制的图像描述生成系统中,所述系统包括编码器、基于推敲注意力机制的解码器和增强学习模块;
所述编码器,用于采用预训练好的ResNet-101来提取图像的全局特征,结合预训练好的Faster R-CNN和ResNet-101来提取局部特征;
所述基于推敲注意力机制的解码器,包括两层基于残差注意力机制的解码器,其中,第一层解码器用于生成粗略的图像描述,第二层解码器应用校正的过程来润色第一层解码器已生成的图像描述;
所述增强学习模块,用于在训练过程中模拟模型的测试过程,并且以生成描述的CIDEr分数来引导模型的训练,结合强化学习对模型进行调整;
其特征在于,该方法包括以下步骤:
a.数据集的处理:
提取图像的全局特征和局部特征;构建数据集,对数据集中的单词进行标记,生成对应的词嵌入向量;
b.训练图像描述生成模型:
采用第一层基于残差注意力机制的解码器生成粗略的图像描述,采用第二层基于残差注意力机制的解码器对已生成的图像描述进行润色;
c.结合强化学习进一步训练模型:
在训练过程中模拟模型的测试过程,并且以生成描述的CIDEr分数来引导模型的训练,结合强化学习对模型进行调整;
步骤b具体包括:
将图像的全局特征和描述中单词对应的词嵌入向量输入第一层基于残差注意力的解码器,解码器中的递归神经网络计算隐藏状态,通过隐藏状态计算注意力权重,并加权到图像的局部特征;加权后的局部特征和隐藏状态被输入到第二层基于残差注意力的解码器中执行类似操作,第二层基于残差注意力的解码器生成的隐藏状态和被加权的局部特征输入到归一化指数函数来预测下一个单词;重复上述的步骤,直到生成结束符即可得到一个完整的描述。
2.如权利要求1所述的方法,其特征在于,
步骤a中,用于采用预训练好的ResNet-101来提取图像的全局特征,结合预训练好的Faster R-CNN和ResNet-101来提取局部特征。
3.如权利要求1所述的方法,其特征在于,
步骤a中,所述对数据集中的单词进行标记,生成对应的词嵌入向量,具体包括:根据数据集中单词出现频率的顺序,为每一个单词标上序号作为每个单词的独热编码,以生成对应的词嵌入向量。
4.如权利要求1所述的方法,其特征在于,
步骤b中,在计算获得隐藏状态后,通过残差连接结合词嵌入向量和隐藏状态。
5.如权利要求1所述的方法,其特征在于,
步骤c具体包括:
利用图像的全局特征和RNN提取的描述特征,通过计算两个特征的相似度,训练一个检索模型;
将训练的图像描述生成模型生成的描述输入检索模型,获取检索图像,通过计算检索图像与训练图像的全局特征之间的相似度,计算对比损失函数CL;
根据训练的图像描述生成模型生成的描述和真实描述计算图像描述评价CIDER;
将CL和CIDER作为奖赏,结合强化学习进一步优化图像描述生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910004805.6/1.html,转载请声明来源钻瓜专利网。