[发明专利]基于推敲注意力机制的图像描述生成系统及方法有效

申请号：	201910004805.6	申请日：	2019-01-03
公开（公告）号：	CN109726696B	公开（公告）日：	2023-04-07
发明（设计）人：	宋井宽;樊凯旋;高联丽	申请（专利权）人：	电子科技大学
主分类号：	G06V20/20	分类号：	G06V20/20;G06V10/774;G06V30/262
代理公司：	成都希盛知识产权代理有限公司 51226	代理人：	陈泽斌
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于推敲注意力机制图像描述生成系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于推敲注意力机制的图像描述生成方法，应用于基于推敲注意力机制的图像描述生成系统中，所述系统包括编码器、基于推敲注意力机制的解码器和增强学习模块；

所述编码器，用于采用预训练好的ResNet-101来提取图像的全局特征，结合预训练好的Faster R-CNN和ResNet-101来提取局部特征；

所述基于推敲注意力机制的解码器，包括两层基于残差注意力机制的解码器，其中，第一层解码器用于生成粗略的图像描述，第二层解码器应用校正的过程来润色第一层解码器已生成的图像描述；

所述增强学习模块，用于在训练过程中模拟模型的测试过程，并且以生成描述的CIDEr分数来引导模型的训练，结合强化学习对模型进行调整；

其特征在于，该方法包括以下步骤：

a.数据集的处理：

提取图像的全局特征和局部特征；构建数据集，对数据集中的单词进行标记，生成对应的词嵌入向量；

b.训练图像描述生成模型：

采用第一层基于残差注意力机制的解码器生成粗略的图像描述，采用第二层基于残差注意力机制的解码器对已生成的图像描述进行润色；

c.结合强化学习进一步训练模型：

在训练过程中模拟模型的测试过程，并且以生成描述的CIDEr分数来引导模型的训练，结合强化学习对模型进行调整；

步骤b具体包括：

将图像的全局特征和描述中单词对应的词嵌入向量输入第一层基于残差注意力的解码器，解码器中的递归神经网络计算隐藏状态，通过隐藏状态计算注意力权重，并加权到图像的局部特征；加权后的局部特征和隐藏状态被输入到第二层基于残差注意力的解码器中执行类似操作，第二层基于残差注意力的解码器生成的隐藏状态和被加权的局部特征输入到归一化指数函数来预测下一个单词；重复上述的步骤，直到生成结束符即可得到一个完整的描述。

2.如权利要求1所述的方法，其特征在于，

步骤a中，用于采用预训练好的ResNet-101来提取图像的全局特征，结合预训练好的Faster R-CNN和ResNet-101来提取局部特征。

3.如权利要求1所述的方法，其特征在于，

步骤a中，所述对数据集中的单词进行标记，生成对应的词嵌入向量，具体包括：根据数据集中单词出现频率的顺序，为每一个单词标上序号作为每个单词的独热编码，以生成对应的词嵌入向量。

4.如权利要求1所述的方法，其特征在于，

步骤b中，在计算获得隐藏状态后，通过残差连接结合词嵌入向量和隐藏状态。

5.如权利要求1所述的方法，其特征在于，

步骤c具体包括：

利用图像的全局特征和RNN提取的描述特征，通过计算两个特征的相似度，训练一个检索模型；

将训练的图像描述生成模型生成的描述输入检索模型,获取检索图像，通过计算检索图像与训练图像的全局特征之间的相似度，计算对比损失函数CL；

根据训练的图像描述生成模型生成的描述和真实描述计算图像描述评价CIDER；

将CL和CIDER作为奖赏，结合强化学习进一步优化图像描述生成模型。