[发明专利]一种基于时空记忆注意力的图像描述方法有效
| 申请号: | 201911384977.7 | 申请日: | 2019-12-28 |
| 公开(公告)号: | CN111144553B | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 徐骋;冀俊忠;张晓丹 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06N3/0442 | 分类号: | G06N3/0442;G06N3/0464;G06N3/0455;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 时空 记忆 注意力 图像 描述 方法 | ||
1.一种基于时空记忆注意力的图像描述方法,其特征在于:该方法包括如下步骤:
步骤(1)获取MSCOCO图像描述数据集并预处理;
步骤(2)构建编码器模型,对编码器模型进行预训练,完成MSCOCO图像数据I的编码,得到图像特征V;
步骤(3)构建解码器,对图像特征V进行解码;解码器是一种三层的循环神经网络,包括两层LSTM模型和一层STMA模型,输入为图像特征V,输出为图像描述结果Y,Y={y0,y1,…,yT},T为描述的最长时刻;
步骤(4)模型训练;基于产生的描述Y与标准的描述数据计算交叉熵损失或者强化学习梯度损失,使用随机梯度下降算法对模型进行优化,得到最终模型;
步骤(3)中,步骤(3.1)构建第一层解码器LSTM模型;第一层解码器LSTM模型在t时刻的输入包括t时刻的词编码xt,图像的全局特征以及第三层解码器LSTM模型在t-1时刻的输出其中,词编码xt由t-1时刻的解码器最终的输出yt-1线性变换得到,初始为零向量;图像的全局特征由图像特征V平均池化得到;第一层解码器LSTM模型在t时刻的输出为
步骤(3.2)构建第二层解码器STMA模型;第二层解码器STMA模型中的图像记忆矩阵和输出向量作为内部循环变量不断参与到模型的计算中;第二层解码器STMA模型在t时刻的输入包括图像特征V和第一层解码器LSTM模型在t时刻的输出第二层解码器STMA模型在t时刻的输出为
步骤(3.3)构建第三层解码器LSTM模型;第三层解码器LSTM模型在t时刻的输入包括第一层解码器LSTM模型的输出和第二层解码器STMA模型的输出第三层解码器LSTM模型在t时刻的输出为
步骤(3.4)解码器输出;对第三层解码器LSTM模型在t时刻的输出进行线性变换与Softmax函数分类,得到最终整个解码器在t时刻的输出yt,不同时刻的输出组成最后的图像描述结果Y。
2.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法,其特征在于:步骤(1)中,步骤(1.1)获取MSCOCO图像描述数据集,包含图像数据I及其对应的标准描述数据
步骤(1.2)对MSCOCO中的描述数据进行预处理。
3.根据权利要求1所述的一种基于时空记忆注意力的图像描述方法,其特征在于:步骤(2)中,步骤(2.1)采用深度卷积神经网络或目标检测模型构建编码器模型;
步骤(2.2)对构建好的编码器模型进行预训练;
步骤(2.3)将MSCOCO图像数据I输入到编码器中,完成图像数据的分类或目标检测任务,使用编码器模型倒数第二层神经网络中的特征表示作为图像编码,最终得到编码后的图像特征V。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911384977.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可控震源反力实时调节系统及其调节方法
- 下一篇:一种电池高温报警系统





