[发明专利]一种跨模态的图像语义提取方法、系统、设备及介质有效
申请号: | 201911368306.1 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111144410B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 杨振宇;刘侨 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/19 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250353 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 跨模态 图像 语义 提取 方法 系统 设备 介质 | ||
1.一种跨模态的图像语义提取方法,其特征是,包括:
获取待提取语义的图像,将待提取语义的图像输入到训练好的语义提取模型中,训练好的语义提取模型包括彼此连接的编码器和解码器;
所述编码器对待提取语义的图像提取语义注意力向量和视觉注意力向量;
所述解码器对语义注意力向量和视觉注意力向量进行加权求和,得到最终的注意力向量;
所述解码器对最终的注意力向量进行处理,得到最终的字幕;
所述编码器,包括:用于图像目标提取的卷积神经网络模型、预训练的VGGNet19、预训练的ResNet101网络结构、语义注意力机制模型、视觉注意力机制模型;
所述解码器,包括:平衡单元、第一层LSTM模型和第二层LSTM模型;
其中,语义注意力机制模型的输入端分别与用于图像目标提取的卷积神经网络模型的输出端、预训练的VGGNet19的输出端和第一层LSTM模型的输出端连接;语义注意力机制模型的输出端与平衡单元的输入端连接;
视觉注意力机制模型的输入端分别与预训练的ResNet101网络结构和第一层LSTM模型的输出端连接;视觉注意力机制模型的输出端与平衡单元的输入端连接;
平衡单元的输出端与第一LSTM模型的输入端连接;第一LSTM模型的输出端与第二LSTM模型的输入端连接;第一LSTM模型的输入端与第二LSTM模型的输出端连接;第二LSTM模型的输出端用于输出最终的字幕。
2.如权利要求1所述的方法,其特征是,在将待提取语义的图像输入到训练好的语义提取模型中步骤之后,在所述编码器对待提取语义的图像提取语义注意力向量和视觉注意力向量步骤之前还包括:
通过编码器对待提取语义的图像进行图像目标提取,获取图像目标;对待提取语义的图像进行图像主题提取,获取图像主题;对待提取语义的图像进行图像视觉特征提取,获取图像视觉特征。
3.如权利要求1所述的方法,其特征是,编码器对待提取语义的图像提取语义注意力向量,包括:
将图像目标、图像主题和第一层LSTM模型前一时刻的隐状态,输入到语义注意力机制模型中,输出语义注意力向量。
4.如权利要求1所述的方法,其特征是,编码器对待提取语义的图像提取视觉注意力向量,包括:
将图像视觉特征和第一层LSTM模型前一时刻的隐状态,输入到视觉注意力机制模型中,输出视觉注意力向量。
5.如权利要求1所述的方法,其特征是,所述解码器对最终的注意力向量进行处理,得到最终的字幕;包括:
将最终的注意力向量、第一层LSTM模型前一时刻隐状态和第二层LSTM模型前一时刻生成的单词输入到第一层LSTM模型中;
将第一层LSTM模型当前时刻的隐状态和第二层LSTM模型前一时刻的隐状态输入到第二层LSTM模型中,输出最终的字幕。
6.如权利要求2所述的方法,其特征是,通过编码器对待提取语义的图像进行图像目标提取,获取图像目标;具体步骤包括:
采用多示例学习的弱监督方式构建用于图像目标提取的卷积神经网络模型,基于用于图像目标提取的卷积神经网络模型对待提取语义的图像进行图像目标提取,获取图像目标。
7.如权利要求2所述的方法,其特征是,对待提取语义的图像进行图像主题提取,获取图像主题;具体步骤包括:
采用预训练的VGGNet19对待提取语义的图像进行图像主题提取,获取图像主题。
8.如权利要求2所述的方法,其特征是,对待提取语义的图像进行图像视觉特征提取,获取图像视觉特征具体步骤包括:
采用通过ImageNet数据集预训练的ResNet101网络结构,对待提取语义的图像进行图像视觉特征提取,获取图像视觉特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911368306.1/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序