[发明专利]一种跨模态的图像语义提取方法、系统、设备及介质有效

申请号：	201911368306.1	申请日：	2019-12-26
公开（公告）号：	CN111144410B	公开（公告）日：	2023-08-04
发明（设计）人：	杨振宇;刘侨	申请（专利权）人：	齐鲁工业大学
主分类号：	G06V20/62	分类号：	G06V20/62;G06V30/19
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	黄海丽
地址：	250353 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种跨模态图像语义提取方法系统设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种跨模态的图像语义提取方法、系统、设备及介质，包括：获取待提取语义的图像，将待提取语义的图像输入到训练好的语义提取模型中，训练好的语义提取模型包括彼此连接的编码器和解码器；所述编码器对待提取语义的图像提取语义注意力向量和视觉注意力向量；所述解码器对语义注意力向量和视觉注意力向量进行加权求和，得到最终的注意力向量；所述解码器对最终的注意力向量进行处理，得到最终的字幕。

技术领域

本公开涉及图像语义提取技术领域，特别是涉及一种跨模态的图像语义提取方法、系统、设备及介质。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

图像字幕任务是使计算机能够准确识别图像中的信息并用自然语言正确地表达出来。图像字幕是一种跨模态的任务，从图像到文本。图像字幕任务结合了计算机视觉和自然语言处理两大研究领域，因此，它涉及了多方面的知识。图像字幕任务具有诸多的应用领域，它可以给非医学专业人员和青年医生提供辅助诊断，也可以帮助视觉残障人士理解一张图像的信息。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

早期传统的方法是基于检索的研究方法和基于模板的研究方法，这两种方法从不同的角度解决了图像字幕任务中存在的问题。

基于检索的方法，如图1所示，该方法给定一个检索数据集，在这个数据集中包含图像以及图像对应的描述。在生成图像字幕时，该方法首先在检索数据集中检索与当前待描述图像相似的图像，然后找到相似图像的字幕。最终把该字幕作为待描述图像的字幕，或者对该字幕进行归纳重组后作为待描述的图像的字幕。这种方法的优点是生成的字幕流畅、自然地的字幕，并且不会出现语法错误。

基于模板的方法，如图2所示，该方法首先通过诸如目标检测、属性分类等方法检测出图像中的场景、目标、目标的属性以及它们之间的互动等信息，然后将这些信息对应的词汇填入到预先设定的带有一定规则的模板中。这种方法的优点是生成的字幕能够紧密地贴合图像信息。

近年来，得益于深度学习网络和高性能计算设备的发展，图像字幕任务也迎来了大发展。同时，机器翻译任务成功地应用深度学习的方法，这给图像字幕带来了很大的启发。将图像字幕任务理解成一种特殊的机器翻译任务，传统的机器翻译任务是从一种语言(例如，汉语)翻译到另外一种语言(例如，英语)，而图像字幕任务则是将图像翻译成文本。如图3所示，卷积神经网络(Convolutional Neural Networks,CNN)在图像处理领域获得成功，长短时记忆网络(Long Short Term Memory Network,LSTM)在自然语言处理领域也取得了非常好的效果。因此，将这两种深度神经网络引入到图像字幕领域中，将卷积神经网络用作编码器提取图像中的信息并编码，长短时记忆网络用作解码器解码编码器提供的信息并生成字幕。

基础的编码器-解码器结构的图像字幕任务框架仅在解码端初始时刻输入图像信息，这样就容易造成信息遗忘的问题。受到机器翻译任务的启发，研究人员提出了注意力机制。在生成字幕的每一时刻，都会根据LSTM前一时刻的隐状态和编码的图像信息计算每一个图像区域的概率分布。从此之后，注意力机制不断改进，应用在图像字幕领域任务中，也在不断提升图像字幕任务的性能。

图像中包含视觉信息和语义信息。视觉信息是图像中的空间位置信息，语义信息是图像中包含的语义概念，诸如目标、属性以及关系等。因此，在生成字幕的过程中，如何有效地选择语义信息和视觉信息成为一项重要的课题。在生成字幕的过程中，如果过多地关注视觉信息，这能很好地捕捉图像的细节信息。但是，一个重要的问题是有时只能描述图像的个别区域，这样生成的字幕对图像的描述会趋于片面。如果过多地关注语义信息，这能很好地提取图像中的语义概念。但是，这样容易忽略掉图像中部分语义概念之间空间位置信息，这也就导致有时会出现错误地描述。

无论是生成的图像字幕还是其他句子，其内在是包含语法结构的。现有的模型在生成字幕时忽略掉了这一点，这也就导致生成字幕语法可读性差。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学，未经齐鲁工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911368306.1/2.html，转载请声明来源钻瓜专利网。

上一篇：摄像装置、电子设备及电子设备的使用方法
下一篇：一种基于主辅网络的语音情感特征融合方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种跨模态的图像语义提取方法、系统、设备及介质有效

专利文献下载