[发明专利]基于双路特征编码器的图像描述方法及系统在审
申请号: | 202110913660.9 | 申请日: | 2021-08-10 |
公开(公告)号: | CN113642630A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 廖祥文;吴君毅;翁钰晨;魏冬春;吴海杰 | 申请(专利权)人: | 福州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈鼎桂;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 编码器 图像 描述 方法 系统 | ||
本发明涉及一种基于双路特征编码器的图像描述方法及系统,系统包括:一个场景图生成模块,用于根据输入图片构造场景图;一个图卷积神经网络模块,用于对场景图中的物体节点和关系节点进行编码;一个全局特征编码器,用于对物体节点进行辅助编码;一个特征融合模块,用于对图卷积神经网络和全局特征编码器编码的物体节点特征进行融合;一个基于双层LSTM的解码器模块,用于对经过图卷积神经网络和全局特征编码器共同编码的图节点特征进行解码,生成描述语句。本发明能够更好地根据图像生成描述语句。
技术领域
本发明涉及图像描述领域,具体涉及一种基于双路特征编码器的图像描述方法及系统。
背景技术
图像描述旨在根据输入图片生成描述图片内容的语句,近年来,计算机视觉和自然语言处理受到了越来越多的关注,两者的交叉方向也不例外,图像描述便是其中之一。图像描述任务根据输入的图像产生的相应描述性语句,不仅要兼顾语句的流畅性,也要使得语句符合图像内容,是一项极具挑战性的任务。
图像描述的早期方法多是基于模板的方法和基于检索的方法,这两种方法的中心思想是基于特定的规则产生描述语句,这就导致了生成的语句灵活性与复杂性不足,只能应付一些常见的简单场景。随着深度学习的发展,机器翻译技术得到了大幅度的发展,其整体架构是基于编码器-解码器结构的模型。模型首先将源语句输入循环神经网络组成的编码器生成中间向量,中间向量再输入循环神经网络组成的解码器解码为目标语言的语句。
于是,如何得到一个表示足够正确和丰富的中间向量就显得非常的重要,一个好的中间向量往往可以使解码器生成更正确的描述语句。一种比较常见的中间向量获得方法是使用预训练的深层卷积神经网络编码图像。而后目标检测网络被引入图像描述任务,其用来模拟自底向上的注意力,能得到比单纯使用深层卷积神经网络更加丰富的特征。随着图神经网络GNN的发展,场景图被引入图像描述任务中。将图片输入场景图生成模块,得到的场景图再使用图卷积神经网络GCN编码,获得更有结构性的高层语义表示。由于使用了更高层次的特征,场景图结构配合GCN得到的中间向量表示往往可以更好的表达图像的语义特征。但GCN的编码却可能因为场景图结构的错误而导致编码后节点信息不够准确,影响解码器的解码效果。现有的方法尚未能解决因场景图结构错误而导致的节点特征编码不精确、中间向量信息不足这个问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于双路特征编码器的图像描述方法
为实现上述目的,本发明采用如下技术方案:
一种基于双路特征编码器的图像描述方法,包括以下步骤:
步骤S1:获取源图片,并根据输入图片构造场景图;
步骤S2:使用图卷积神经网络GCN,根据场景图结构对图中各个节点的特征进行增强编码;
步骤S3:基于多头注意力机制的全局特征编码器,对物体节点的特征进行编码;
步骤S4:使用多元残差融合模块对图卷积神经网络和全局特征编码器编码的物体节点特征进行融合,得到物体节点特征;
步骤S5:根据得到的物体节点特征及排序结构,采用双层LSTM网络进行解码,将注意力机制聚焦图节点的特征,生成描述语句。
进一步的,场景图中包含物体节点的关系节点,关系节点只使用图卷积神经网络编码,而物体节点使用全局特征编码器和图卷积神经网络共同编码。解码器对编码后的场景图中物体节点和关系节点特征解码得到描述语句
进一步的,所述步骤S1具体为:
使用Faster RCNN作为目标检测网络检测图片上的物体以及类别;
将两两物体组合输入关系检测网络分类得到物体之间的关系;
使用多模态特征对场景图节点信息进行初步增强,其中多模态特征包括类别文本特征和视觉信息特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110913660.9/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序