[发明专利]面向指向性视觉理解和分割的图像描述预测方法有效
申请号: | 202011222105.3 | 申请日: | 2020-11-05 |
公开(公告)号: | CN112308080B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 王振宁;许金泉;王溢;蔡碧颖 | 申请(专利权)人: | 南强智视(厦门)科技有限公司 |
主分类号: | G06V10/26 | 分类号: | G06V10/26;G06V10/80;G06F18/214;G06V10/82;G06N3/045 |
代理公司: | 泉州市潭思专利代理事务所(普通合伙) 35221 | 代理人: | 廖仲禧;麻艳 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 指向 视觉 理解 分割 图像 描述 预测 方法 | ||
本发明公开一种面向指向性视觉理解和分割的图像描述预测方法,用于根据RGB图像和描述语言,在RGB图像中定位描述语言指代的对象;包括如下步骤:分别获取RGB图像在三个尺度的视觉特征:Fsubgt;v1/subgt;,Fsubgt;v2/subgt;,Fsubgt;v3/subgt;,以及描述语言的语言特征;将语言特征与视觉特征Fsubgt;v1/subgt;融合,然后进行多尺度的融合,进而通过自底而下的融合,得到新的特征为{Fsubgt;m1/subgt;′,Fsubgt;m2/subgt;′,Fsubgt;m3/subgt;′};利用Fsubgt;m3/subgt;′预测得到指向性视觉分割结果,利用Fsubgt;m1/subgt;′预测得到指向性视觉理解结果;给定预测得到的指向性视觉分割结果,以及指向性视觉理解结果的目标框和其对应的置信度,利用指向性视觉理解的预测结果来自适应地增强并重新得到指向性视觉分割的预测结果。此种预测方法可提高预测精度。
技术领域
本发明属于图像处理技术领域,涉及指向性视觉理解和分割,特别涉及一种面向指向性视觉理解和分割的图像描述预测方法。
背景技术
指向性视觉理解和分割,是两种基于视觉和语言的多模态任务。给定关于图像中的某个物体的描述,指向性视觉理解需要将图像中的对应目标的外接矩形计算出来,而指向性视觉分割需要将图像中的对应物体的掩膜计算出来。
在目前的方法和文献中,指向性视觉理解和分割通常被视作为两种不同的任务,从而被设计出了不同的神经网络。对于指向性视觉理解,现有的方法大多采用多阶段的神经网络。具体而言,现有的方法先利用目标检测网络提取和检测出图片中的不同物体,再通过计算指向性描述语句与物体之间的相似度,从而得到与描述最相关的物体。另外还有部分方法采用单阶段的神经网络,把语言信息嵌入到卷积神经网络中直接回归出描述物体的外接矩形。而对于指向性视觉分割,现有方法通过将语言信息与视觉神经网络进行融合,从而进一步预测出对应描述物体的掩膜。
现有的方法中,大多采用两个单任务神经网络来分别建模这两个方法,比如MMI,CMN,ParalAttn等方法用于建模指向性视觉理解,另外DMN,RRN,KWA等方法用于建模指向性视觉分割。同时少部分多任务的神经网络是基于多阶段的建模方法,比如MattNet采用基于Mask-RCNN的多任务目标检测器来同时预测出图像中所有物体的外接矩形以及掩膜,再通过语言信息与物体信息的匹配来获取与描述内容最相关的物体的外接矩形和掩膜。由于基于多阶段的网络结构极度依赖于目标检测器来提取和检测图片中的物体,这导致了它们的泛化性能较差,网络的推理时间久,同时在训练过程中两个任务之间也几乎没有起到互相促进协同的作用。
发明内容
本发明的目的,在于提供一种面向指向性视觉理解和分割的图像描述预测方法,其可提高预测精度。
为了达成上述目的,本发明的解决方案是:
一种面向指向性视觉理解和分割的图像描述预测方法,用于根据RGB图像和描述语言,在RGB图像中定位描述语言指代的对象;包括如下步骤:
步骤1,设置输入的RGB图像的大小为416×416×3,描述语言的最长文本输入设置为15;
步骤2,分别获取RGB图像在三个尺度的视觉特征:以及描述语言的语言特征:
步骤3,将语言特征的维度变成1×1×1024,将视觉特征Fv1与其进行融合得到Fm1,然后进行多尺度的融合,得到三个尺度的多模态特征{Fm1,Fm2,Fm3};进而通过自底而下的融合以更新多模态特征,得到新的特征为{Fm1′,Fm2′,Fm3′};
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南强智视(厦门)科技有限公司,未经南强智视(厦门)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011222105.3/2.html,转载请声明来源钻瓜专利网。