[发明专利]基于跨模态交互和修正的RGB-D图像显著性目标检测方法在审
申请号: | 202210580255.4 | 申请日: | 2022-05-26 |
公开(公告)号: | CN115170830A | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 丛润民;刘鸿羽;张晨;林秦伟;赵耀 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06V10/46 | 分类号: | G06V10/46;G06V10/56;G06V10/80;G06V10/82 |
代理公司: | 北京卫平智业专利代理事务所(普通合伙) 11392 | 代理人: | 闫萍 |
地址: | 100044*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 跨模态 交互 修正 rgb 图像 显著 目标 检测 方法 | ||
本发明涉及一种基于跨模态交互和修正的RGB‑D图像显著性目标检测方法,包括:1、在编码阶段,彩色图编码器和深度图编码器分别提取彩色图模态和深度图模态的特征,彩色图模态和深度图模态的高层特征经渐进式注意力引导整合单元进行跨模态交互得到RGB‑D特征;2、特征修正中间件结构对编码阶段得到的彩色图模态、深度图模态和RGB‑D模态的特征进行自模态和跨模态的修正;3、在解码阶段,彩色图模态和深度图模态分别解码,并将各层级解码特征送入重要性门控融合单元进行融合解码,从而完成RGB‑D模态的解码,得到最终的显著图。本发明分别在不同阶段对特征进行交互和修正,实现两种模态更加全面的融合以及对互补信息的提取。
技术领域
本发明涉及一种基于跨模态交互和修正的RGB-D图像显著性目标检测方法。
背景技术
人在观看图像时,会不由自主地被图像中的一些物体或区域所吸引,这主要是由人类的视觉注意机制引起的,这些物体被称为显著性目标。在计算机视觉领域,模拟这一方案,显著性目标检测即自动定位出场景中最具视觉吸引力的对象或区域,已经成功地应用于许多任务,如视频分割、图像检索和质量评估等。事实上,人类的自然双目结构也可以感知场景的景深,进而产生立体感知。以图像的形式表达这种深度关系的是深度/视差图。近年来,深度传感器的发展和普及,特别是价格适中、便携的消费者深度相机的兴起,进一步促进了RGB-D图像的应用。对于RGB-D图像,彩色图包含丰富的细节和外观信息(例如,颜色、纹理、结构等)。而深度图提供了一些有价值的补充信息(例如,形状、表面法线、内部一致性等)。近年来,越来越多的研究集中于在显著性目标检测任务中引入深度线索,以有效地抑制复杂场景中的背景干扰,从而进一步完全突出前景显著区域。以往的研究根据编解码器的数量可以大致分为三种结构:单流结构、双流结构以及三流结构。对于单流结构,Zhao等人采用单流编码器,充分利用了预先训练好的网络的表示能力,提出了一种实时、稳健的显著检测模型;Zhang等人提出了第一个基于可变自动编码器的不确定性感知的RGB-D显著性目标检测模型。对于双流结构,Li等人在解码阶段,采用后期特征融合策略,结合高层次彩色图和深度图两个独立分支的特征生成跨通道表示;Zhai等人利用多模态和多层次特征设计了一种新颖的级联细化网络,并且彩色图和深度图特征可以以互补的方式融合。对于三流结构,Fan等人设计了一种门控机制,利用彩色图、深度图和RGB-D分支的解码结果过滤掉低质量的深度图。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:(1)对于单流结构,现有方法忽略了彩色图和深度图模态之间的差异,缺乏全面的跨模态交互作用。(2)尽管双流结构和三流结构考虑了两种模态之间的差异,但双流结构两个模态的交互不够充分,难以充分利用互补信息;三流结构两种模态交互密切,但会带来更大的参数量和计算量,存在一定冗余。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于有效获取和利用彩色和深度的跨模态信息,提升两种模态信息的融合效果,设计一种新的RGB-D图像显著性目标检测的跨模态交互和修正的网络,该网络充分利用跨模态信息,获得更优的检测效果。
为达到以上目的,本发明采取的技术方案是:
本发明提出了一种基于跨模态交互和修正的网络(CIR-Net)。网络结构是一种介于两流和三流网络之间的形式,其中区别于双流结构的第三条支路即RGB-D流是通过对彩色图和深度图分支网络学习的高层特征进行交互而形成的,这样的设计可以减少网络参数,更好地建立RGB-D特征。为此,本发明设计了以下组件:1)渐进式注意力引导整合单元和重要性门控融合单元,分别在编码端和解码端实现了跨模态的综合交互。2)特征修正中间件结构包括自模态注意力修正单元和跨模态加权修正单元,通过对自模态注意力张量和跨模态上下文依赖进行编码来修正多模态编码器特征。
一种跨模态交互修正网络,包括渐进式注意力引导整合单元、重要性门控融合单元、特征修正中间件结构、彩色图编码器、深度图编码器、彩色图解码器和深度图解码器;特征修正中间件结构包括自模态注意力修正单元和跨模态加权修正单元;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210580255.4/2.html,转载请声明来源钻瓜专利网。