[发明专利]基于跨模态交互和修正的RGB-D图像显著性目标检测方法在审
申请号: | 202210580255.4 | 申请日: | 2022-05-26 |
公开(公告)号: | CN115170830A | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 丛润民;刘鸿羽;张晨;林秦伟;赵耀 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06V10/46 | 分类号: | G06V10/46;G06V10/56;G06V10/80;G06V10/82 |
代理公司: | 北京卫平智业专利代理事务所(普通合伙) 11392 | 代理人: | 闫萍 |
地址: | 100044*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 跨模态 交互 修正 rgb 图像 显著 目标 检测 方法 | ||
1.一种跨模态交互修正网络,其特征在于,包括:渐进式注意力引导整合单元、重要性门控融合单元、特征修正中间件结构、彩色图编码器、深度图编码器、彩色图解码器和深度图解码器;特征修正中间件结构包括自模态注意力修正单元和跨模态加权修正单元;
彩色图编码器和深度图编码器分别用于提取彩色图模态和深度图模态的特征;渐进式注意力引导整合单元用于将彩色图模态和深度图模态的高层特征进行跨模态交互得到RGB-D特征;特征修正中间件结构用于对编码阶段得到的彩色图模态、深度图模态和RGB-D模态的特征进行自模态和跨模态的修正;彩色图解码器和深度图解码器分别用于对彩色图模态和深度图模态进行解码,并将各层级解码特征送入重要性门控融合单元进行融合解码,从而完成RGB-D模态的解码,得到最终的显著图。
2.一种基于跨模态交互和修正的RGB-D图像显著性目标检测方法,其特征在于:使用权利要求1所述的跨模态交互修正网络,包括以下步骤:
步骤1、在编码阶段,彩色图编码器和深度图编码器分别提取彩色图模态和深度图模态的特征,彩色图模态和深度图模态的高层特征经渐进式注意力引导整合单元进行跨模态交互得到RGB-D特征;
步骤2、特征修正中间件结构对编码阶段得到的彩色图模态、深度图模态和RGB-D模态的特征进行自模态和跨模态的修正;
步骤3、在解码阶段,彩色图模态和深度图模态分别解码,并将各层级解码特征送入重要性门控融合单元进行融合解码,从而完成RGB-D模态的解码,得到最终的显著图。
3.如权利要求2所述的基于跨模态交互和修正的RGB-D图像显著性目标检测方法,其特征在于:
步骤1中,从第三层开始特征组合和前向传播:
其中,代表第i个编码级融合后得到的RGB-D特征,和分别表示第i个编码层级的彩色图特征和深度图特征,表示将和进行通道级联操作,而conv表示卷积层;然后,为了突出互补信息,抑制跨层次和跨通道融合中的无关冗余,利用上一级RGB-D特征生成的空间注意力图来渐进地指导当前级的特征融合;因此,第4级和第5级的最终RGB-D特征更新为:
其中,为更新后的RGB-D特征,⊙是逐元素乘法,Ai-1表示第i-1级的注意力图,SA是空间注意力操作,↓表示下采样操作。
4.如权利要求2所述的基于跨模态交互和修正的RGB-D图像显著性目标检测方法,其特征在于:
步骤2中,自模态注意力修正单元来抑制背景噪声,并以一种新的空间通道3D注意力方式从模态自身的角度突出重要线索;
三个编码器分支和的输出特征被嵌入到自模态注意力修正单元中;首先计算输入特征在并行结构中的通道注意力和空间注意力,从而得到相应的空间注意力图和通道注意力图,然后,通过矩阵乘法将它们直接融合到注意力空间上,生成三维注意力张量;这一过程描述为:
其中,A3D代表三维注意力张量,表示顶层编码层的每个模态的特征,mod∈{r,d,rgbd},r、d、rgbd分别表示彩色图模态、深度图模态和RGB-D模态,SA和CA分别表示空间注意力操作和通道注意力操作,表示矩阵乘法;使用3D注意力张量以及残差连接来提炼每个模态的自身特征:
其中,⊙是逐元素乘法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210580255.4/1.html,转载请声明来源钻瓜专利网。