[发明专利]多注意力导向神经网络的立体显著性物体检测技术在审

申请号：	202010573881.1	申请日：	2020-06-22
公开（公告）号：	CN111783862A	公开（公告）日：	2020-10-16
发明（设计）人：	周武杰;陈昱臻;雷景生;强芳芳;王海江;何成	申请（专利权）人：	浙江科技学院
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	林超
地址：	310023 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	注意力导向神经网络立体显著物体检测技术
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种多注意力导向神经网络的立体显著性物体检测技术。通过两个输入的方式构建双流的神经网络，并且利用RGB和视差图两个信息共同生成注意力掩码图；这种掩码图包含了两个模态的信息，使其相互补充，更有利于避开视差图本身的原理性问题；在提升程序运行速度的同时又可以快速的确定物体的位置信息；其次使用下采样编码，再上采样进行译码，逐步的恢复图像在细节位置的像素，从而提高最终的准确率，从而使得结果更接近真实的人类观察物体的情况。解决了视差图距离最近的物体是非显著性物体时，像素仍然是最高的这一原理性问题所带来的负面影响。

技术领域

本发明涉及一种基于双目视觉的立体图像处理技术，尤其是涉及一种多注意力导向神经网络的立体显著性物体检测技术。

背景技术

人类观察物体是有先后顺序的，将人们优先观察的物体称为显著性物体，后观察的物体称为非显著性物体。而模拟人类这一观察习惯的算法技术就是显著性物体检测技术。近年来这一技术在物体分类，区域建议，跟踪等方向有着大量的应用，技术也随之不断的发展，出现了利用深度学习和立体显著性物体检测技术。虽然利用深度图和视差图的立体显著性物体检测技术已经有了很好的表现，但仍然面临着许多问题。

由于深度图和视差图只是单纯的记录物体的距离，势必会出现距离最近，像素最高(在深度图中为最低)的物体是非显著性物体的情况。我们研究发现，这样的深度图原理性错误会极大的影响算法的鲁棒性从而导致误判。因而如何去除这一负面影响是进一步提高算法效果的一个很好思路。本发明采用了一种多注意力导向神经网络，利用RGB和深度图两种模态的信息生成多注意力掩码图，共同对神经网络进行相关引导，从而避免此类问题的出现。

发明内容

为了解决背景技术中的问题，本发明提供了一种多注意力导向神经网络的立体显著物体检测方法，以达到快速检测和精确检测一个精细的物体的目的。

本发明的技术方案包括以下步骤：

步骤1)选取K幅原始RGB图像以及原始RGB图像对应的视差图和真实分割图，并构成训练集；

步骤2)构建多注意力导向神经网络；

步骤3)将训练集中的每幅原始RGB图以及对应的视差图输入到多注意力导向神经网络中进行训练，从输出层输出得到显著性预测分割图，计算显著性预测分割图和对应的真实分割图之间的损失函数值，损失函数值采用二值交叉熵获得；

步骤4)重复执行步骤3)共V次，共得到K×V个损失函数值，然后从K×V个损失函数值中找出值最小的损失函数值作为模型参数，从而完成多注意力导向神经网络的训练；

步骤5)将待显著分割的RGB图像以及对应的视差图输入训练好的多注意力导向神经网络中，输出获得对应的预测分割图像，完成立体显著性物体检测。

所述步骤2)中，多注意力导向神经网络包括输入层、隐层和输出层，输入层包括RGB图输入层和视差图输入层，隐层包括视差图特征提取模块、RGB图特征提取模块、多注意力掩码生成模块和预测模块。

RGB图特征提取模块包括二型残差网络模块和四个卷积块；二型残差网络模块主要由依次连接的二型残差第一层、二型残差第二层、二型残差第三层、二型残差第四层组成，二型残差第一层、二型残差第二层、二型残差第三层、二型残差第四层的输出分别输入第四个卷积块、第三个卷积块、第二个卷积块、第一个卷积块，二型残差第一层接收RGB图输入层的输出。

视差图特征提取模块包括改进的谷歌神经网络和第五个卷积块，视差图输入层的输出经改进的谷歌神经网络输入第五个卷积块。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江科技学院，未经浙江科技学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010573881.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]多注意力导向神经网络的立体显著性物体检测技术在审

专利文献下载