[发明专利]一种基于多模态自适应卷积的RGB-D图像语义分割方法在审
| 申请号: | 202010139232.0 | 申请日: | 2020-03-03 |
| 公开(公告)号: | CN111340814A | 公开(公告)日: | 2020-06-26 |
| 发明(设计)人: | 段立娟;孙启超;乔元华 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06T7/10 | 分类号: | G06T7/10;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多模态 自适应 卷积 rgb 图像 语义 分割 方法 | ||
本发明涉及一种基于多模态自适应卷积的RGB‑D图像语义分割方法,包括:编码模块分别提取RGB图像特征和深度图像特征;将RGB特征和深度特征送入融合模块进行融合;其中,首先将多模态特征输入多模态自适应卷积生成模块,计算出两个不同尺度的多模态自适应卷积核;然后,多模态特征融合模块将RGB特征和深度特征分别与自适应卷积核进行深度可分离卷积运算,得到自适应卷积融合特征;将其与RGB特征和深度特征拼接起来得到最终融合特征;解码模块对最终融合特征连续上采样,经过卷积操作得到语义分割结果;本发明使得多模态特征通过自适应卷积协同交互,其卷积核参数根据输入的多模态图像动态调整,相比传统固定参数的卷积核更加灵活。
技术领域
本发明涉及图像语义分割和深度学习领域,尤其涉及基于卷积神经网络的RGB-D图像语义分割方法。
背景技术
图像语义分割是人工智能和计算机视觉领域的基本任务之一,其目的是根据图像内容识别出图像中每一个像素点的语义类别。作为图像和视频理解的基础,语义分割被广泛应用于自动驾驶,机器人导航等智能领域。
随着深度学习在计算机视觉的广泛应用,深层卷积神经网络已经成为计算机视觉领域最有效的方法。2015年,全卷积神经网络开创性的利用深度学习进行端到端的图像特征提取和像素语义分类,相比传统的语义分割算法在性能和效率上都获得巨大提升。因此,现有的图像语义分割方法均在此算法的基础上进行改进。
然而,图像的语义分割仍然是一个具有挑战性的问题。由于现实场景的复杂性,例如光照的影响和物体间的遮挡,极易导致大量像素点被错误识别。因此,仅靠单一模态RGB图像所提供的外观颜色信息难以对图像进行精确分割。随着深度传感器的普及,人们可以更方便的获得场景的深度图像,它隐含着图像的空间几何信息,而这种空间几何信息很难在RGB特征中获取。因此,很多学者开始展开对RGB-D图像的研究,通过引入图像的深度信息来进一步提升图像语义分割任务的鲁棒性。如何有效地融合多模态RGB特征和深度特征,充分利用多模态特征的互补信息,是提升RGB-D图像语义分割效果的关键因素。
现有基于卷积神经网络的语义分割算法,其卷积核参数在训练之后是固定的,不能根据输入的多模态图像进行自适应调整,并且现有多模态融合方法未能有效挖掘多模态图像的上下文信息,导致RGB-D图像语义分割算法的准确率较低,因此,本发明通过引入多模态自适应卷积操作对多模态特征进行有效融合,更充分地利用多模态图像的上下文信息以提升语义分割精度。
发明内容
本发明的目的在于:为解决现有RGB-D图像语义分割方法准确率较低的问题,提出一种新的基于多模态自适应卷积的RGB-D图像语义分割方法和系统。
为了实现上述目的,本发明实施例采用的技术方案如下:
(1)编码模块分别提取RGB图像的RGB特征Frgb和深度图像的深度特征Fdepth,其中,所述的RGB图和深度图是相同场景的成对图像;
(2)将RGB特征Frgb和深度特征Fdepth送入融合模块进行多模态特征融合,得到融合特征Flast,具体包括:
首先将RGB特征和深度特征输入多模态自适应卷积生成模块生成两个不同尺度的多模态自适应卷积核;
然后,将RGB特征Frgb、深度特征Fdepth、以及两个多模态自适应卷积核输入多模态特征融合模块得到自适应卷积融合特征Ffusion;
最后将RGB特征Frgb、深度特征Fdepth与Ffusion在通道维度进行拼接,得到最终融合特征Flast;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010139232.0/2.html,转载请声明来源钻瓜专利网。





