[发明专利]一种基于多模态自适应卷积的RGB-D图像语义分割方法在审
| 申请号: | 202010139232.0 | 申请日: | 2020-03-03 |
| 公开(公告)号: | CN111340814A | 公开(公告)日: | 2020-06-26 |
| 发明(设计)人: | 段立娟;孙启超;乔元华 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06T7/10 | 分类号: | G06T7/10;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多模态 自适应 卷积 rgb 图像 语义 分割 方法 | ||
1.一种基于多模态自适应卷积的RGB-D图像语义分割方法,其特征在于,包括:
(1)编码模块分别提取RGB图像的RGB特征Frgb和深度图像的深度特征Fdepth,其中,所述的RGB图和深度图是相同场景的成对图像;
(2)将RGB特征Frgb和深度特征Fdepth送入融合模块进行多模态特征融合,得到融合特征Flast,具体包括:
首先将RGB特征和深度特征输入多模态自适应卷积生成模块生成两个不同尺度的多模态自适应卷积核;
然后,将RGB特征Frgb、深度特征Fdepth、以及两个多模态自适应卷积核输入多模态特征融合模块得到自适应卷积融合特征Ffusion;
最后将RGB特征Frgb、深度特征Fdepth与Ffusion在通道维度进行拼接,得到最终融合特征Flast;
(3)解码模块用于对自适应卷积融合特征进行上采样恢复图像分辨率,得到语义分割概率图:首先使用卷积对最终的融合特征Flast进行降维,然后使用转置卷积逐步上采样恢复尺寸,最后使用卷积和Softmax操作得到语义分割概率图;
(4)训练阶段使用反向传播训练此算法,得到最终的语义分割网络模型;
(5)测试阶段输入新的图像,在已训练好的模型中前向传播输出语义分割结果。
2.根据权利要求1所述的一种基于多模态自适应卷积的RGB-D图像语义分割方法,其特征在于,所述的编码模块由两个结构相同的编码分支构成,一个编码分支提取RGB图的RGB特征,另一个编码分支提取深度图的深度特征;
3.根据权利要求2所述的一种基于多模态自适应卷积的RGB-D图像语义分割方法,其特征在于,所述的编码分支优选改进的ResNet50分类网络,改进具体指,去除ResNet50分类网络最后的池化层和所有全连接层。
4.如权利要求1所述的一种基于多模态自适应卷积的RGB-D图像的语义分割方法,其特征在于,所述的多模态自适应卷积生成模块包括:
首先将编码模块提取的大小为H×W×C的RGB特征Frgb,以及大小为H×W×C的深度特征Fdepth在通道维度进行拼接,得到大小为H×W×2C的拼接特征Fconcat;
然后分别使用两个不同尺度的自适应平均池化操作对拼接特征进行池化,得到两个不同尺度的池化特征;
使用1×1卷积操作分别对两个尺度的池化特征进行卷积,将其在通道维度降维,得到两个不同尺度的多模态自适应卷积核。
5.如权利要求1所述的一种基于多模态自适应卷积的RGB-D图像的语义分割方法,其特征在于,
所述的多模态特征融合模块具体如下:
输入为RGB特征Frgb、深度特征Fdepth,和两个尺度的多模态自适应卷积核;
首先分别使用1×1卷积操作将原始的RGB特征Frgb和深度特征Fdepth的通道个数减少为原来的四分之一,得到降维后的RGB特征和深度特征
然后,将降维后的RGB特征分别与两个尺度的自适应卷积核进行深度分离卷积运算,将降维后的深度特征分别与两个尺度的自适应卷积核进行深度分离卷积运算,共得到4个自适应卷积特征;
最后,将4个自适应卷积特征在通道维度拼接,并使用1×1卷积整合通道维度的信息,得到自适应卷积融合特征Ffusion。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010139232.0/1.html,转载请声明来源钻瓜专利网。





