[发明专利]一种基于多模态对比学习的深度特权语义分割方法在审
| 申请号: | 202111626188.7 | 申请日: | 2021-12-28 |
| 公开(公告)号: | CN114332099A | 公开(公告)日: | 2022-04-12 |
| 发明(设计)人: | 柯丹宁;龚小谨 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06T7/10 | 分类号: | G06T7/10 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多模态 对比 学习 深度 特权 语义 分割 方法 | ||
本发明公开了一种基于多模态对比学习的深度特权语义分割方法。采集RGB图像和深度图像并与类别共同构成训练集,建立均包含语义分割基础网络和投影模块的RGB分支和深度分支;用逐像素交叉熵损失监督训练两个语义分割基础网络;用跨模态对比损失优化由投影模块得到的嵌入特征,通过反向传播算法使得语义分割基础网络中的特征编码器能够挖掘RGB特征和深度特征的共性,一定程度上改善RGB图像中由于色彩纹理相近而难于分割的情况,从而提升语义分割的精度。本发明在推理阶段只需要场景的RGB图像而无需深度信息,由于在训练阶段引入了深度信息,有较好的分割能力和泛化性能。
技术领域
本发明属于计算机视觉技术领域的一种深度特权语义分割方法,尤其是涉及了一种基于多模态对比学习的深度特权语义分割方法。
背景技术
随着传感器的发展,RGB-D语义分割近年来吸引了越来越多的研究兴趣。RGB-D语义分割利用RGB图像及其对应深度图像,为图像中的每一个像素标注语义类别从而起到分割场景的效果。由于深度图像提供了RGB图像所没有的几何信息,RGB-D语义分割方法在光照条件变化大和色彩纹理差异小的情况下有更加鲁棒的性能,故在自动驾驶和机器人视觉等领域具有潜在应用价值。
如Chen等人发表《Computer Vision--ECCV 2020:16th European Conference,Glasgow,UK,August 23--28,2020,Proceedings,Part XI 16》在的《Bi-directionalCross-Modality Feature Propagation with Separation-and-Aggregation Gate forRGB-D Semantic Segmentation》以及Zhou等人发表在《Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition》的《Pattern-structurediffusion for multi-task learning》都是行之有效的利用了深度信息的RGB-D语义分割方法。
现有的RGB-D语义分割方法有的在训练和推理阶段都需要RGB和深度数据。有的虽然在推断时不需要深度数据但是往往通过多个交互的解码器实现故影响了推断速度。
发明内容
针对训练时可以提供RGB图像和深度图像,但是测试时无法提供深度图像的情况,本发明提供一种基于多模态对比学习的深度特权语义分割方法,以基于编码器-解码器解构的DeepLabV3+作为语义分割基础网络模型,利用跨模态对比学习让特征编码器自动学习挖掘RGB特征和深度特征的共性,以改善RGB图像中由于色彩纹理相近而难于分割的情况,从而提升语义分割的精度。本发明只在训练时利用对比学习引入深度信息,在推断时在只需要RGB图像和不影响推断速度的前提下能够获得更好的分割结果。
本发明的技术方案如下:
本发明包括如下步骤:
1)采集多个需要进行语义分割的场景的RGB图像及对应的深度图像,由多张RGB图像和对应的深度图像以及各张RGB图像中各个像素的类别构成所需的训练集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111626188.7/2.html,转载请声明来源钻瓜专利网。





