[发明专利]一种基于RGBD图像与全残差网络的语义分割方法在审
申请号: | 201810291496.0 | 申请日: | 2018-04-03 |
公开(公告)号: | CN108664974A | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 张智军;江锦东;罗飞 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06K9/00 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 刘巧霞 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义分割 残差 卷积运算 上采样 卷积 工作站 图像 卷积神经网络 边缘分割 初始卷积 分支信息 获取信息 阶段特征 深度图像 深度信息 信息融合 语义分析 融合 反卷积 特征层 下采样 运算 网络 跳跃 场景 输出 传递 融入 | ||
本发明公开了一种基于RGBD图像与全残差网络的语义分割方法,包括步骤:获取场景的RGB图像及深度图像,并传递到工作站中;在工作站对获取信息进行如下运算:在第一阶段中,把深度信息以及RGB颜色信息分别输入卷积神经网络的两个卷积分支中,进行下采样的卷积操作,并分多次把深度分支信息融合进颜色分支中;在第二阶段中,把第一阶段最后一次融合结果作为输入,进行上采样的卷积运算,同时获取第一阶段中各阶段特征层信息,将其融入上采样的各阶段中,直至输出语义分割结果。本发明中,除模型初始卷积与最后的反卷积外,其余卷积结构皆使用残差模块进行卷积运算;模型对于第一阶段与第二阶段的相同空间尺寸的特征层实行跳跃结构进行信息融合。本发明具有语义分析及边缘分割精确的优点。
技术领域
本发明属于机器视觉中语义分割方法领域,特别是一种基于RGBD图像与全残差网络的语义分割方法。
背景技术
随着基于深度学习等机器学习方法在理论及应用中的不断发展,人工智能这一议题近期引起科学界及社会爆发性的广泛关注。人工智能中最为重要的议题之一就是如何实现机器对外界场景理解的能力。也即需要机器识别出所在场景中拥有什么物体,物体处于什么摆放位置。为实现此场景识别的能力,图像语义分割即被顺应提出。图像语义分割的目标是对图像中具有语义的对象,即特定类别的物体,如人、床、椅等对象进行识别,分割出该物体的所属像素区域。当机器人或智能系统获取到环境的语义分割结果后,能获得对周边环境的理解,从而进行物体抓取、行程规划、人机交互等行为。近年以来,随着Kinect等RGBD图像采集设备的普及,场景的深度信息的获取变得低廉,而场景的深度信息中富含物体的几何结构,可以成为RGB图像一个有力的补充。从这个角度出发,利用RGBD图像进行语义分割成为一个极具研究和实用价值的方向。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于RGBD图像与全残差网络的语义分割方法,该方法能够实现精确的语义分割。
本发明的目的通过以下的技术方案实现:一种基于RGBD图像与全残差网络的语义分割方法,包括步骤:
1)获取场景的RGB图像及相应的深度图像;
2)将步骤1)中获得的深度图像与RGB图像信息传递至拥有图形运算单元GPU的工作站中;
3)工作站把深度信息以及RGB信息分别输入两个基于卷积神经网络的深度学习分支中,分别称为深度分支及主分支,两分支具有相同的下采样结构;随着框架中卷积运算的递进,深度分支独立运算,而主分支在卷积运算的同时,在不同的卷积层中分多次融合深度分支的特征信息;进行下采样卷积运算时,除初始卷积与最后的反卷积外,其余卷积结构皆使用残差模块进行卷积运算;
4)将步骤3)中最后一次融合结果作为步骤3)的输出,获取该输出,在该输出上进行上采样的卷积运算,同时获取步骤3)中各阶段特征层信息,将其融入上采样的各阶段中,直至输出语义分割结果;进行上采样卷积运算时,除了最后一个反卷积层,其余层皆使用残差模块进行卷积运算。
优选的,所述步骤1)中RGB图像及深度图像利用微软Kinect套件获取,其中RGB图像保留原始值,即值域为0-255的RGB三通道灰度值;深度图像再经过等比例缩放,具体是把Kinect输出基于0-65535值域范围的值等比例缩放为0-255使其与RGB图片在同一值域范围中。
优选的,所述步骤3)进行卷积运算的神经网络系统基于Pytorch深度学习库搭建,底层利用CUDA图形软件库进行卷积运算。整套系统运行于Ubuntu操作系统之上。
优选的,所述步骤3)中两个基于卷积神经网络的深度学习分支基于同一卷积神经网络框架,并相继使用卷积结构、池化结构,与残差层结构进行运算,其中,除了两个卷积神经网络的第一卷积层均具有7x7的卷积核外,所有其余卷积层与池化层都具3x3的内核。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810291496.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文本处理方法和装置
- 下一篇:一种维吾尔文手写字母识别方法、系统及电子设备