[发明专利]基于点云-体素聚合网络模型的语义场景补全方法及系统在审
| 申请号: | 202110422598.3 | 申请日: | 2021-04-15 |
| 公开(公告)号: | CN113850270A | 公开(公告)日: | 2021-12-28 |
| 发明(设计)人: | 陈小康;唐嘉祥;王靖博;曾钢 | 申请(专利权)人: | 北京大学 |
| 主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
| 地址: | 100871*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 聚合 网络 模型 语义 场景 方法 系统 | ||
本发明公布了一种基于点云‑体素聚合网络模型的语义场景补全方法,建立点云‑体素聚合网络模型作为三维图像语义场景补全深度神经网络模型,包括点云‑体素双路编码器和以语义传播模块为基本单元构成的解码器;点云‑体素双路编码器以点云模型作为主干,使用浅层的三位卷积神经网络作为体素分支,将二维单目深度图像转换为三维点云,提取点云与体素两种数据模态中互补的特征,并对特征进行融合;且保留稠密体素中的局部结构特征;再通过解码器对提取特征逐层上采样,恢复三维场景的几何结构以及语义信息,最终对应到体素中得到三维场景的结构与语义。本发明方法能够高效且准确地完成语义场景补全任务。
技术领域
本发明涉及一种应用于语义场景补全任务的深度神经网络模型,具体涉及一种基于点云-体素双路聚合深度神经网络模型的语义场景补全方法及系统,用于从单目深度图像中恢复三维场景的结构以及图像的语义信息,属于计算机视觉中的三维视觉技术领域。
背景技术
语义场景补全(Semantic Scene Completion,SSC)任务指的是从通过深度传感器采集,如Microsoft Kinect,LiDAR等获取的单目深度图像中恢复三维场景,包括场景补全以及语义分割这两个子任务。其中,场景补全任务可以从单目的深度图观测中恢复三维场景的结构,例如补全被遮挡的物体的形状;语义分割任务可以对体素化的三维场景中的每个体素的语义类别进行预测,例如将室内场景分割为地面、墙壁、家具等不同部分。文献[1](Shuran Song,Fisher Yu,Andy Zeng,Angel X Chang,Manolis Savva,and ThomasFunkhouser.Semantic scene completion from a single depth image.In CVPR,pages1746–1754,2017)中提出的SSCNet首次记载了SSC任务并证明了场景补全以及语义分割这两个任务是高度相关的,同时学习这两个任务可以获得更好的效果。
后续的工作对这一任务进行了进一步的探索,主要使用三维卷积神经网络模型(3DConvolutional Neural Network,3D CNN)进行语义场景补全,这些方法先将二维的深度图编码为三维的截断符号距离函数(Truncated Signed Distance Function,TSDF)矩阵来表示三维场景,再通过监督学习训练3D CNN对其中的每一个体素进行语义标签的预测。但是,SSC任务的数据中通常存在大量的可见空气体素(例如在NYUCAD数据集中,可见空气体素与其他体素的比例约为9:1),这些体素的类别可以通过相机参数直接判断,也不参与最后评价指标的运算,而3D CNN只能同时对所有体素进行运算,不能只对部分体素进行预测,因此现有的基于体素的方法都存在着计算冗余的问题,即对已知的空气体素进行了不必要的运算,导致运算效率较低,并且需要占用大量的显存。
文献[2](Zhong and Gang Zeng.Semantic point completion network for 3dsemantic scene completion.ECAI,2020.)中提出利用点云的方法进行语义场景补全,由于点云是一种稀疏的表面模型,通过提取三维空间中观测到的表面以及被遮挡的区域,避免了在可见空气体素上的计算,从而具有更高的计算效率,占用的显存更少,部分地解决了上述的计算冗余问题。但由于点云数据不具有规则的空间结构,基于点云的方法无法直接对点云数据应用卷积操作,导致难以有效提取三维图像的语义场景局部结构信息,语义场景补全效果也相比基于体素的方法较差。
发明内容
为了克服上述现有技术存在的不足,本发明提供一种基于点云-体素聚合网络模型的语义场景补全方法及系统,创建应用于三维图像语义场景补全任务的深度神经网络模型,具体采用的点云-体素双路深度神经网络模型是一种高效且准确的深度学习模型,用于从单目深度图像中恢复三维场景的结构以及语义信息,能够更好地完成SSC任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110422598.3/2.html,转载请声明来源钻瓜专利网。





