[发明专利]用于2D卷积神经网络的点云数据转换方法和系统在审
申请号: | 201980070698.5 | 申请日: | 2019-11-06 |
公开(公告)号: | CN112912920A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 爱德华多·R·科拉尔·索托;埃赫桑·内扎达里亚;刘冰冰 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06T5/00 | 分类号: | G06T5/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 卷积 神经网络 数据 转换 方法 系统 | ||
描述了用于2D卷积神经网络(convolutional neural network,CNN)的3D数据编码方法和系统。将3D数据集编码为一个或多个阵列的集合。通过将3D点的3D坐标投影到由已定义虚拟摄像头参数集定义的2D图像平面上,计算阵列的2D索引。虚拟摄像头参数包括定义2D图像平面的摄像头投影矩阵。根据计算得到的2D索引,将点的每个3D坐标存储在阵列中。提供编码得到的阵列集合,用于输入到2D CNN中进行训练或推理。
技术领域
本公开涉及将3D点云数据编码为可适用于2D卷积神经网络的2D数据阵列集合,例如用于进行对象检测、分类和分段。
背景技术
自动驾驶车辆可以使用不同的传感器来感知其周围环境,可以处理传感器数据以在空间中生成数据点集,并且可以使用计算机视觉系统来处理数据点集,以便检测和识别周围环境中的感兴趣对象(例如行人或其他汽车)。传感器例如激光雷达和摄像头(例如光学摄像头)经常用于自动驾驶车辆,以感知车辆周围环境中的对象。激光雷达和摄像头具有不同的特点和优势。例如,光学摄像头感知环境中的对象,捕获感知到的对象的图像,并生成表示所捕获图像的2D图像数据。然而,光学摄像头在极端光照变化下(例如夜间或非常明亮的环境中)可能无法感知对象,并且可能仅限于捕获二维(two-dimensional,2D)图像。然而,光学摄像头可能能够感知距离光学摄像头较远的对象的图像。激光雷达可以捕获周围环境的三维(three-dimensional,3D)信息,并在空间中生成表示所捕获3D信息的数据点集。本领域中通常将三维空间中的数据点集称为点云,并由激光雷达作为3D数据提供。尽管激光雷达可能能够捕获较宽区域的3D信息,但激光雷达可能无法检测远离激光雷达的小和/或窄的对象,并且可能具有有限的传感分辨率,特别是在垂直方向上。因此,计算机视觉系统可以有益地同时使用从激光雷达接收的3D数据和从摄像头接收的2D图像。
已尝试将激光雷达和2D图像数据一起作为计算机视觉系统的输入,并训练这种系统学习如何进行对象检测、分类和分段。计算机视觉系统实现了特征金字塔网络聚合视图对象检测(Aggregate View Object Detection with Feature Pyramid Network,AVOD-FPN)算法,该算法对2D图像数据和激光雷达数据分别进行特征提取,然后对用于对象检测和分类的投影对应区域特征进行早期融合。然而,实现AVOD-FPN算法的计算机视觉系统需要为每个对象类别单独训练网络(例如,一个网络训练用于检测汽车,另一个网络单独训练用于检测行人),在实践中,通常需要多个并行运行的计算设备来检测多个对象类别。在其他计算机视觉系统中,多视点3D(Multi-View 3D,MV3D)算法将激光雷达数据投影到圆柱面,SqueezeSeg算法将激光雷达数据投影到球面。然而,这些算法中的投影几何形状可能难以与设计用于分析2D平面图像的现有卷积神经网络(convolved neural network,CNN)一起使用,并且可能难以将这些投影几何形状与2D光学图像进行空间配准,且成本高昂。已开发出包括区域CNN(regional CNN,R-CNN)(例如掩码R-CNN)的高精度计算机视觉系统,用于对从摄像头接收的2D、平面、RGB图像数据进行对象检测、分类和分段。
期望能够使用包括CNN的计算机视觉系统分析3D点云数据,其中CNN设计用于对2D图像数据(例如表示2D RGB图像的2D图像数据)进行对象检测、分类和分段。
发明内容
本公开提供了将3D点云数据编码为阵列集合(例如3个2D阵列的集合)的方法和系统,所述阵列集合可以与2D CNN兼容,并可作为所述2D CNN(例如2D掩码区域CNN(RegionalCNN,R-CNN)的输入。所述阵列集合可以与2D图像数据(例如RGB阵列的形式)相组合,所述组合数据可以用于训练和/或作为2D CNN的输入,所述2D CNN进行2D对象检测、分类、回归和分段。所述阵列集合也可以单独用于训练和/或作为2D CNN的输入。在一些示例中,除了2D对象检测、分类、回归和分段,还可以进行3D语义分段和/或回归。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980070698.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置