[发明专利]基于跨模态语义增强的非结构化环境点云语义分割方法在审

申请号：	202210150326.7	申请日：	2022-02-18
公开（公告）号：	CN114549537A	公开（公告）日：	2022-05-27
发明（设计）人：	李旭;倪培洲;徐启敏;祝雪芬	申请（专利权）人：	东南大学
主分类号：	G06T7/10	分类号：	G06T7/10;G06T7/521;G06V10/26;G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司：	南京众联专利代理有限公司 32206	代理人：	蒋昱
地址：	210096 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于跨模态语义增强结构环境分割方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于跨模态语义增强的非结构化环境点云语义分割方法，其特征在于：包含如下步骤：

(1)基于球面投影的点云分割模块设计；

子步骤1：雷达点云预处理

激光雷达的数据点坐标系OXYZ是以雷达中心为原点，载体前进方向为OX轴，按右手定则建立；方位角和顶角θ的计算公式如下：

其中，(x,y,z)为雷达点云中每一个点在欧式坐标系下的坐标；对于点云中的每一个点都可以通过其(x,y,z)计算其即将欧式坐标系中的点投影到球面坐标系中；此球面坐标系实则是一个二维坐标系，对其角度进行微分化从而得到一个二维的直角坐标系：

其中，xi、xj为二维直角坐标系的横、纵坐标，Δθ分别对应θ的分辨率；

通过此球面投影变换，将欧式空间中得任意一点(x,y,z)投影到二维坐标系下的点(xi,xj)；提取点云中每一个点的3个特征：欧式坐标(x,y,z)，从而得到一个尺寸为(H,W,C)的张量，其中，H为球面投影变换后所得渲染图像的宽，W为该图的长，C＝3；以KITTI数据集为例，该数据集使用的是64线激光雷达，因此H＝64；水平方向上，受数据集标注范围的限制，使用正前方90°的雷达点云数据，并将其划分为512个网格，即水平采样512个点，因此W＝512；

子步骤2：基于残差扩张卷积的编码-解码网络设计

针对非结构化环境语义分割任务，设计了一种基于残差扩张卷积的编码-解码网络；

首先，确定卷积层类型、卷积核大小和卷积步长；

设计扩张卷积层卷积核大小为1×1和3×3，步长均设为1；反卷积层的卷积核大小为3×3，步长为2，使得经过上采样后的特征图与输入分辨率相同；

其次，确定池化层类型、采样尺寸和步长；

采用最大池化操作来对特征图进行下采样，并将采样尺寸设为2×2，步长设为2；

接着，确定dropout层分布；

仅在编码器和解码器的中心层插入dropout；

最后，将上述涉及的不同类型的网络层组合，利用交叉验证法进行模型选择，确定各层的层数、卷积核数量以及扩张卷积的扩张率，得到如下最优网络架构，其中每一个卷积操作都经过ReLU函数激活：

Block1：用32个1×1、扩张率为1的卷积核与512×64×3的输入样本做卷积，得到子特征图1，之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做批标准化处理，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，再与子特征图1做逐像素相加，得到维度为512×64×32的特征图；

池化层1：Block2输出的特征图用2×2的最大池化层做下采样，步长为2，得到维度为256×32×32的特征图；

Block2：参照Block1，用64个1×1、扩张率为1的卷积核与池化层1输出的特征图做卷积，得到子特征图2，之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，再与子特征图2做逐像素相加，得到维度为256×32×64的特征图；

池化层2：Block2输出的特征图经过dropout后，用2×2的最大池化层做下采样，步长为2，得到维度为128×16×64的特征图；

Block3：参照Block1，用128个1×1、扩张率为1的卷积核与池化层2输出的特征图做卷积，得到子特征图3，之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，再与子特征图3做逐像素相加，得到维度为128×16×128的特征图；

池化层3：Block3输出的特征图经过dropout后，用2×2的最大池化层做下采样，步长为2，得到维度为64×8×128的特征图；

Block4：参照Block1，用256个1×1、扩张率为1的卷积核与池化层3输出的特征图做卷积，得到子特征图4，之后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，再与子特征图4做逐像素相加，得到维度为64×8×256的特征图；

反卷积层1：用128个3×3的卷积核与Block4输出的特征图做卷积并做BN，步长为2，经dropout后与Block3输出的特征图逐像素相加，再经过dropout后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，最后经过dropout得到维度为128×16×128的特征图；

反卷积层2：参照反卷积层1，用64个3×3的卷积核与Block4输出的特征图做卷积并做BN，步长为2，经dropout后与Block3输出的特征图逐像素相加，再经过dropout后分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，最后经过dropout得到维度为256×32×64的特征图；

反卷积层3：参照反卷积层1，用32个3×3的卷积核与Block4输出的特征图做卷积并做BN，步长为2，与Block3输出的特征图逐像素相加，再分别与3×3、扩张率为1以及3×3、扩张率为2的卷积核做卷积并做BN，将特征图拼接后与1×1、扩张率为1的卷积核做卷积并做BN，最后得到维度为512×64×32的特征图；

标准卷积层：用3个1×1的卷积核与反卷积层3输出的特征图做卷积，得到维度为512×64×3的特征图，3个通道对应语义类的总数；

Soft-max层：对标准卷积层输出的特征图做像素级分类，得到各类的概率，实现场景的三维语义分割；

子步骤3：损失函数设计

将传统的交叉熵损失用类频次的平方根对其加权，并与Lovasz-Softmax组合作为最终的损失函数，使各类的IoU得分最大化，具体如下式：

Lseg3D＝-i1viP3DilogP3Di+1CkJeck3

其中，vi是各类的点数，P3Di和P3Di分别为真值和对应的预测概率，J表示IoU的Lovasz扩展，e(ck)是类ck的误差向量；

(2)基于残差跨层连接的图像分割模块设计；

子步骤1：编码-解码网络设计

为了方便步骤(3)中二维伪语义增强模块中GAN算法的使用，采用与点云分支相同的编码、解码结构以提取图像语义特征和得到各分类概率；

子步骤2：损失函数设计

采用标准交叉熵函数作为监督训练模型的损失函数：

Lseg2D＝-1NjP2DjlogP2Dj4

其中P2D(j)和P2Dj分别表示真值和对应的预测值；

(3)基于GAN的二维伪语义增强模块设计；

选择CycleGAN作为二维伪语义增强模块的生成器，它是一种具有循环一致性的跨域图像生成GAN模型，即有两个互为逆矩阵的生成器G:2D→3D,F:3D→2D，和两个判别器D2D、D3D，其中D2D用于区分原始二维语义特征{feature2Dm}，即步骤(2)中编码器的输出，与由三维语义特征转换所得的二维伪语义特征{F(feature3Dm)}，即步骤(1)中编码器的输出，D3D用于区分原始三维语义特征{feature3Dm}与由二维语义特征转换所得的三维伪语义特征{G(feature2Dm)}，使得Cyclic2D＝FGfeature2D≈feature2D，Cyclic3D＝G(Ffeature3D)≈feature3D；

各映射的对抗损失如下：

为进一步减小映射函数空间，引入循环一致性损失，使学习到的映射函数具有循环一致性：

LcycleG,F＝E2DF(G(feature2Dm))-feature2Dm+E3DG(F(feature3Dm))-feature3Dm6

将其与二维、三维域的对抗损失相结合，得到二维伪语义增强模块的总损失函数如下：

LG,F,D2D,D3D＝LGANG,D3D,2D,3D+LGANF,D2D,2D,3D+αLcycleG,F7

其中，α为控制两目标相对重要性的超参数；

(4)网络模型训练与点云语义分割

子步骤1：点云分支训练

采用Adam优化器对网络参数进行迭代训练。优化器初始学习率设为0.01，衰减率设为0.1/20K次迭代，dropout率设为0.5，batchsize设为32，训练epoch设为500；

先利用结构化环境数据集做预训练，所述结构化环境数据集包括KITTI，得到预训练权重，再利用采集的少量非结构化环境数据做进一步训练，得到网络权重；为了增加训练数据的数量，本发明对原始点云做水平翻转、加入随机噪声以及绕z轴随机旋转-5°,5°处理；

子步骤2：图像分支训练

类似点云分支，先利用结构化环境数据集做预训练，所述结构化环境数据集包括KITTI，得到预训练权重，再利用采集的少量非结构化环境数据做进一步训练，得到网络权重；