[发明专利]基于3D场景点云的视障人士出行障碍物检测方法在审
申请号: | 202211692980.7 | 申请日: | 2022-12-28 |
公开(公告)号: | CN115880498A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 何坚;宋雪娜;苏予涵;熊哲波 | 申请(专利权)人: | 北京工业大学;北京诚星科技有限公司 |
主分类号: | G06V10/40 | 分类号: | G06V10/40;G06V10/82;G06V10/30;G06V10/24;G06N3/048;G06N3/0464;G06N3/08;G06V10/80;G06V10/764 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 景点 人士 出行 障碍物 检测 方法 | ||
1.基于3D场景点云的视障人士出行障碍物检测方法,其特征在于包括:
(1)结合RGB-D摄像机建立了视障人士出行场景的3D点云模型
使用RGB-D摄像机获取场景的深度图,并将深度图转化为3D点云模型;在视障人士出行场景模型中包含两个坐标系,分别是相机坐标系和世界坐标系;其中,相机坐标系Oc-UV为RGB-D摄像机的成像坐标系,相机坐标系中的点表示为p′(u,v,d),u为深度图中的横坐标,v为纵坐标,d为深度值;世界坐标系Ow-XwYwZw是视障人士出行场景的建模描述,世界坐标系中的点表示为p(xw,yw,zw),xw,yw,zw分别为点在世界坐标系中对应三个轴的坐标;在对视障人士出行场景建模时,需要使用摄像机内参矩阵将相机坐标系转换为世界坐标系;使用齐次坐标表示两个坐标系中的点,随后通过公式(1)将RGB-D摄像机获取的深度图数据转化为点云数据;
公式(1)中,x、y、z表示坐标值,u为深度图中的横坐标,v为纵坐标,R为相机的旋转矩阵,t为平移向量,K为相机的内参矩阵,由公式(2)表示,fx、fy分别代表相机在x、y方向上的焦距,Cx、Cy为x、y方向上的主点偏移,s表示轴偏斜;内参矩阵、旋转矩阵以及平移向量均为摄像机的内部参数,具体数值可通过摄像机标定获得;
其次,使用RGB-D摄像机采集点云数据的过程中,点云数据中会产生噪声;这些噪声如果不经过处理,会影响点云数据的质量,导致检测不准确;针对这些噪声,使用BilateralFilter双边滤波的方式对点云数据进行去噪处理,使得样本边缘信息得以保持清晰、更加平滑,具体计算方式由公式(3)定义;
公式(3)中,BF表示输出结果,I为样本框,p是I的中心像素点,s为p的邻域集,q是邻域中的一个像素点,Ip和Iq分别表示样本I中的p点和q点的像素值,||||表示范数,Wp为标准量,由公式(4)定义;ωs和ωr为两个权重函数,ωs对应空间域,控制卷积模版权重中的距离部分;ωr对应点值范围域,控制卷积模版权重中点值的部分;二者由公式(5)定义,其中,σs和σr分别为空域滤波权值函数的标准差和点相关性权值函数的标准差,e为自然常数,x为自变量;
另外,视障人士行走过程中身体会产生自然晃动,导致点云数据产生畸变;根据RGB-D摄像机在x、y、z三个方向上的角度,使用公式(6)对点云数据进行旋转矫正;
公式(6)中,R1、R2、R3分别表示绕x、y、z轴旋转的旋转矩阵,使用公式(7)定义,xp、yp、zp表示p点的坐标值,表示对p点旋转矫正之后的坐标;
公式(7)中,a为摄像机绕x轴的旋转角度,β为摄像机绕y轴的旋转角度,γ为摄像机绕z轴的旋转角度,sin和cos分别是对应角度的正弦值和余弦值;
(2)点云数据编码
首先,将整个场景点云分块;某一帧的场景点云中有n个点,处于xyz坐标系中,其中xy平面为水平方向,z轴为竖直方向;每个点保存的数据为其在坐标系中的坐标(x,y,z),则原始点云张量大小为(n,3);将xy平面划分为由若干边长为l的小正方形组成的网格,小正方形的个数计为B个,每个长方体中有N个点,点云块数据保存在一个大小为(B,N,3)的张量中;随后按照各个点云块生成的顺序,将各个点云块堆叠起来;与此同时,生成坐标矩阵coords,coords.shape=(B,2),按顺序保存各个点云块在网格中的x、y坐标;
增加xc、yc、zc、xp、yp这5个维度,将每个点的特征维度大小扩充至8维,充分利用点云块的局部空间信息;对于坐标为x、y、z的点,增加的5个维度可分别由公式(8)(9)表示;
其中,维度xc、yc、zc由公式(8)表示,代表该点到点云块中所有点坐标平均值的距离,xi、yi、zi表示第i个点的坐标值,n为点云块中点的个数,| |表示绝对值;维度xp、yp由公式(9)表示,代表该点到点云块中心位置坐标的距离,coords为坐标矩阵,保存各个点云块在网格中的坐标,i表示当前点云块的下标,以及/表示在x、y两个方向上的偏置;经过扩充后的整个点云张量大小变为(B,N,8);/
其次,使用多层感知机MLP提取点云块内部高度抽象的特征,可由公式(10)计算;
其中,是MLP中第l层第m个神经元的输入值,/和/分别为该神经元输出值和偏置值,/为该神经元与第l-1层第i个神经元的连接权值,k为该层神经元个数,其中f(·)为Mish激活函数,由公式(11)表示;
f(x)=x*tanh(1n(1+ex)) (11)
公式(11)中,e为自然常数,x为自变量,tanh为双曲正切函数,ln为自然对数函数;
经过MLP后张量大小变为(B,N,64),只保留每个点云块中最突出的特征;使用max函数在不损失信息的前提下进行降维操作,将张量大小由(B,N,64)转换为(B,64);
将点云块的特征还原至初始位置;具体地,根据每个点云块特征的序号,调换各个点云块的特征,将(B,64)的特征图转换成大小为(H,W,64)的多通道二维图像;每个点云块特征的序号indices通过矩阵coords和点云网格的大小H*W计算;计算公式由公式(12)定义;
indices=coords[0]+coords[1]*W# (12)
(3)基于深度可分离卷积的障碍物特征提取
在获取(H,W,64)的多通道二维图像后,使用基于深度可分离卷积DepthwiseSeparableConvolutio的神经网络对障碍物进行特征提取;基于深度可分离卷积的障碍物特征提取网络可划分为下采样子网络和上采样子网络;下采样子网络使用CNN提取高维度的特征,由3个深度可分离卷积模块DBlock构成,每个DBlock表示为DBlock(S,L,F),即DBlock中有L个深度可分离卷积层,每一层的卷积步长均为S,每一层的输出通道数为F;深度可分离卷积层,首先是一个卷积核大小为3*3的逐通道卷积,逐通道卷积的特点是特征图的每个通道使用不同卷积核处理;跟随的是批标准化以及Mish激活函数,接下来是卷积核大小为1*1的逐点卷积以及批标准化和Mish激活函数;输入图像经过下采样子网络后,输出特征图的尺寸为输入数据的通道数为输入数据的1倍、2倍和4倍;
上采样子网络以下采样3个输出特征图作为输入数据,将各个特征图使用转置卷积的方式进行上采样;上采样子网络输出特征图的大小可使用公式(13)计算;
公式(13)中,H和W代表输入图像的高和宽,H′和W′代表输出特征图的高和宽,stride代表特征图转置卷积的步长,kernel代表卷积核大小,padding代表特征图填充宽度;
将上采样子网络的输出采用拼接的方式进行融合,得到障碍物的空间特征;
(4)基于点云、融合SSD和注意力机制的障碍物检测基于点云的障碍物检测网络将深度可分离卷积网络所提取的障碍物空间特征作为输入数据;针对原SSD采用特征金字塔生成不同尺度特征图的Anchor和预测框,导致网络计算量大的问题,选定单一尺度的空间特征图进行预测,即直接使用障碍物空间特征图进行检测;
引入注意力模块,分为通道注意力模块和空间注意力模块两部分;通道注意力模块关注不同通道间的特征关系,据此生成通道注意力权重矩阵,并与原特征图F进行逐点乘法操作,得到在通道上增强的特征图F′;空间注意力模块则关注特征图中的重点区域,生成权重矩阵与特征图F′逐点相乘强化特征图中空间维度的重点部分;为了计算各个通道上的特征对结果的贡献,输入特征图F首先需要在空间维度上进行压缩,生成特征图的空间上下文描述;使用MaxPooling操作提取特征图空间维度中最显著的部分,这些部分可以获得更细化的通道注意力;使用AveragePooling以聚合特征,保留不显著的特征,减少信息丢失;接着将特征图F经过2个池化操作产生的空间上下文描述输送至一个全连接层,再将全连接层的2个输出做逐点加和,最后传入ReLU激活函数生成最终的通道注意力权重矩阵;通道注意力权重矩阵会为特征图F的每个通道都赋予一个权重系数,与特征图F逐点相乘达到通道上增强与抑制的目的;空间注意力模块块关注特征图中重要信息的空间位置;首先使用MaxPooling提取特征图中各个通道上的最大值,得到最显著的信息;使用AveragePooling操作在通道维度上求平均值,突出通道间的整体信息,对特征图的通道维度进行降维;再将2个降维后的结果拼接,生成一个通道数为2的特征描述FeatureDescriptor;再使用1个卷积核大小为7*7的二维卷积和ReLU激活函数生成空间注意力权重矩阵;空间注意力权重矩阵包含特征图每个像素点的权重系数,将其与特征图F′逐点相乘,得到注意力模块的最终输出特征图,将其用于后续的预测和回归,增强模型对于重点区域的学习;
障碍物检测网络需要预测出障碍物的3D边框,针对3D框的检测除了3D框的长、宽、高以及中心点的x、y、z坐标外;因为点云数据中的物体还具有方向性,还需要检测3D框的方向;为此,在障碍物检测网络的末端增加了一个使用3个卷积核大小为1*1的二维卷积层Conv3分支,作为方向回归分支,与用于障碍物3D框的回归分支Conv1和用于障碍物类别回归分支Conv2,合并后进入非极大值抑制算法;
将置信分数降序排序,过滤掉置信分数小于阈值0.5的预测框,再使用非极大值抑制算法NMS选出最佳预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学;北京诚星科技有限公司,未经北京工业大学;北京诚星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211692980.7/1.html,转载请声明来源钻瓜专利网。