[发明专利]一种多传感器融合感知方法及装置在审
申请号: | 202211639960.3 | 申请日: | 2022-12-20 |
公开(公告)号: | CN115861601A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 张新钰;李骏;李志伟;王力;刘华平;吴新刚;黄毅 | 申请(专利权)人: | 清华大学 |
主分类号: | G06V10/25 | 分类号: | G06V10/25;G06V10/44;G06V10/77;G06V10/80;G06F17/16 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 张建纲 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 传感器 融合 感知 方法 装置 | ||
本申请提供了一种多传感器融合感知方法及装置,涉及融合感知技术领域,该方法包括:利用Transformer编码器对点云数据的特征张量进行编码,得到三维体素特征图;将三维体素特征图进行鸟瞰视角映射得到二维特征图;利用候选区域生成网络对二维特征图进行处理,得到点云ROI区域,从点云ROI区域提取出点云ROI特征;对点云数据和RGB图像进行处理得到伪点云图像,从伪点云图像上提取出伪点云ROI特征;利用交叉注意力融合模型对点云ROI特征和伪点云ROI特征进行处理,得到融合后的ROI特征;利用感知模型对融合后的ROI特征进行处理,得到三维目标检测框、目标类别以及道路分割结果。本申请提高了目标检测和道路分割的精度。
技术领域
本申请涉及融合感知技术领域,尤其是涉及一种传感器融合感知方法及装置。
背景技术
当前视觉图像数据和激光雷达数据通常采用两种融合方法:
视锥方法:首先在图像数据上使用二维目标检测和语义分割,将感知结果投影到三维空间中,形成视锥范围,再对这个范围内的点云进行三维目标检测和语义分割;
特征融合方法:将点云数据与图像数据进行像素级融合,融合之后的特征进行三维目标检测和语义分割任务。
上述两种融合方法只是简单地将不同模态数据特征进行拼接,这会带来噪声和分辨率不匹配等问题,且无法充分发挥不同模态数据的优势,不同模态数据融合后不仅不会提升精度,反而会降低精度。
此外,当视觉图像来源于不良光照环境下时,会降低三维目标检测和语义分割的精度。
发明内容
有鉴于此,本申请提供了一种传感器融合感知方法及装置,以解决上述技术问题。
第一方面,本申请实施例提供了一种多传感器融合感知方法,包括:
获取目标区域的RGB图像和点云数据;
利用预先训练完成的Transformer编码器对点云数据的特征张量进行编码,得到三维体素特征图;将三维体素特征图进行鸟瞰视角映射得到二维特征图;利用候选区域生成网络对二维特征图进行处理,得到点云ROI区域,从点云ROI区域提取出点云ROI特征;
对点云数据和RGB图像进行处理得到伪点云图像;在伪点云图像上获取与点云ROI区域相同的伪点云ROI区域,从伪点云ROI区域提取出伪点云ROI特征;
利用预先训练完成的交叉注意力融合模型对点云ROI特征和伪点云ROI特征进行处理,得到融合后的ROI特征;
利用预先训练完成的感知模型对融合后的ROI特征进行处理,得到三维目标检测框、目标类别以及道路分割结果。
进一步地,利用预先训练完成的Transformer编码器对点云数据的特征张量进行编码之前还包括:
对点云数据进行体素化处理,得到多个大小为H×W×L的体素块,H、W和L为一个体素块的长、宽和高;
对每个体素块进行采样,得到N个采样点;
计算每个体素块内的N个采样点的三维坐标和反射强度的平均值,得到4个维度的体素块特征向量为N个采样点的三维坐标的平均值;/为N个采样点的反射强度的平均值;/
利用一个全连接层将4个维度的体素块特征向量扩展为d维的特征张量fvoxel。
进一步地,所述Transformer编码器包括依次连接的自注意力模块、BatchNorm层、第一加法器、两个串联的全连接层、第二加法器和线性映射层;自注意力模块包括依次连接的处理单元和softmax激活函数,处理单元包括并联的第一处理分支、第二处理分支和第三处理分支;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211639960.3/2.html,转载请声明来源钻瓜专利网。