[发明专利]三维目标检测方法、装置以及存储介质有效
申请号: | 201911346575.8 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111126269B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 毛伟;裴积全;吕军;张凡 | 申请(专利权)人: | 京东科技控股股份有限公司 |
主分类号: | G06V20/64 | 分类号: | G06V20/64;G06N3/04;G06N3/08 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 方亮 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 三维 目标 检测 方法 装置 以及 存储 介质 | ||
本公开提供了一种三维目标检测方法、装置以及存储介质,其中的方法包括:将目标物体在单目图像中的第一坐标中心,设置为3D边界框的第二坐标中心;根据外参和内参设置3D边界框的空间坐标约束,设置方向损失函数以及3D边界框的尺寸损失函数,并生成模型损失函数;使用单目图像训练样本并基于空间坐标约束和模型损失函数,对卷积神经网络模型进行训练,用以对单目图像进行三维目标检测处理。本公开的方法、装置、终端以及存储介质,通过设置空间坐标约束、方向损失函数以及尺寸损失函数,并对卷积神经网络模型进行训练构建多任务神经网络,能够实现对于单目图像的3D目标检测;可以提高三维目标检测的效率和精度,降低使用成本。
技术领域
本发明涉及图像处理技术领域,尤其涉及一种三维目标检测方法、装置以及存储介质。
背景技术
目标检测是计算机视觉领域的传统任务,与图像识别不同,目标检测不仅需要识别出图像上存在的物体,给出对应的类别,还需要将该物体的位置通过最小包围框(Bounding box)的方式给出。目前,大多数3D物体检测方法依赖激光雷达数据,用以在自动驾驶场景中提供准确的深度信息,但是激光雷达成本高昂、视场范围比较小;单目相机安装复杂,成本低,但是,目前还没有基于单目视觉的3D目标检测技术方案。
发明内容
有鉴于此,本发明要解决的一个技术问题是提供一种三维目标检测方法、装置以及存储介质。
根据本公开的一个方面,提供一种三维目标检测方法,包括:将目标物体在单目图像中的第一坐标中心,设置为所述目标物体的3D边界框的第二坐标中心;获取采集所述单目图像的单目相机的外参和内参,根据所述外参和内参设置所述目标物体的3D边界框的空间坐标约束;设置与所述目标物体的姿态角相对应的方向损失函数;基于所述目标物体的平均尺寸、与所述平均尺寸相对应的估计残差,设置所述3D边界框的尺寸损失函数;根据所述方向损失函数和所述尺寸损失函数,生成预设的卷积神经网络模型的模型损失函数;使用单目图像训练样本并基于所述空间坐标约束和所述模型损失函数,对所述卷积神经网络模型进行训练,使用训练好的所述卷积神经网络模型对单目图像进行三维目标检测处理。
可选地,所述根据所述外参和内参设置所述目标物体的3D边界框的空间坐标约束包括:根据所述外参和内参确定与所述3D边界框顶点相对应的顶点三维坐标;确定所述目标物体在所述单目图像中的2D边界框,基于所述2D边界框和所述顶点三维坐标生成所述空间坐标约束,以使每个顶点都能投影在所述2D边界框的至少一条边上。
可选地,将与所述3D边界框相对应的三维坐标系设置为以第二坐标中心为原点的世界坐标系;确定位于所述3D边界框上的点在所述三维坐标系中的三维坐标在所述单目图像中的投影坐标为:
x=K[R|T]x0;
其中,所述三维坐标为x0=[X,Y,Z,1]T,所述投影坐标为x=[x,y,1]T;R为所述单目相机的旋转矩阵,T为所述单目相机的平移矩阵,K为所述单目相机的内参矩阵。
可选地,所述姿态角包括:方向角;所述设置与所述目标物体的姿态角相对应的方向损失函数包括:将所述方向角映射到多个重叠的bin中;其中,所述卷积神经网络模型估计出所述方向角落在所述bin中的概率,以及所述方向角的Cos和Sin值;确定与所述bin相对应的置信损失和定位误差;基于所述置信损失和定位误差获得所述方向损失函数。
可选地,所述方向损失函数为:
Ltheta=Lconf+w*Lloc;
所述定位误差为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技控股股份有限公司,未经京东科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911346575.8/2.html,转载请声明来源钻瓜专利网。