[发明专利]一种基于深度学习的单目视觉深度估计方法在审
申请号: | 202110185998.7 | 申请日: | 2021-02-13 |
公开(公告)号: | CN112819876A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 张怡;程泽宇;唐成凯;张玲玲;宋哲;孙品先 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06T7/50 | 分类号: | G06T7/50 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 陈星 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 目视 估计 方法 | ||
本发明提出一种基于深度学习的视觉深度估计的方法,通过在现有的深度学习深度估计的网络上添加注意力机制,使得深度学习网络重点关注注意力机制筛选出来的图像中的关键信息,以提高网络对视觉信息的理解能力,从而提高了深度估计的准确性以及深度场景还原的清晰度,在确定好图像的深度之后,可以以此为基础进行单目视觉定位以及三维重建。此方法在利用深度学习来进行单目视觉定位构图的过程中具有重要意义。
技术领域
本发明属于视觉导航领域,具体涉及一种基于深度学习的单目视觉深度估计方法。
背景技术
计算机、5G通信等技术的发展,视觉即时定位与构图(VSLAM)已经受到了越来越多工业界和学术界人的关注。近些年来,基于物理模型和几何方法的VSLAM已经取得了巨大的成果和出色的表现,例如ORB-SLAM(Mur-Artal R,Tardos J D.ORB-SLAM2:an Open-SourceSLAM System for Monocular,Stereo and RGB-D Cameras[J].IEEE Transactions onRobotics,2017,33(5):1255-1262),RTABMAP(Labbé,Mathieu,Michaud,RTAB-Mapas an open-source lidar and visual simultaneous localization and mappinglibrary for large-scale and long-term online operation:LABB and MICHAUD[J].Journal of Field Robotics,2018,36.),Vins-Mono(Tong Q,Peiliang L,ShaojieS.VINS-Mono:A Robust and Versatile Monocular Visual-Inertial State Estimator[J].IEEE Transactions on Robotics,2017,PP(99):1-17.),Open-Vins(Geneva P,Eckenhoff K,Lee W,et al.OpenVINS:A Research Platform for Visual-InertialEstimation[C]//Proc.of the IEEE International Conference on Robotics andAutomation.IEEE,2020.)等,并且已经初步应用于增强现实技术(AR),虚拟现实技术(VR),旋翼无人机控制,自动驾驶等与人工智能相关的新兴领域,取得了较为不错的效果。随着近些年半导体技术突飞猛进地发展,以深度学习的基础的视觉定位与构图技术同样得到了广泛的关注,得益于庞大的数据量和半导体发展带来的高计算能力,这项技术正在快速发展为一个利用数据驱动来定位和估计真实场景结构的新领域。与传统几何方法相比,基于深度学习的方法不需要手动设置物理、数学的几何规则来进行定位和构图,单纯依靠数据驱动模型,并且具有自我学习的能力。而且单目相机由于成本低、功耗低、体积小等优点,广泛使用在手机,移动机器人,旋翼无人机等小型设备上。因此,基于深度学习的单目视觉定位构图技术对于自动驾驶,AR,VR等与人工智能相关的新兴领域同样具有重要意义。
发明内容
由于利用深度学习来解决视觉即时定位与构图属于新兴领域,所以目前还存在多方面的问题,例如估计精度较低,动态场景误差较大,深度还原模糊,模型泛化性较低等。本发明提出了一种基于深度学习的单目视觉深度估计方法,该方法通过在现有的深度学习深度估计的网络上添加注意力机制,使得深度学习网络重点关注注意力机制筛选出来的图像中的关键信息,以提高网络对视觉信息的理解能力,从而提高了深度估计的准确性以及深度场景还原的清晰度,在确定好图像的深度之后,可以以此为基础进行单目视觉定位以及三维重建。此方法在利用深度学习来进行单目视觉定位构图的过程中具有重要意义。
本发明的技术方案为:
一种基于深度学习的单目视觉深度估计方法,包括以下步骤:
步骤1:将待估计图像输入编码网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110185998.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:填埋式无线土壤检测装置
- 下一篇:管道孔防震结构