[发明专利]视频帧的处理方法、装置、设备以及存储介质有效
| 申请号: | 201811282795.4 | 申请日: | 2018-10-31 |
| 公开(公告)号: | CN109543557B | 公开(公告)日: | 2021-01-05 |
| 发明(设计)人: | 何雷;侯瑞杰;沈莉霞;杨光垚;彭亮;董芳芳;宋适宇 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06T7/50 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 处理 方法 装置 设备 以及 存储 介质 | ||
本发明实施例提供一种视频帧的处理方法、装置、设备以及存储介质,该方法包括:获取待处理的视频帧,将待处理的视频帧的输入视频帧预测模型,得到待处理的视频帧的深度和视频帧的语义信息,其中,视频帧预测模型为基于深度神经网络训练的同时获取当前视频帧的深度和当前视频帧的语义信息的模型。本发明实施例提供的视频帧的处理方法,通过结合语义信息来预测视频帧的深度,提高了视频帧深度预测的准确度。
技术领域
本发明实施例涉及视频图像处理领域,尤其涉及一种视频帧的处理方法、装置、设备以及存储介质。
背景技术
立体视频相对于平面视频,视觉冲击力强、艺术欣赏价值高,能够提供给用户更好的视觉体验。因此,利用计算机视觉等技术将现有的平面视频转换为立体视频具有非常重要的应用价值。
其中,将平面视频转化为立体视频关键在于提取平面视频中每帧的深度信息,相关技术中,提供一种基于深度神经网络,无监督(即没有深度真值的约束)方法来学习视频帧的深度,然而,采用上述方法预测出的视频帧深度准确度不高。
发明内容
本发明实施例提供一种视频帧的处理方法、装置、设备以及存储介质,用于解决上述方案中对于视频帧深度的预测准确度不高的问题。
第一方面,本发明实施例提供一种视频帧的处理方法,包括:
获取待处理的视频帧;
将所述待处理的视频帧的输入视频帧预测模型,得到所述待处理的视频帧的深度和所述视频帧的语义信息;
其中,所述视频帧预测模型为基于深度神经网络训练的同时获取当前视频帧的深度和所述当前视频帧的语义信息的模型。
可选的,所述视频帧预测模型是按照如下方法训练得到的:
采集多个视频帧样本,并获取每个视频帧样本的深度真值和每个视频帧样本的真实语义信息;
根据所述多个视频帧样本、每个视频帧样本的深度真值和每个视频帧样本对应的真实语义信息,采用深度神经网络训练得到所述视频帧预测模型。
可选的,所述获取每个视频帧样本的深度真值,包括:
通过激光雷达采集每个视频帧样本的深度真值。
可选的,所述根据所述多个视频帧样本、每个视频帧样本的深度真值和每个视频帧样本的真实语义信息,采用深度神经网络训练得到所述视频帧预测模型,包括:
采用深度神经网络初始化得到初始模型;
将每个视频帧样本输入到所述初始模型,得到所述初始模型输出的深度和语义信息;
根据每个视频帧样本的深度真值和模型预测的深度,获取深度误差;
根据每个视频帧样本的真实语义信息和模型预测的语义信息,获取语义信息的误差;
根据所述深度误差、所述语义信息的误差对所述初始模型进行更新,得到所述视频帧预测模型。
可选的,根据所述深度误差、所述语义信息的误差对所述初始模型进行更新,得到所述视频帧预测模型,包括:
根据模型预测的深度,获取每个视频帧样本对应的三维点云;
根据所述三维点云和每个视频帧样本对应的真实的语义信息,得到平面区域的三维点云;
根据所述平面区域的三维点云在平面法向量上的投影,获取投影分布的方差;
根据所述深度误差、所述投影分布的方差以及所述语义信息的误差对所述初始模型进行更新,得到所述视频帧预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811282795.4/2.html,转载请声明来源钻瓜专利网。





