[发明专利]一种抗网格效应的人脸深度预测方法有效

申请号：	201810333873.2	申请日：	2018-04-13
公开（公告）号：	CN108629291B	公开（公告）日：	2020-10-20
发明（设计）人：	王兴政;章书豪;王好谦;方璐;戴琼海	申请（专利权）人：	深圳市未来媒体技术研究院;清华大学深圳研究生院
主分类号：	G06K9/00	分类号：	G06K9/00;G06T7/50;G06N3/04
代理公司：	深圳新创友知识产权代理有限公司 44223	代理人：	刘莉
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网格效应深度预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

提供一种抗网格效应的人脸深度预测方法，包括步骤：S1：搭建抗网格效应的卷积神经网络，包括多个空洞卷积，每个空洞卷积串联连接的规范化操作和激励操作，以及多个像素反卷积；S2：建立人脸数据集，其包括训练集和测试集，并设置卷积神经网络的训练参数；S3：对卷积神经网络进行权重初始化，将训练集输入卷积神经网络中，以最小化代价函数为目标来训练神经网络形成人脸图像深度预测神经网络模型；S4：将测试集输入人脸图像深度预测神经网络模型，输出能够反映人脸图像深度信息的图像。本发明的人脸深度预测方法，能够解决传统卷积神经网络的网格效应，拥有较大的感受域，能够极大地提升人脸深度预测的准确性，有利于进行人脸的三维重建研究。

技术领域

本发明涉及计算机视觉与数字图像处理领域，特别涉及一种抗网格效应的人脸深度预测方法

背景技术

人脸深度预测，是计算机视觉领域一个新颖且富有挑战性的问题。对人脸进行深度预测是理解整个人脸几何关系的重要组成部分。相应的，这样的关系能够很好地反映人脸上的器官以及整个人面部的环境，如果能得到较好的人脸面部深度信息，将会对人脸识别问题提供非常大的帮助，同样地，也有助于构建人脸的3D模型，有利于解决有关人脸的三维重建问题。但是从一张人脸的RGB图片中预测出整个人脸的深度信息本身是一个具有病态性质的问题，因为在将RGB图像的颜色信息映射成深度值的过程中面临诸多的不确定性。为了解决这一问题，一些方法是通过马尔科夫随场来获得深度信息，通过条件随机场来正则化深度图，但是这些方法依赖于图像的水平校准，因而对训练环境比较敏感。

近年来，随着卷积神经网络(Convolutional Neural Networks,CNN)的提出，许多计算机视觉与数字图像处理领域的问题通过使用CNN都取得了非常好的效果。目前，一些基于卷积神经网络进行深度预测的方法被提出，取得了一些较好的结果，但是也存在着一些问题。比如，随着卷积层的不断增加会面临梯度消失从而训练不下去的问题；深层网络的感受野比较小，训练出的深度图精度不是很高，图像较为粗糙。针对深层网络感受野比较小的问题，最近空洞卷积的提出证明了在卷积神经网络训练中加入空洞卷积可以扩大卷积神经网络的感受野从而提升精度。但是空洞卷积存在普遍的网格问题，因为空洞卷积虽然能够扩大感受域，但是其是在卷积核中填充0，形成网格效应，对于空洞率为2的空洞卷积而言，大约会损失75％的信息，随着空洞率的不断增大，局部信息会损失。同样的情况也存在于进行上采样操作的反卷积当中，在进行上采样的过程中由于临近像素之间没有直接联系，产生网格效应，从而影响生成的深度图精度。

发明内容

为解决上述技术问题，本发明提供一种抗网格效应的人脸深度预测方法。

本发明的技术问题通过以下的技术方案予以解决：

一种抗网格效应的人脸深度预测方法，包括如下步骤：

S1：搭建抗网格效应的卷积神经网络，所述卷积神经网络包括编码网络和解码网络，其中编码网络包括多个空洞卷积，以及每个空洞卷积串联连接的规范化操作和激励操作，所述解码网络包括多个像素反卷积；

S2：建立所需的人脸数据集，所述人脸数据集包括训练集和测试集，并且设置所述卷积神经网络的训练参数；

S3：对所述卷积神经网络进行权重初始化，将所述训练集输入初始化后的卷积神经网络中，根据所述卷积神经网络及其初始化的权重值，以最小化代价函数为目标来训练所述神经网络形成人脸图像深度预测神经网络模型；

S4：将所述测试集输入到所述人脸图像深度预测神经网络模型，输出能够反映人脸图像深度信息的图像。

优选地，所述编码网络中的数个空洞卷积依次串联连接，每个空洞卷积的输出端依次串联所述规范化操作和所述激励操作，在最后一个空洞卷积后依次串联多个像素反卷积；所述规范化操作采用Batch Normalization，所述激励操作采用Leaky Relu函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市未来媒体技术研究院;清华大学深圳研究生院，未经深圳市未来媒体技术研究院;清华大学深圳研究生院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810333873.2/2.html，转载请声明来源钻瓜专利网。

上一篇：基于结构光的年龄推测方法、装置及移动终端、存储介质
下一篇：弯曲车道线检测方法、装置及终端

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种抗网格效应的人脸深度预测方法有效

专利文献下载