[发明专利]一种基于二进制卷积的人体姿态估计和人脸对齐的方法在审

专利信息
申请号: 201710186399.0 申请日: 2017-03-24
公开(公告)号: CN106951875A 公开(公告)日: 2017-07-14
发明(设计)人: 夏春秋 申请(专利权)人: 深圳市唯特视科技有限公司
主分类号: G06K9/00 分类号: G06K9/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 518057 广东省深圳市高新技术产业园*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 二进制 卷积 人体 姿态 估计 对齐 方法
【权利要求书】:

1.一种基于二进制卷积的人体姿态估计和人脸对齐的方法,其特征在于,主要包括二进制沙漏网络(一);增加残块的宽度和减少块中的参数数量(二);删除1×1卷积和使用3×3滤波器(三);良好的梯度流和具有层次的并行多尺度滤波(四);损失的影响(五)。

2.基于权利要求书1所述的二进制沙漏网络(一),其特征在于,从原始的沙漏网络开始,以类似的方式向前和向后进行量化;二进制通过以下方式实现:

其中,I是输入张量,W代表层的权值,α是缩放因子;表示可以用同或门实现二进制卷积运算。

3.基于权利要求书1所述的增加残块的宽度和减少块中的参数数量(二),其特征在于,原始块由滤波器尺寸为1×1,3×3和1×1的三个卷积层组成,第一层具有限制第二层的宽度(即通道数)的作用,从而大大减少了模块内的参数数量;

通过将3×3薄层中的信道数量从128增加到256,增加残块宽度;这样增加了从一个块传递到另一个块的信息量。

4.基于权利要求书3所述的残块,其特征在于,残块是沙漏网络的主要构建块,表示如下:

其中,xl+1和xl为一个块的输入和输出,是残差函数,表示单元参数。

5.基于权利要求书3所述的减少块中的参数数量,其特征在于,通过减少块中的参数数量,匹配原始的参数数量;将块的输入—输出通道数量从256个减少到192个,使第一层中的通道数量从[256→128,3×3]变成[192→96,3×3],第二层从[128→4,3×3]变成[96→48,3×3],第三层[64→64,3×3]变成[48→48,3×3]。

6.基于权利要求书1所述的删除1×1卷积和使用3×3滤波器(三),其特征在于,在二进制卷积神经网络中使用1×1卷积滤波器限制了神经网络的性能;通过去除1×1卷积,基准性能提高8%以上。

7.基于权利要求书6所述的使用3×3滤波器,其特征在于,设计二进制网络时,应优先选择多尺度滤波器;将输入分为两个分支;第一分支的工作原理与原来相同,但具有1×1层,在进入3×3之前,将256个通道投影到64个;第二分支通过首先将输入通过最大汇集层进行多尺度分析,然后创建两个分支,一个使用3×3滤波器,另一个使用5×5分解成两个3×3滤波器;通过连接这两个子分支的输出,获得在原始块的128个信道中剩余的64个信道;最后,两个主分支连接128个通道,借助1×1个滤波器的卷积层,再次反向投影到256个通道。

8.基于权利要求书1所述的良好的梯度流和具有层次的并行多尺度滤波(四),其特征在于,二进制网络对于衰落梯度的问题更为敏感,在网络中的梯度比实际对应的梯度要小10倍;因此设计具有层次的并行多尺度结构,允许每个分辨率具有两个不同的路径,其中最短的始终为1;模块内部分层结构的存在能有效适应较大的滤波器(高达7×7),分解成卷积层3×3过滤器;

良好的梯度流和具有层次的并行多尺度滤波能提高性能,但不会过度增加二进制网络的参数。

9.基于权利要求书7所述的梯度,其特征在于,梯度可能需要在到达块的输出之前穿过两个层,每个卷积层具有将其连接到输出的直接路径,使得在任何给定时间和模块内的所有层中,最短路径等于1。

10.基于权利要求书1所述的损失的影响(五),其特征在于,使用Sigmoid函数交叉熵像素损失:

<mrow><mi>l</mi><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>n</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>W</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>H</mi></munderover><mrow><mo>&lsqb;</mo><mrow><msubsup><mi>p</mi><mrow><mi>i</mi><mi>j</mi></mrow><mi>n</mi></msubsup><msubsup><mi>logp</mi><mrow><mi>i</mi><mi>j</mi></mrow><mover><mi>n</mi><mo>^</mo></mover></msubsup><mo>+</mo><mrow><mo>(</mo><mrow><mn>1</mn><mo>-</mo><msubsup><mi>p</mi><mrow><mi>i</mi><mi>j</mi></mrow><mi>n</mi></msubsup></mrow><mo>)</mo></mrow><mi>log</mi><mrow><mo>(</mo><mrow><mn>1</mn><mo>-</mo><msubsup><mi>p</mi><mrow><mi>i</mi><mi>j</mi></mrow><mover><mi>n</mi><mo>^</mo></mover></msubsup></mrow><mo>)</mo></mrow></mrow><mo>&rsqb;</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>

其中,表示像素位置(i,j)上第n个地标的地面实况图,是相同位置处的相应的Sigmoid函数输出;Sigmoid函数交叉熵像素损失的使用使梯度增加了10-15倍。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710186399.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top