[发明专利]基于级联卷积神经网络的第一视角空中手写和空中交互方法有效
申请号: | 201610033798.9 | 申请日: | 2016-01-19 |
公开(公告)号: | CN105718878B | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 金连文;黄毅超;刘孝睿;张鑫 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/08 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 李斌;杨晓松 |
地址: | 510640 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 级联 卷积 神经网络 第一 视角 空中 手写 交互 方法 | ||
1.基于级联卷积神经网络的第一视角空中手写和空中交互方法,其特征在于,包括下述步骤:
S1、获取训练数据,人工标记包含手部区域的前景区域的左上角点和右下角点,人工标记指尖所在坐标,人工标记不同手势的类别;
S2、设计一个深度卷积神经网络用于手部检测,该神经网络输入为第一视角下的单帧图像,输出为手部前景矩形的左上角坐标和右下角坐标,投入训练数据并优化欧氏范数损失函数,迭代直至参数稳定;
S3、设计一个深度卷积神经网络用于手势识别和指尖检测,该神经网络输入为仅包含手部区域的前景矩形,输出为指尖坐标和手势类别,投入训练数据并优化一个分段损失函数,迭代直至参数稳定;
S4、将一级网络和二级网络级联,通过一级网络输出的前景外接矩形切割出感兴趣区域从而获得包含手部的前景区域,然后将前景区域作为第二级卷积网络的输入进行指尖检测和手势识别;
S5、判断手势类别,若为单指手势,则输出其指尖坐标并进行时序平滑和点间插值;
S6、利用连续多帧的指尖采样坐标进行文字识别。
2.根据权利要求1所述的基于级联卷积神经网络的第一视角空中手写和空中交互方法,其特征在于,步骤S1具体为:
S1.1、通过摄像头处于人眼位置模拟第一视角,采集大规模数据,覆盖不同的场景,包括多种不同的手势,其中一种必须是单指手势而且指尖可见;
S1.2、人工标记包含手部区域的外接矩形左上角坐标和右下角坐标,人工标记手势类别,若手势为单指手势,人工标记指尖的位置;
S1.3、按照键值对的方式,配对储存图像和对应的标签真实值。
3.根据权利要求2所述的基于级联卷积神经网络的第一视角空中手写和空中交互方法,其特征在于,在所述步骤S1.1中,所采集的数据为第一视角的数据,画面包含手势。
4.根据权利要求2所述的基于级联卷积神经网络的第一视角空中手写和空中交互方法,其特征在于,在所述步骤S1.2中,所采集的数据是通过人工标记手部前景左上角坐标和右下角坐标,人工标记指尖坐标和人工标记手势类别来进行监督学习。
5.根据权利要求1所述的基于级联卷积神经网络的第一视角空中手写和空中交互方法,其特征在于,步骤S2具体为:
S2.1、合理设计一个深度卷积神经网络,包括卷积层、池化层和全卷积层,使得网络输入为三通道RGB图像,输出为两个二维坐标(xtl,ytl)和(xbr,ybr),分别代表手部前景的左上角右下角;
S2.2、所述深度卷积神经网络的损失函数为:
其中pi代表预测的坐标值,ti代表训练样本中已经标注的坐标真实值,N代表输出坐标的个数,此处N为4,代表左上角和右下角坐标,对应的反向传播的残差为
εi=pi-ti(1≤i≤4)
S2.3、投入训练数据并应用梯度下降法优化损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610033798.9/1.html,转载请声明来源钻瓜专利网。