[发明专利]一种基于卷积神经网络和热图的第一视角指尖检测方法有效
| 申请号: | 201710646613.6 | 申请日: | 2017-08-01 |
| 公开(公告)号: | CN107563494B | 公开(公告)日: | 2020-08-18 |
| 发明(设计)人: | 张鑫;吴文斌 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/00;G06F3/01 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 卷积 神经网络 第一 视角 指尖 检测 方法 | ||
1.一种基于卷积神经网络和热图的第一视角指尖检测方法,其特征在于,包括以下步骤:
S1、采集不同复杂背景下的手势图片,利用标注工具,标记出手势在上述手势图片中所在位置的外接矩形和手指尖的位置,通过外接矩形地信息对原有手势图片进行剪切操作,去除大量冗余背景并对手指尖的位置进行更新,最后利用更新后的指尖位置生成相应的指尖热图;
包括以下步骤:
S11、将摄像头置于第一视角,采集不同场景和光照和肤色条件下不同手势的右手手势图片,作为数据训练样本;
S12、对样本手势的外接矩形进行标注,记录手势所在外接矩形的左上角坐标和右下角坐标以及手指尖坐标;
S13、对图片进行水平镜像即是反转180°操作并记录镜像操作后的外接矩形左上角坐标和右下角坐标以及手指尖坐标,得到左手的训练数据样本以对训练样本进行扩充;
S14、通过外接矩形地信息对原有手势图片进行剪切操作,去除大量冗余背景并对手指尖的位置进行更新;
S15、利用更新后的指尖位置生成相应的指尖热图,用于训练指尖热图回归卷积神经网络;
S2、设计一个手势检测卷积神经网络,将上述剪切前的手势图片作为输入,手势的外接矩形位置作为标签,进行有监督学习,通过卷积计算提取手势的特征并将特征进行全连接计算得到手势的预测外接矩形位置,最后将输出值和真实值进行损失计算,并将误差进行反向传播,使得卷积神经网络收敛;
S3、设计一个手指尖热图回归卷积神经网络,将上述剪切后的图片作为输入,生成的指尖热图作为标签,进行有监督学习,训练神经网络提取手指尖的特征,预测得到的热图与真实热图进行像素间的损失计算,并将误差进行反向传播,使得卷积神经网络收敛;
S4、对输入的第一视角动态手势视频,利用训练完成的手势检测卷积神经网络模型得到手势外接矩形的坐标点,剪切出手势部分,作为指尖热图回归卷积神经网络模型的输入,生成指尖的热图,根据热图的信息得到手指尖的准确位置。
2.根据权利要求1所述的一种基于卷积神经网络和热图的第一视角指尖检测方法,其特征在于,所述步骤S2包括以下步骤:
S21、设计一个手势检测卷积神经网络结构,提取手势的特征;
S22、将提取得到的特征进行全连接计算的到手势的外接矩形位置;
S23、通过L1损失公式计算预测得到的外接矩形框的坐标向量与真实值的坐标向量的偏移量作为损失值;
L1损失公式为:
其中,
式中,Loss(t,v)表示L1损失的符号,t表示真实的坐标向量,v表示预测框的坐标向量,i表示坐标向量的索引号,{x,y,w,h}分别表示外接矩形的左上角的横坐标、外接矩形的左上角纵坐标、外接矩形的宽度和长度;
中x代表上述公式中的ti-vi,即坐标的偏移量,|x|表示绝对值运算;
S24、反向传播,利用剪切前的手势图片和外接矩形的位置信息迭代更新手势检测卷积神经网络的参数,使得网络收敛到最优,得到卷积核的权值参数并保存手势检测卷积神经网络模型。
3.根据权利要求1所述的一种基于卷积神经网络和热图的第一视角指尖检测方法,其特征在于,所述步骤S3包括以下步骤:
S31、设计一个指尖热图回归卷积神经网络,提取指尖的特征信息;
S32、通过前向计算得到指尖的热图;
S33、计算预测得到的指尖的热图与真实热图每一个像素点的欧氏距离误差作为损失值;其中,欧氏距离公式为:
式中,Euclidean Loss是欧氏距离的符号表示,n为图片数量,i表示索引号,yi是卷积神经网络在热图中的像素点的预测值,yi′为真实值;
S34、反向传播,利用剪切后的手势图片和指尖的热图迭代更新指尖热图回归卷积神经网络的参数,使得网络收敛到最优,得到每一层卷积核的权值参数并保存指尖热图回归卷积神经网络模型。
4.根据权利要求1所述的一种基于卷积神经网络和热图的第一视角指尖检测方法,其特征在于,所述步骤S4包括以下步骤:
S41、利用摄像头获取第一视角的手势视频;
S42、将手势视频流分割成帧,对每一帧图片作为手势检测神经网络模型的输入,得到相对应的手势的外接矩形的位置信息;
S43、利用上述得到外接矩形的位置信息计算得到外接矩形的中心点坐标,使用以此坐标为中心的正方形将图片中的手势剪切出来,并缩小图片的分辨率;
S44、将上述剪切并缩小后的手势图片作为指尖热图回归卷积神经网络模型的输入,得到指尖的热图;
S45、寻找热图上每一个通道的最大值,得到指尖的位置并在视频中可视化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710646613.6/1.html,转载请声明来源钻瓜专利网。





