[发明专利]一种基于深度学习的视频目标去除及背景恢复方法有效
申请号: | 201910222252.1 | 申请日: | 2019-03-22 |
公开(公告)号: | CN109993089B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 王慧燕 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 浙江杭州金通专利事务所有限公司 33100 | 代理人: | 许可唯 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 视频 目标 去除 背景 恢复 方法 | ||
1.一种基于深度学习的视频目标去除及背景恢复方法,其特征在于包括如下步骤:
S1)人脸检测
采集视频数据,提取可做人脸检测的视频帧,分别对每一帧进行处理,将视频帧中出现的每个人脸进行尺度缩小,选取最终的训练图片;
将VGG神经网络作为网络的基本结构,将网络分为6个block,在中间层添加改进的inception结构,对底层的4个block使用特征金字塔进行特征融合并在其后添加卷积层,对剩下的2个block不进行特征融合且在其卷积模块的最后一层输出后面添加分类损失函数和回归损失函数;
S2)人脸识别
以深度残差网络resnet50为基础设计分支网络,在resnet50基础模块增加网络的宽度和深度,在resnet50中间部分增加两个分支,将两个分支进行特征融合后再与主干分支进行特征融合,提取最后全连接层的512维特征向量作为最终的人脸特征,采用人脸特征的余弦相似度作为判定标准;
S3)人身检测
读取视频图像序列中的视频帧,将视频帧图像送入训练好的网络中做前向传播,取每层金字塔和其余未进行特征融合的卷积层的输出各自计算分类结果和回归结果,分类结果指锚点表示的目标是行人或背景的概率,回归结果指预测结果相对于锚点的偏差,锚点指人身区域的中心坐标点;
首先,筛选出行人概率超过阈值的锚点,去除锚点对应预测的偏差,用预测出的偏差修正锚点的坐标,得到初步的检测结果P1;
然后,使用非极大值抑制算法对初步的检测结果P1按照概率进行排序,过滤掉局部非最大概率的检测结果,得到P2;
最后,过滤掉超出图像范围的预测结果,预测结果为目标框的左上角坐标(x1,y1)和右下角坐标(x2,y2);若x2大于图像宽度,x2修改为图像宽度;若y2大于图像高度,y2修改为图像高度;若x1、y1小于0,将x1、y1修正为0;得到最终检测结果P3;
S4)人脸与人身匹配
利用步骤S2)将一帧图像中的所有人脸与特定需要抹掉的人脸进行匹配,确定最终需要抹掉的人脸在图像中的位置;
利用步骤S3)将一帧图像中的所有人身的位置确定;
利用步骤S2)和步骤S3)中人脸框和人身框的位置关系,确定特定人脸和特定人身的对应关系,选取人脸框和人身框交并比最大的行人框,作为最后需要去除的行人位置和背景恢复区域;
S5)去除行人与背景恢复
根据最终确定的行人框的位置,使用OpenCV对特定区域进行背景恢复;
准备修复模板mask,需要去除行人框的位置的像素设定为255,其他位置的像素全部设定为0;修补每个点的圆形邻域,修复参考半径设置为5;输出最终的去除行人和背景恢复的结果。
2.根据权利要求1所述的一种基于深度学习的视频目标去除及背景恢复方法,其特征在于:
在步骤S1)中,将视频帧中出现的每个人脸进行尺度缩小,在原有尺寸上分别*0.9、*0.8、*0.7,再将1080P的图片缩放到相应大小,在缩小的图上截取700*700的包含人脸的图片,然后随机在700*700的图片上裁剪640*640的图片作为最终的训练图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910222252.1/1.html,转载请声明来源钻瓜专利网。