[发明专利]一种深度学习中图像数据集的快速获取和快速标定方法有效
申请号: | 201711027026.5 | 申请日: | 2017-10-27 |
公开(公告)号: | CN107909081B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 张小国;叶绯;王宇;王庆 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V10/50 | 分类号: | G06V10/50;G06V10/30;G06V10/74;G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 学习 图像 数据 快速 获取 标定 方法 | ||
1.一种深度学习中图像数据集的快速获取和快速标定方法,其特征在于,包括如下步骤:
S1、进行视频采集;将采集到的视频经过稳像处理,得到不抖动的视频,具体的视频帧稳像处理包括如下步骤:
S1.1、在一定的时间段内,利用运动熵衡量连续帧的运动混乱程度,判断视频画面是否发生抖动异常现象;
S1.2、若发生了抖动异常现象,计算所有帧的光流特征来解算出前一帧到当前帧的转换矩阵;所述转换矩阵包含三个参数:x方向上的偏移分量、y方向上的偏移分量和角度的偏移分量;
S1.3、累积偏移矢量获得每个帧的运动“轨迹”,使用滑动平均窗口平滑运动“轨迹”;
S1.4、根据实际情况,调整滑动窗口的大小,对全局运动进行修正,来达到主观运动与抖动分离的稳像效果;
S2、从步骤S1中的视频中提取视频帧,将稳像后的视频进行预处理,并剔除视频帧中的噪点;
S3、将步骤S2中的视频帧,进行前背景分离获得前景,根据提取出的前景外轮廓获得原视频中的前景目标的最小包围盒;具体包括如下步骤:
S3.1、对预处理后的视频采用高斯混合模型进行前背景分离获得前景;
S3.2、将从背景分割出的前景分为多个连通区域,所述连通区域的判断从两方面考虑,首先针对前景提取之后存在的一些离散的噪点,通过设置一个阈值T来判断该连通区域是否为噪点;如果连通区域面积小于阈值T,那么说明该点是噪点;如果连通区域面积大于T,那么就认为该区域是一个前景目标;根据提取出的前景目标外轮廓获得原视频中的前景目标的最小包围盒,从而得到前景在视频帧中的位置信息,所述位置信息包含两个参数:(xmin,ymax),(xmax,ymin),分别表示包围盒左上角像素点的x,y坐标和右下角像素点的x,y坐标;
S4、根据步骤S3前景连通区域的数量进行判断,将视频帧分为多目标和单目标两种情况;如果是单目标,则认为原视频中的目标物为单类别;如果是多目标,则根据目标间外轮廓的相似性判断是否为同一类别,从而进行类别划分;若所有目标的外轮廓都相似,则判断为单类别;若所有目标的外轮廓不全相似,可初步判断该视频帧中存在多类别,随即采用人工干预进行确认;具体包括如下步骤:
S4.1、如果是单目标,则认为原视频中的目标物是单类别;
S4.2、如果是多目标,则根据目标间外轮廓的相似性判断是否为同一类别,从而进行类别划分;
S4.3、若所有目标的外轮廓都相似,则判断为单类别;若所有目标的外轮廓不全相似,可则初步判断该视频帧中存在多类别;所述轮廓间的相似性判断基于hog特征的模板匹配算法:
S4.3.1、计算hog特征
(1)梯度计算:
梯度计算定义如下:
Gx(x,y)=H(x+1,y)-H(x-1,y) (1)
Gy(x,y)=H(x,y+1)-H(x,y-1) (2)
式(1)中,H为输入的图像,Gx和Gy分别是水平梯度和垂直梯度;为了计算每个像素点的梯度,需要扫描整个图像中的每个像素点,卷积核定义如下:[-1,0,1]和[-1,0,1]T
点(x,y)梯度大小定义为:
点(x,y)梯度方向定义为:
(2)单元直方图:
在计算梯度之后,定义一个固定大小的检测窗口来扫描图片,并将图片分为小的矩形细胞单元;采用9通道直方图来统计这些矩形细胞单元的梯度信息,即将矩形细胞单元的梯度方向0~180度或0~360度分成9个方向块,所述0~360度表示考虑方向正负的情况;基于中间梯度元素的方向,计算每个像素的加权投票,各像素点在各个通道上的幅值计算方法为:
(3)描述符块:
将单元构建成3x3的块的形式,将计算好的梯度直方图输入进分类器中;
S4.3.2、利用hog特征作为轮廓特征进行局部模板匹配,步骤如下:
(1)首先建立基于hog特征的模板库,将待识别区域的尺寸大小归一化到模板的尺寸大小;
(2)计算hog特征并将其可视化,与所有的hog特征可视化后的模板进行匹配;
(3)选择最佳匹配连通区域作为结果;定义基于hog特征用于二值图像模板匹配的距离函数为HSD,hog-basedSimilar Distance;其定义如下:
其中
式(6)、式(7)中f为模板图像、g为待匹配的hog特征可视化图像,m、n为像素点,M、N为像素点所取最大范围值,Tf和Tg分别为对应图像中值为1的像素个数,∧为与运算;R(f(m,n),g(m,n))表示模板和源图的相关函数,d(f,g)表示相似性;
S4.4、人工干预进行确认;
S5、根据步骤S4进行了类别划分之后,将相邻帧中的对应连通区域进行同类别标记;至此,即完成了所有帧的标定,得到一个单类别/多类别的数据集;具体包括如下步骤:
S5.1、将前后两张图片中连通区域的距离和连通区域面积差,作为匹配的算法的参数;经过8-20次实验,发现两个参数反映匹配情况的程度不同,则将距离置于第一优先级,面积差置于第二优先级,根据实际情况设置不同的权值;结合两个参数,将两个参数归一化之后加权相加的值作为连通区域匹配的反映因子;反映因子的计算公式如下:
deside=disfactor×nordistance+areafactor×norarea (8)
其中,deside是反映因子,disfactor是距离权值,nordistance是归一化距离,areafactor是面积权值,norarea是归一化面积;如果上一帧图片中有A个连通区域,当前帧图片有B个连通区域,那么这些反映因子形成了一个A*B的矩阵;通过寻找矩阵中的最小值,定位前后图片连通区域的最佳匹配对象;
S5.2、将相邻帧中的对应连通区域进行同类别标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711027026.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文字提取系统及方法
- 下一篇:基于深度学习技术的声呐图像目标识别方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置