[发明专利]一种基于深度学习的视频目标检测方法与装置在审
| 申请号: | 202010471931.5 | 申请日: | 2020-05-29 |
| 公开(公告)号: | CN111832393A | 公开(公告)日: | 2020-10-27 |
| 发明(设计)人: | 杨鹏;闵克祥;何大治;纪雯 | 申请(专利权)人: | 东南大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/36;G06N3/04 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 孟红梅 |
| 地址: | 211189 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 视频 目标 检测 方法 装置 | ||
1.一种基于深度学习的视频目标检测方法,其特征在于,包括如下步骤:
(1)利用深度卷积神经网络提取视频帧图像的CNN特征;
(2)利用视频帧特征增强模块对视频帧图像的CNN特征质量进行优化;所述视频帧特征增强模块将视频帧特征增强视作视频帧序列的编解码过程,以SeqtoSeq作为基础模型并增加了时空注意力机制,提取视频中的时序信息以提高视频帧的特征质量;
(3)利用视频目标关系提取模块对候选框特征进行重新编码;所述视频目标关系提取模块根据基于增强后的特征获得的目标候选框,对目标关系进行建模,计算目标视觉特征影响力、位置特征影响力和时序特征影响力并进行归一化后得到注意力权重分布,从而挖掘目标之间潜藏的语义关系,并利用目标关系对候选框的特征进行重新编码,丰富候选框的特征表示;
(4)对每个目标利用分类器和回归器获得目标的类别以及该目标在帧图像中所处的位置。
2.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(2)中改进的SeqtoSeq模型以BiConvLSTM网络结构作为编码器,以ConvLSTM作为解码器;BiConvLSTM中对于每个隐藏层输出与输入的帧图像特征不是简单的线性聚合,而是先对特征图进行空间对齐;对齐的方式是首先利用光流网络根据隐藏层输出和帧图像特征计算出光流图,然后利用双线性插值函数,将隐藏层输出沿着光流方向传播到帧图像特征。
3.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(2)中时空注意力机制的实现过程包括:首先将编码器的各个单元与解码器中的单元进行匹配,并计算编码器的各个单元对解码器中单元的影响力;然后对各个影响力利用softmax函数进行运算,得到注意力权重分布;最后对注意力权重分布进行加权求和得到注意力特征;其中在对编码器单元和解码器单元进行匹配时,同时匹配两个单元的视觉特征和时间特征,视觉特征影响力visioni,j和时间特征影响力timei,j分别通过如下公式计算得到:
visioni,j=Vi,j·ReLU(Wh·[hi,sj-1])
其中,hi表示编码器中第i个单元的隐藏层输出;sj-1表示解码器中第j-1个单元的隐藏层输出;Vi,j和Wh为卷积核;·表示卷积操作;ReLU表示ReLU函数;visioni,j为标量;T为视频帧数量;εi,j为时间特征参数。
4.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(3)中采用FasterR-CNN模型中的RPN网络以及ROIPooling层获取候选框,将优化后的帧特征输入到RPN网络用于产生区域建议集合,再将区域建议集合输入到ROIPooling层中获得候选框特征集合。
5.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(3)中目标j对目标i的视觉特征影响力位置特征影响力和时序特征影响力通过如下公式计算得到:
其中,分别为目标i和目标j的视觉特征;分别为目标i和目标j的位置特征;分别为目标i和目标j的时间特征;表示将和变换为4维向量后编码为一个高维表示;WK,WQ为视觉特征的参数;dk为视觉特征的维度;WG为位置特征的参数;WT为时间特征的参数;dot表示矩阵点乘;*表示矩阵叉乘;ReLU表示ReLU函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010471931.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像清晰度还原方法及装置、图像拍摄方法及装置
- 下一篇:一种新型铝拉丝工艺





