[发明专利]一种基于时序类别激活图互补的弱监督视频行为检测方法有效
申请号: | 201910630472.8 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110516536B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 俞俊;朱素果;方振影;曾焕滨 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06N3/04 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时序 类别 激活 互补 监督 视频 行为 检测 方法 | ||
1.一种基于时序类别激活图互补的弱监督视频行为检测方法,其特征在于:
首先给定视频数据v,视频数据v中出现的行为类别a,构成二元组v,a作为训练集,具体实现步骤如下:
步骤(1)、数据预处理:对视频数据v使用现有的经典的抽取视频时空特征的网络结构提取时空特征;
视频数据v预处理:
首先抽取所有视频数据v对应的图像帧和光流;其次使用预训练的特征提取网络分别提取图像帧和光流所对应的特征;
行为类别a预处理:
每个视频可能包含多个类别,假设有n个类别,首先将视频中出现的行为类别转换成答案字典中的索引值,最后转换为一个n维编码的答案向量;
步骤(2)、特征嵌入模块
基于预训练模型,增加特征嵌入模块,使得视频特征对于弱监督视频行为检测任务更加有效;
步骤(3)、在线生成时序类别激活图模块
首先将嵌入后得到的视频特征经过注意力网络,得到每个视频特征对应的全部类别的重要度;将每个视频特征的重要度与嵌入后得到的视频特征对应相乘得到重要度特征I,然后根据重要度特征I及分类结果生成对应每一个分类类别的时序类别激活图I;
步骤(4)、时序类别激活图互补网络
将时序类别激活图I中大于设定阈值的区域,在嵌入后得到的视频特征中做擦除操作,获得擦除后的视频特征;将擦除后的视频特征经过注意力网络,再次得到每个视频特征对应的全部类别的重要度;将每个视频特征的重要度与擦除后的视频特征对应相乘得到重要度特征II,然后根据重要度特征II及分类结果生成对应每一个分类类别的时序类别激活图II;
步骤(5)、生成检测结果
将得到的时序类激活图I和时序类激活图II合并,然后使用阈值法得到检测结果;
步骤(6)、模型训练
根据产生的分类预测值同该视频的实际动作标签的差异,并利用反向传播算法(Back-Propagation,BP)对上述定义的神经网络的模型参数进行训练,直至整个网络模型收敛;
所述的分类预测值指步骤(3)和步骤(4)各自的分类器产生的分类结果;
步骤(1)具体实现如下:
1-1.对视频数据v以25FPS抽取图像帧,同时使用TVL-1算法抽取视频的光流;对于抽取好的图像帧和光流,使用基于Kinetics数据集预训练的I3D模型,无重叠的每16帧抽取图像帧和光流对应的1024维度的特征,最终得到视频特征vf,其中T是视频使用无重叠每16帧抽取特征得到的片段数,1024是每个片段得到的特征维度;
1-2.对于行为类别a,直接将类别替换成答案字典中的索引ai,然后将答案转化成一个n维且只在ai元素上值为1,其余元素全为0的答案向量ans,其中n是数据集中总的行为类别的个数;
步骤(2)具体如下:
由I3D网络提取的原始视频特征vf经过带有整形流线单元激活函数的通道数为512的1×1卷积之后,得到T×512维度的特征I;将特征I经过一个跟上述相同的网络将此特征转化为另一个T×512维度的特征II;对特征II使用带有整形流线单元激活函数,通道数为1024的1×1卷积之后,得到一个新的T×1024维度的特征III,将此特征III与原始视频特征vf相加,得到嵌入后的特征venb,此特征维度为T×1024,;具体公式如下:
vemb=vf+ReLU(conv3(ReLU(conv2(ReLU(conv1(vf)))))) (1)
其中conv1,conv2,conv3分别是通道数为512、512、1024的1×1卷积;
步骤(3)所述的在线生成时序类别激活图模块,具体如下:
3-1.在训练过程中将嵌入特征vemb和注意力权重aemb相乘得到注意力特征vatt:
vatt=vemb×aemb (2)
其中,由注意力网络得出,T为视频的片段个数;
3-2.使用1×1的卷积将原来的1024维特征转换成n维特征,此时卷积之后的每个特征图对应了每个类别的时序激活图;因此能够在线地在训练分类网络的过程中得到对应分类类别的时序类别激活图I;公式如下:
vact=convact(vatt) (3)
其中,convact是输出通道数为n的1×1卷积;
步骤(4)所述的时序类别激活图互补网络具体如下:
将时序类别激活图Iυact,经过sigmoid函数得到vsig:
vsig=Sigmoid(vact) (4)
然后以阈值法得到第一个分支关注度比较高的片段,在vemb中将这些关注度υsig大于设定阈值的片段的特征置为0,获得擦除后的视频特征υera-emb;将视频特征υera-emb再次经过步骤3-1和3-2的操作,得到新的对应分类类别的时序类别激活图II;
步骤(5)所述的生成检测结果,具体如下:
根据得到的对应分类类别的时序类别激活图I和时序类别激活图II,取对应位置的最大值进行合并,得到最终的时序类别激活图;
对于步骤(3)中得到的分类结果,将分类得分大于0.1的所有类别视为该视频包含的行为类别,在这些行为类别的时序激活图上,将υsig的值大于0.5的片段作为检测结果;
步骤(6)所述的训练模型,具体如下:
将步骤(3)和步骤(4)两个分支的时序类别激活图各自对每个特征图求和,得到1×n的向量,经过sigmoid函数即可得到该分支的预测值,两个分支经过sigmoid函数之后分别记为:pred1,pred2;将pred1,pred2分别与步骤(1)中产生的答案向量ans输入到定义的损失函数BCELoss中,然后两者相加得到损失值loss,具体公式如下:
loss=BCELoss(pred1,ans)+BCELoss(pred2,ans) (5)
其中BCELoss公式如下:
BCELoss=ans·log(pred)+(1-ans)·log(1-pred) (6)
根据计算得到的损失值loss,利用反向传播算法调整网络中的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910630472.8/1.html,转载请声明来源钻瓜专利网。