[发明专利]一种基于注意力机制的视频分类方法在审
申请号: | 201710506561.2 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107341462A | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 徐杰;何庆强;李林科;余兴 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/08 |
代理公司: | 成都行之专利代理事务所(普通合伙)51220 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 视频 分类 方法 | ||
技术领域
本发明属于光通信技术领域,更为具体地讲,涉及一种基于注意力机制的视频分类方法。
背景技术
近年来,得益于深度学习强大的特征提取能力,视频内容的识别和分析取得了突破性进展。视频内容识别的核心在于视频特征的提取,视频特征是视频本身所具有的物理性质,能够从不同的角度反映视频内容。Karpathy采用卷积神经网络提取视频的空间特征,并在时间维度上将卷积神经网络进行扩展,从而提取视频的空时特征。Ji则直接将二维卷积核扩展至三维卷积核,捕获相邻帧之间的运动信息。结合神经学方面的研究,Simonyan和Zisserman提出双通道CNN模型,一通道的CNN提取视频的空间特征,捕获视觉目标信息,一通道的CNN提取视频的短时间特征,捕获目标运动信息。尽管如此,这些方法只能捕捉视频的短时信息,忽视了视频的长时信息。
虽然卷积神经网络能够提取鲁棒的空间特征,但却无法处理序列问题。尤其是对于一段长时间的视频内容,视频内容的识别和分析需要视频在更长时间范围内的时间特征。Jeffrey Donahue在2014年提出LRCN模型,该模型由空间特征提取和时间特征提取两部分组成。空间特征提取部分采用卷积神经网络,时间特征提取部分采用LSTM网络,LSTM网络根据连续输入的空间特征向量提取视频的长时间特征。虽然LRCN模型采用LSTM网络提取视频的长时间特征,但在每一时刻,网络的输入仅为一帧视频内容,忽略了全局内容对网络的影响。
深度学习模型能够直接利用原始数据进行端到端的训练,提取出与原始数据相适应的特征,这为视频内容识别和分析提供了更丰富的特征表示。Moustafa分别训练AlexNet模型和GoogLeNet模型同时对视频内容进行识别。Tran将三维卷积核应用于深度卷积神经网络,并将全部视频帧序列输入到网络中。为提取短时和长时特征,Donahue在双通道CNN模型的基础上加入了两层LSTM网络进行端到端学习。提出一种多粒度的空时结构,LSTM网络被用于提取视频帧、光流特征图像、视频片段的时间特征,从多个角度关注视频内容。由于使用全部的视频帧序列对深度学习模型进行学习耗费了大量的资源,Veeriah提出一种LSTM网络的变体,该变体能够感知视频内容的变化,降低视频中的无关信息对视频内容识别的干扰。
在视频内容识别过程中,如果深度学习模型能够感知视频内容的变化,把握视频内容的重点,将对视频内容识别非常有益。2014年google mind团队使用注意力机制来进行图像分类,在递归神经网络中模拟人脑注意力特性,感知图像内容在各个区域的变化。随后Bahdanau等人将注意力机制运用到自然语言翻译上,将翻译和对齐同时进行,相比传统的方法效果得到很大的提升,在长句的处理上也显示了极大的优势。Venugopalan在自动生成视频描述时,采用编解码结构,编码部分采用卷积神经网络,解码部分采用LSTM网络,并将全部的视频帧特征进行平均作为LSTM网络的输入。该方法虽然在每一时刻考虑了全部的视频信息,但采用平均的方法使得视频特征丢失了时序信息,不利于视频内容的识别。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于注意力机制的视频分类方法,从全局考虑视频信息,同时采用注意力机制选择性的关注视频中的有效信息,降低无效信息的干扰,从而实现视频分类。
为实现上述发明目的,本发明一种基于注意力机制的视频分类方法,其特征在于,包括以下步骤:
(1)、训练LSTM网络模型
(1.1)、通过卷积神经网络CNN提取输入视频的空间特征
设输入视频为X={x1,x2,…,xN},N表示输入视频的总帧数,通过卷积神经网络CNN提取输入视频的空间特征为V={v1,v2,…,vN},vi表示第i帧视频图像的特征向量,i=1,2,…,N;
(1.2)、以注意力权重组合空间特征,得到加权空间特征并输入到LSTM网络;
其中,t=1,2,…,T,T表示时刻总数;
(1.3)、更新当前时刻LSTM网络状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710506561.2/2.html,转载请声明来源钻瓜专利网。