[发明专利]基于多特征融合和时空注意力机制相结合的视频描述方法有效
| 申请号: | 201810110287.1 | 申请日: | 2018-02-05 |
| 公开(公告)号: | CN108388900B | 公开(公告)日: | 2021-06-08 |
| 发明(设计)人: | 李楚怡;余卫宇 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06K9/46 | 分类号: | G06K9/46;G06N3/04;G06N3/08 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 特征 融合 时空 注意力 机制 相结合 视频 描述 方法 | ||
1.基于多特征融合和时空注意力机制相结合的视频描述方法,其特征在于,包括如下步骤:
S1、对待描述视频提取多种基于卷积神经网络的特征,包括物体、场景、行为动作、光流以及3D卷积特征;
S2、将上一步获得的多种特征融合拼接成一个特征向量;
S3、利用基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达;
S4、将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码,从而获得与所述视频对应的自然语言描述句子。
2.根据权利要求1所述的基于多特征融合和时空注意力机制相结合的视频描述方法,其特征在于,步骤S1中所述对待描述视频提取物体、场景、行为动作、光流以及3D卷积特征具体为:
S1.1、对于物体、场景和行为动作特征的提取步骤具体为:
S1.1.1、首先对待描述视频按照指定的帧频fps进行分帧,并随机抽取其中的多帧图像用于下一步作特征提取;
S1.1.2、将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征,最终得到三个1024维的特征向量;
S1.2、对于3D卷积特征的提取步骤具体为:
S1.2.1、将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能好于一定阈值的中间模型的参数;
S1.2.2、将待描述视频输入上一步保存的模型中提取网络结构中pool5层的特征用于表示3D卷积特征,得到一个512维的特征向量;
S1.3、对于光流特征的提取步骤具体为:
S1.3.1、分别计算视频每相邻两帧的x方向和y方向上的光流特征值,并归一化到[0,255]的像素范围;
S1.3.2、计算光流的幅度值,并结合上一步获得的光流特征值组合成一张光流图;
S1.3.3、利用生成的光流图训练一个卷积神经网络GoogleNet,并提取pool5层的特征作为光流特征向量,得到一个1024维的特征向量。
3.根据权利要求1所述的基于多特征融合和时空注意力机制相结合的视频描述方法,其特征在于,步骤S2中将上一步获得的多种特征融合拼接成一个特征向量的具体步骤如下:
S2.1、对步骤S1获得的物体、场景、动作、光流特征和3D卷积特征进行直接拼接,如果用F表示特征,拼接M种模型提取的特征,对于每种模型生成的特征用Fi表示,选取这些特征的组合直接拼接得到的融合特征为Ffusion,则融合特征可表示为公式(1-1):
Ffusion=(F1,F2,…,Fm) (1-1)
S2.2、对拼接的多维特征向量进行主成分分析PCA降维,最终保留1024维特征向量。
4.根据权利要求1所述的基于多特征融合和时空注意力机制相结合的视频描述方法,其特征在于,步骤S3中利用基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达,具体为:
S3.1、引入时空注意力机制分为时间注意力机制和空间注意力机制;
S3.2、双向长短时记忆网络作为特征编码器对步骤S2中得到的视觉特征进行编码,在编码生成的隐藏层变量中引入步骤S3.1中的时空注意力机制加权确定最终的特征编码表达。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810110287.1/1.html,转载请声明来源钻瓜专利网。





