[发明专利]基于多特征融合和时空注意力机制相结合的视频描述方法有效
| 申请号: | 201810110287.1 | 申请日: | 2018-02-05 |
| 公开(公告)号: | CN108388900B | 公开(公告)日: | 2021-06-08 |
| 发明(设计)人: | 李楚怡;余卫宇 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06K9/46 | 分类号: | G06K9/46;G06N3/04;G06N3/08 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 特征 融合 时空 注意力 机制 相结合 视频 描述 方法 | ||
本发明公开了一种基于多特征融合和时空注意力机制相结合的视频描述方法,首先对待描述视频提取多种基于卷积神经网络的特征,包括物体、场景、行为动作以及光流等特征,并将这些特征融合拼接成一个特征向量,然后基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达,最后输入到单向长短时记忆网络模型进行特征解码,从而获得与所述视频对应的自然语言描述句子。本发明对待描述视频分别提取了物体、场景以及运动特征,表征了视频的对象信息与对象之间的关系以及运动信息,同时考虑到视频在空间维度和时间维度上的变化,利用3D卷积特征进一步捕捉到视频流的运动信息。
技术领域
本发明涉及视频描述、深度学习技术领域,特别涉及一种基于多特征融合和时空注意力机制相结合的视频描述方法。
背景技术
在移动互联网普及和大数据时代的背景下,互联网多媒体数据如图片、视频呈爆发式增长中,计算机视觉已成为当今的热门研究领域,以往完全依赖人工对图片、视频进行标注和描述的任务效率十分低,几乎不可能完成。因此,对于视频自动描述方法的研究具有十分高的应用价值和现实意义。
让机器能够高效自动地对视频做出描述,在视频检索、人机交互、智能安防、虚拟现实等领域也有着广泛的应用前景,这将进一步促进人们对视频的语义描述的研究。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于多特征融合和时空注意力机制相结合的视频描述方法,对待描述视频分别提取了物体、场景以及运动特征,表征了视频的对象信息与对象之间的关系以及运动信息,同时考虑到视频在空间维度和时间维度上的变化,利用3D卷积特征进一步捕捉到视频流的运动信息。
本发明的目的通过以下的技术方案实现:一种基于多特征融合和时空注意力机制相结合的视频描述方法,具体包括如下步骤:
S1、对待描述视频提取多种基于卷积神经网络的特征,包括物体、场景、行为动作、光流以及3D卷积特征;
S2、将上一步获得的多种特征融合拼接成一个特征向量;
S3、利用基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达;
S4、将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码,从而获得与所述视频对应的自然语言描述句子。
优选的,步骤S1中所述对待描述视频提取物体、场景、行为动作、光流以及3D卷积特征具体为:
S1.1、对于物体、场景和行为动作特征的提取步骤具体为:
S1.1.1、首先对待描述视频按照指定的帧频fps进行分帧,并随机抽取其中的80帧图像用于下一步作特征提取;
S1.1.2、将采样帧分别输入到ImageNet、Places365、UCF-101这三个数据集预训练好的GoogleNet模型提取pool5层的特征,最终得到三个1024维的特征向量;
S1.2、对于3D卷积特征的提取步骤具体为:
S1.2.1、将UCF-101数据集的视频流输入到ResNet18的网络中进行训练并保存分类性能好于一定阈值的中间模型的参数;
S1.2.2、将待描述视频输入上一步保存的模型中提取网络结构中pool5层的特征用于表示3D卷积特征,得到一个512维的特征向量;
S1.3、对于光流特征的提取步骤具体为:
S1.3.1、分别计算视频每相邻两帧的x方向和y方向上的光流特征值,并归一化到[0,255]的像素范围;
S1.3.2、计算光流的幅度值,并结合上一步获得的光流特征值组合成一张光流图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810110287.1/2.html,转载请声明来源钻瓜专利网。





