[发明专利]基于多特征融合和时空注意力机制相结合的视频描述方法有效

申请号：	201810110287.1	申请日：	2018-02-05
公开（公告）号：	CN108388900B	公开（公告）日：	2021-06-08
发明（设计）人：	李楚怡;余卫宇	申请（专利权）人：	华南理工大学
主分类号：	G06K9/46	分类号：	G06K9/46;G06N3/04;G06N3/08
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	李斌
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于特征融合时空注意力机制相结合视频描述方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多特征融合和时空注意力机制相结合的视频描述方法，首先对待描述视频提取多种基于卷积神经网络的特征，包括物体、场景、行为动作以及光流等特征，并将这些特征融合拼接成一个特征向量，然后基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达，最后输入到单向长短时记忆网络模型进行特征解码，从而获得与所述视频对应的自然语言描述句子。本发明对待描述视频分别提取了物体、场景以及运动特征，表征了视频的对象信息与对象之间的关系以及运动信息，同时考虑到视频在空间维度和时间维度上的变化，利用3D卷积特征进一步捕捉到视频流的运动信息。

技术领域

本发明涉及视频描述、深度学习技术领域，特别涉及一种基于多特征融合和时空注意力机制相结合的视频描述方法。

背景技术

在移动互联网普及和大数据时代的背景下，互联网多媒体数据如图片、视频呈爆发式增长中，计算机视觉已成为当今的热门研究领域，以往完全依赖人工对图片、视频进行标注和描述的任务效率十分低，几乎不可能完成。因此，对于视频自动描述方法的研究具有十分高的应用价值和现实意义。

让机器能够高效自动地对视频做出描述，在视频检索、人机交互、智能安防、虚拟现实等领域也有着广泛的应用前景，这将进一步促进人们对视频的语义描述的研究。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于多特征融合和时空注意力机制相结合的视频描述方法，对待描述视频分别提取了物体、场景以及运动特征，表征了视频的对象信息与对象之间的关系以及运动信息，同时考虑到视频在空间维度和时间维度上的变化，利用3D卷积特征进一步捕捉到视频流的运动信息。

本发明的目的通过以下的技术方案实现：一种基于多特征融合和时空注意力机制相结合的视频描述方法，具体包括如下步骤：

S1、对待描述视频提取多种基于卷积神经网络的特征，包括物体、场景、行为动作、光流以及3D卷积特征；

S2、将上一步获得的多种特征融合拼接成一个特征向量；

S3、利用基于时空注意力机制的双向长短时记忆网络确定视频的语义编码表达；

S4、将上一步获得的语义编码输入到基于单向的长短时记忆网络模型进行特征解码，从而获得与所述视频对应的自然语言描述句子。