[发明专利]一种基于多模态特征融合的视频深度关系分析方法在审

申请号：	202011038812.7	申请日：	2020-09-28
公开（公告）号：	CN112183334A	公开（公告）日：	2021-01-05
发明（设计）人：	任桐炜;武港山;于凡;王丹丹;张贝贝	申请（专利权）人：	南京大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06T7/246;G10L25/24;G06F40/30;G06F16/36;G06F16/35
代理公司：	南京天翼专利代理有限责任公司 32112	代理人：	奚铭
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多模态特征融合视频深度关系分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多模态特征融合的视频深度关系分析方法，其特征是建立多模态特征融合网络，用于识别视频中的实体关系图，网络输入包括视频、场景截图及场景名称和人物截图及人物名称，输出为对应场景和人物间的关系图；所述多模态特征融合网络的实现为：首先将输入视频根据场景、视觉和声音模型分为多个片段，每个片段为一个幕，并在每个幕中提取声音和文字特征作为幕特征，然后根据给定的场景截图和人物截图识别它们出现在各幕中的位置，并对场景和人物提取对应的实体特征，同时对每两个实体计算实体对特征，对于每个实体对，将幕特征、实体特征和实体对特征连接后，通过小样本学习结合零样本学习预测每幕实体对间的关系，合并视频每幕上的实体对关系，得到整个视频中的实体关系图作为网络输出。

2.根据权利要求1所述的一种基于多模态特征融合的视频深度关系分析方法，其特征是多模态特征融合网络的实现包括以下步骤：

1)采用多模态幕分割方法将输入的视频分割为多个片段，每个片段为一个幕，一个幕对应一个场景；

2)根据给定的场景截图，在步骤1)分割出的每个幕中采用SURF特征匹配将场景截图与帧进行匹配，各个幕选取匹配点总数最高的场景为幕所对应的场景，场景的轨迹在时间上为整个片段，在空间上是片段中每个帧的画面区域；

3)根据给定的人物截图，在步骤1)分割出的每个幕中采用人体跟踪方法和人脸检测识别方法进行人物的识别和跟踪，并且通过SURF特征匹配将人物截图与帧进行匹配作为人脸识别的补充，得到人物实体包围框及其在幕中的轨迹；

4)在步骤1)分割出的每个幕中对音频提取梅尔频率倒谱系数MFCC和对数梅尔能量LMFE特征，并计算MFCC特征和LMFE特征的一阶差分和二阶差分，得到每个幕的声音特征；

5)对输入视频自动生成字幕，并根据时间轴对应到步骤1)分割出的每个幕上，采用BERT网络生成幕的文字特征；

6)根据步骤2)和步骤3)中的场景轨迹和人物实体包围框轨迹通过预训练的C3D网络计算实体的视觉特征，得到实体特征，并根据每两个实体的联合包围框轨迹同样计算实体对的视觉特征，得到实体对特征；

7)对每个实体对，将与实体对相关的幕的声音特征、文字特征、实体的视觉特征和实体对的视觉特征连接起来并转换到语义空间，结合由BERT模型对关系谓语生成的语义特征，通过小样本学习结合零样本学习的方式预测幕上该实体对的关系；

8)根据步骤7)预测的每幕上每个实体对间的关系，取与预定义的关系类别相似性度量大于0的为关系候选，构建整个视频上的初步实体关系图；

9)在步骤8)的基础上，根据实体的类型、名称和关系的类型调整关系预测概率，补充实体间的关系；

10)根据步骤9)构建的最终实体关系图填充视频知识图，得到整个视频上的实体关系图，用于回答视频理解的问题和查找两个实体之间的关系路径。

3.根据权利要求2所述的一种基于多模态特征融合的视频深度关系分析方法，其特征是步骤1)所述的幕分割计算方法：