[发明专利]一种基于多模态特征融合的视频深度关系分析方法在审
申请号: | 202011038812.7 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112183334A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 任桐炜;武港山;于凡;王丹丹;张贝贝 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06T7/246;G10L25/24;G06F40/30;G06F16/36;G06F16/35 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 奚铭 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 特征 融合 视频 深度 关系 分析 方法 | ||
1.一种基于多模态特征融合的视频深度关系分析方法,其特征是建立多模态特征融合网络,用于识别视频中的实体关系图,网络输入包括视频、场景截图及场景名称和人物截图及人物名称,输出为对应场景和人物间的关系图;所述多模态特征融合网络的实现为:首先将输入视频根据场景、视觉和声音模型分为多个片段,每个片段为一个幕,并在每个幕中提取声音和文字特征作为幕特征,然后根据给定的场景截图和人物截图识别它们出现在各幕中的位置,并对场景和人物提取对应的实体特征,同时对每两个实体计算实体对特征,对于每个实体对,将幕特征、实体特征和实体对特征连接后,通过小样本学习结合零样本学习预测每幕实体对间的关系,合并视频每幕上的实体对关系,得到整个视频中的实体关系图作为网络输出。
2.根据权利要求1所述的一种基于多模态特征融合的视频深度关系分析方法,其特征是多模态特征融合网络的实现包括以下步骤:
1)采用多模态幕分割方法将输入的视频分割为多个片段,每个片段为一个幕,一个幕对应一个场景;
2)根据给定的场景截图,在步骤1)分割出的每个幕中采用SURF特征匹配将场景截图与帧进行匹配,各个幕选取匹配点总数最高的场景为幕所对应的场景,场景的轨迹在时间上为整个片段,在空间上是片段中每个帧的画面区域;
3)根据给定的人物截图,在步骤1)分割出的每个幕中采用人体跟踪方法和人脸检测识别方法进行人物的识别和跟踪,并且通过SURF特征匹配将人物截图与帧进行匹配作为人脸识别的补充,得到人物实体包围框及其在幕中的轨迹;
4)在步骤1)分割出的每个幕中对音频提取梅尔频率倒谱系数MFCC和对数梅尔能量LMFE特征,并计算MFCC特征和LMFE特征的一阶差分和二阶差分,得到每个幕的声音特征;
5)对输入视频自动生成字幕,并根据时间轴对应到步骤1)分割出的每个幕上,采用BERT网络生成幕的文字特征;
6)根据步骤2)和步骤3)中的场景轨迹和人物实体包围框轨迹通过预训练的C3D网络计算实体的视觉特征,得到实体特征,并根据每两个实体的联合包围框轨迹同样计算实体对的视觉特征,得到实体对特征;
7)对每个实体对,将与实体对相关的幕的声音特征、文字特征、实体的视觉特征和实体对的视觉特征连接起来并转换到语义空间,结合由BERT模型对关系谓语生成的语义特征,通过小样本学习结合零样本学习的方式预测幕上该实体对的关系;
8)根据步骤7)预测的每幕上每个实体对间的关系,取与预定义的关系类别相似性度量大于0的为关系候选,构建整个视频上的初步实体关系图;
9)在步骤8)的基础上,根据实体的类型、名称和关系的类型调整关系预测概率,补充实体间的关系;
10)根据步骤9)构建的最终实体关系图填充视频知识图,得到整个视频上的实体关系图,用于回答视频理解的问题和查找两个实体之间的关系路径。
3.根据权利要求2所述的一种基于多模态特征融合的视频深度关系分析方法,其特征是步骤1)所述的幕分割计算方法:
1.1)将长视频分为多个镜头片段;
1.2)对步骤1.1)中的每个镜头分别根据场景模型、视觉模型和声音模型提取特征;
1.3)利用步骤1.2)中提取的三种特征分别合并镜头片段为幕;
1.4)将步骤1.3)中根据三种特征的幕分割结果合并:
E=Ep∪Ev∪Ea
其中,E是最终视频上的幕分割边界集合,Ep是根据场景模型的幕分割边界集合,Ev是根据视觉模型的幕分割边界集合,Ea是根据声音模型的幕分割边界集合。
4.根据权利要求2所述的一种基于多模态特征融合的视频深度关系分析方法,其特征是步骤2)中幕与每个场景的匹配点总数的计算方法为:
其中Ml表示场景l的匹配点总数,表示场景l的截图ls的匹配点数,Sl为场景l的截图集合,幕所对应的场景为的匹配点总数最高的场景。
5.根据权利要求2所述的一种基于多模态特征融合的视频深度关系分析方法,其特征是步骤7)具体为:
7.1)将步骤4)中幕的声音特征、步骤5)中幕的文字特征、步骤6)中两个实体的视觉特征和步骤6)中实体对的视觉特征连接起来作为实体对在幕上的特征;
7.2)将步骤7.1)中得到的实体对幕特征经过线性变换转换到语义空间;
7.3)将预定义的关系谓语描述通过BERT模型生成关系谓语语义特征;
7.4)根据实体对的幕特征基于小样本学习结合零样本学习的训练方式,生成实体对的语义特征,小样本结合零样本学习训练时损失函数的计算方法:
其中,L是总的损失函数,β表示实体对的语义特征,γ表示真实关系谓语语义特征,U表示非真实关系的集合,μi表示非真实关系i的特征,n表示非真实关系的数量;
7.5)计算实体对的语义特征与关系谓语语义特征的相似度作为实体对在幕上每种关系的概率,进而确定实体对间的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011038812.7/1.html,转载请声明来源钻瓜专利网。