[发明专利]一种基于多模态特征融合的视频深度关系分析方法在审
申请号: | 202011038812.7 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112183334A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 任桐炜;武港山;于凡;王丹丹;张贝贝 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06T7/246;G10L25/24;G06F40/30;G06F16/36;G06F16/35 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 奚铭 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 特征 融合 视频 深度 关系 分析 方法 | ||
一种基于多模态特征融合的视频深度关系分析方法,基于视频分幕和场景、人物识别的视觉、声音和文字特征融合网络,首先将输入视频根据场景、视觉和声音模型分为多个幕,并在每个幕上提取对应的声音和文字特征,然后根据输入的场景截图和人物截图识别出现在各幕中的位置,并对场景和人物提取对应的实体视觉特征,同时对每两个实体对计算联合区域的视觉特征;对于每个实体对,将幕特征、实体特征和实体对特征连接后通过小样本学习结合零样本学习预测每幕实体对间的关系,通过合并视频每幕上的实体关系,构建整个视频上的实体关系图。本发明利用实体关系图可以回答知识图填充、问题回答和实体关系路径三类深度视频分析问题。
技术领域
本发明属于计算机视觉技术领域,涉及视频中实体关系检测,具体为一种基于多模态特征融合的视频深度关系分析方法。
背景技术
长视频上不同实体间的深度关系分析有助于长视频的深度理解,这往往需要根据已知信息推断隐藏的信息。长视频上的深度关系分析致力于构建场景和人物两类实体间的关系图。通过实体关系图,可以回答对视频深度分析的各种问题。
类似的关于视频理解的工作包括视频归纳、行为识别、视觉关系检测和社交关系识别,但是这些工作一般适用于短视频,且缺少对不同实体间关系转变的深度分析,对于长视频分析,仍然存在以下问题:
1)短视频内容相对较少,往往只有一个场景,人物不多,用于短视频分析的现有技术不能解决多个实体,包括人物、场景间的关系预测;
2)对短视频的分析难以进行合并,对未同框实体间的关系无法预测。
同时,现有技术的分析方法大多适用于有足够训练样本的情况,而长视频的深度关系分析任务则有部分关系不存在训练样本。因此现有的技术不能解决长视频上的深度关系分析。
发明内容
本发明要解决的问题是长视频的深度理解,目的是构建长视频上的实体关系图并利用关系图进行视频的深度分析。
本发明的技术方案为:一种基于多模态特征融合的视频深度关系分析方法,建立多模态特征融合网络,用于识别视频中的实体关系图,网络输入包括视频、场景截图及场景名称和人物截图及人物名称,输出为对应场景和人物间的关系图;所述多模态特征融合网络的实现为:首先将输入视频根据场景、视觉和声音模型分为多个片段,每个片段为一个幕,并在每个幕中提取声音和文字特征作为幕特征,然后根据给定的场景截图和人物截图识别它们出现在各幕中的位置,并对场景和人物提取对应的实体特征,同时对每两个实体计算实体对特征,对于每个实体对,将幕特征、实体特征和实体对特征连接后,通过小样本学习结合零样本学习预测每幕实体对间的关系,合并视频每幕上的实体对关系,得到整个视频中的实体关系图作为网络输出。
进一步的,本发明包括以下步骤:
多模态特征融合网络的实现包括以下步骤:
1)采用多模态幕分割方法将输入的视频分割为多个片段,每个片段为一个幕,一个幕对应一个场景;
2)根据给定的场景截图,在步骤1)分割出的每个幕中采用SURF特征匹配将场景截图与帧进行匹配,各个幕选取匹配点总数最高的场景为幕所对应的场景,场景的轨迹在时间上为整个片段,在空间上是片段中每个帧的画面区域;
3)根据给定的人物截图,在步骤1)分割出的每个幕中采用人体跟踪方法和人脸检测识别方法进行人物的识别和跟踪,并且通过SURF特征匹配将人物截图与帧进行匹配作为人脸识别的补充,得到人物实体包围框及其在幕中的轨迹;
4)在步骤1)分割出的每个幕中对音频提取梅尔频率倒谱系数MFCC和对数梅尔能量LMFE特征,并计算MFCC特征和LMFE特征的一阶差分和二阶差分,得到每个幕的声音特征;
5)对输入视频自动生成字幕,并根据时间轴对应到步骤1)分割出的每个幕上,采用BERT网络生成幕的文字特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011038812.7/2.html,转载请声明来源钻瓜专利网。