[发明专利]一种基于多模态融合的视频常识性知识推理实现方法在审
申请号: | 202110954600.1 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113869324A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 方跃坚;梁健;余伟江 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 融合 视频 常识 性知识 推理 实现 方法 | ||
本发明公开了一种基于多模态融合的视频常识性知识推理实现方法,其步骤包括:1)对输入视频分别提取帧内空间特征Vi、帧间时序特征Vt以及声音特征Vs;2)将帧内空间特征Vi、帧间时序特征Vt以及声音特征Vs进行融合,得到该输入视频的多模态的视频特征VE;3)对该输入视频的描述性文本进行特征抽取,得到语言特征Ccap,并将视频特征VE和语言特征Ccap进行融合,得到上下文特征[VE,Ccap];4)将所述上下文特征[VE,Ccap]输入常识推理解码器得到答案的概率分布,然后根据所得答案的概率分布预测该输入视频的常识性知识文本序列。本发明所得结果拥有更高的预测精度和可解释性。
技术领域
本发明涉及计算机视觉、自然语言处理技术领域,特别是涉及一种利用多头注意力机制融合视频多模态信息,执行词语级别和语义级别的常识性知识推理实现方法。
背景技术
视频理解是计算机视觉领域和自然语言处理领域相结合的一个交叉技术,是指利用计算机表达视频帧输入序列,对视频序列中包含的时间信息和空间信息进行数学建模,以达到深入分析视频内容的目的。其中视频描述(video captioning)就是在视频理解的基础上,利用机器模型对视频包含的信息进行深度挖掘和分析理解,然后将机器模型输出自然语言称为对视频的描述。
近期,对视频常识性知识推理研究的关注度逐渐提升,因为它为视频和语言提供了更深层次的底层关联,从而促进了更高级别的视觉语言推理。其中“Video2Commonsense”任务旨在给定一段视频,生成视频描述,以及三种类型的常识知识,包括属性(attribute)、意图(intention)与结果(effect)。但当前研究的视频理解模型存在如下问题:1)采用独立的模块对不同的知识进行建模,这是违反常识和直觉的,无法桥接多种常识信息间的隐式关联,并具有大量冗余参数;2)忽视常识性知识的内在逻辑闭环,导致缺乏推理能力,无法应对复杂视频的语义解释,难以实现视频常识性知识的推理。
发明内容
为克服上述现有技术的不足,本发明之目的在于提供一种基于多模态融合的视频常识性知识推理实现方法,通过设计一种基于多头注意力机制的混合推理网络,共同在视频内容上执行词语级(word-level)推理和语义级(semantic-level)推理,形成一个逻辑闭环,共享知识,拥有更高的预测精度和可解释性。
为达上述及其它目的,本发明提出一种基于多模态融合的视频常识信息推理方法,所述技术方案如下:基于多头注意力机制设计一种混合推理网络框架(HybridNet),包括摘要解码器,常识解码器(属性、结果与意图解码器),执行词语级(word-level)推理和语义级(semantic-level)推理;融合视频多模态信息,包括视频静态帧信息(利用ResNet152提取)、动态时序信息(利用I3D提取)以及声音信息(利用SoundNet提取);针对词语级推理,引入一种特殊设计的记忆模块(MMHA),通过对历史信息分析出的注意力图,动态并入多头注意力的映射,实现词语级别的预测;关于语义级推理,采用多个常识性知识共同学习,其中不同常识信息通过隐式的跨语义学习,形成一个逻辑闭环,共享知识。
所述视频常识性知识推理实现方法包括以下主要步骤:
步骤S1,对输入视频分别提取帧内空间特征Vi、帧间时序特征Vt以及声音特征Vs;
步骤S2,将步骤S1的三种视频特征进行融合,得到多模态的视频特征向量VE;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110954600.1/2.html,转载请声明来源钻瓜专利网。