[发明专利]一种基于多模态融合的视频常识性知识推理实现方法在审

申请号：	202110954600.1	申请日：	2021-08-19
公开（公告）号：	CN113869324A	公开（公告）日：	2021-12-31
发明（设计）人：	方跃坚;梁健;余伟江	申请（专利权）人：	北京大学
主分类号：	G06K9/46	分类号：	G06K9/46;G06K9/62;G06N3/04;G06N3/08;G06N5/04
代理公司：	北京君尚知识产权代理有限公司 11200	代理人：	司立彬
地址：	100871 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多模态融合视频常识性知识推理实现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多模态融合的视频常识性知识推理实现方法，其步骤包括：1)对输入视频分别提取帧内空间特征V_i、帧间时序特征V_t以及声音特征V_s；2)将帧内空间特征V_i、帧间时序特征V_t以及声音特征V_s进行融合，得到该输入视频的多模态的视频特征V_E；3)对该输入视频的描述性文本进行特征抽取，得到语言特征C_cap，并将视频特征V_E和语言特征C_cap进行融合，得到上下文特征[V_E，C_cap]；4)将所述上下文特征[V_E，C_cap]输入常识推理解码器得到答案的概率分布，然后根据所得答案的概率分布预测该输入视频的常识性知识文本序列。本发明所得结果拥有更高的预测精度和可解释性。

技术领域

本发明涉及计算机视觉、自然语言处理技术领域，特别是涉及一种利用多头注意力机制融合视频多模态信息，执行词语级别和语义级别的常识性知识推理实现方法。

背景技术

视频理解是计算机视觉领域和自然语言处理领域相结合的一个交叉技术，是指利用计算机表达视频帧输入序列，对视频序列中包含的时间信息和空间信息进行数学建模，以达到深入分析视频内容的目的。其中视频描述(video captioning)就是在视频理解的基础上，利用机器模型对视频包含的信息进行深度挖掘和分析理解，然后将机器模型输出自然语言称为对视频的描述。

近期，对视频常识性知识推理研究的关注度逐渐提升，因为它为视频和语言提供了更深层次的底层关联，从而促进了更高级别的视觉语言推理。其中“Video2Commonsense”任务旨在给定一段视频，生成视频描述，以及三种类型的常识知识，包括属性(attribute)、意图(intention)与结果(effect)。但当前研究的视频理解模型存在如下问题：1)采用独立的模块对不同的知识进行建模，这是违反常识和直觉的，无法桥接多种常识信息间的隐式关联，并具有大量冗余参数；2)忽视常识性知识的内在逻辑闭环，导致缺乏推理能力，无法应对复杂视频的语义解释，难以实现视频常识性知识的推理。

发明内容

为克服上述现有技术的不足，本发明之目的在于提供一种基于多模态融合的视频常识性知识推理实现方法，通过设计一种基于多头注意力机制的混合推理网络，共同在视频内容上执行词语级(word-level)推理和语义级(semantic-level)推理，形成一个逻辑闭环，共享知识，拥有更高的预测精度和可解释性。

为达上述及其它目的，本发明提出一种基于多模态融合的视频常识信息推理方法，所述技术方案如下：基于多头注意力机制设计一种混合推理网络框架(HybridNet)，包括摘要解码器，常识解码器(属性、结果与意图解码器)，执行词语级(word-level)推理和语义级(semantic-level)推理；融合视频多模态信息，包括视频静态帧信息(利用ResNet152提取)、动态时序信息(利用I3D提取)以及声音信息(利用SoundNet提取)；针对词语级推理，引入一种特殊设计的记忆模块(MMHA)，通过对历史信息分析出的注意力图，动态并入多头注意力的映射，实现词语级别的预测；关于语义级推理，采用多个常识性知识共同学习，其中不同常识信息通过隐式的跨语义学习，形成一个逻辑闭环，共享知识。

所述视频常识性知识推理实现方法包括以下主要步骤：

步骤S1，对输入视频分别提取帧内空间特征V_i、帧间时序特征V_t以及声音特征V_s；

步骤S2，将步骤S1的三种视频特征进行融合，得到多模态的视频特征向量V_E；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110954600.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种载货汽车油箱用高强度铝板材及其生产方法
下一篇：磁悬浮泵、具有其的制冷设备和空调室外机

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多模态融合的视频常识性知识推理实现方法在审

专利文献下载