[发明专利]一种基于图建模视觉信息的利用问题指导的视频问答方法有效
申请号: | 201911201018.7 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110990630B | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 高跃;陈自强;赵曦滨;万海 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/75;G06F16/787;G06F16/738;G06V10/774;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京律谱知识产权代理有限公司 11457 | 代理人: | 孙红颖 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 建模 视觉 信息 利用 问题 指导 视频 问答 方法 | ||
本申请公开了一种基于图建模视觉信息的利用问题指导的视频问答方法,包括:步骤1,获取训练视频的视觉特征和训练问题的问题特征,利用逐项积算法,计算时序注意力特征;步骤2,利用物体检测框架,计算训练视频的物体特征,并确定显式图建模特征;步骤3,利用时序注意力特征和显式图建模特征,进行第0维点乘运算,生成全局视频特征向量;步骤4,根据问题特征和全局视频特征向量,确定全局特征值,并根据全局特征值和训练问题对应的问题答案,更新显式图模型;步骤5,根据更新后的显式图模型,确定视频问题的问题答案。通过本申请中的技术方案,在时间和空间两个维度更加有效地挖掘视频信息,以提高视频问答任务的性能。
技术领域
本申请涉及视频问答的技术领域,具体而言,涉及一种基于图建模视觉信息的利用问题指导的视频问答方法。
背景技术
近年来,由于视觉问答(Visual Question Answering,VQA)在诸如教育、机器人、智能助理等领域的广泛使用,受到了研究者的广泛关注。视觉问答是指给定视觉的材料,如视频或图像,并给定自然语言描述的问题,要求能够根据视觉材料回答相应的问题。
视觉问答主要可以分为图像问答和视频问答两个领域。由于深度学习技术在图像语义理解上的巨大成功,许多模型在图像问答任务已经有着不错的表现。但是,另一方面,现有的视频问答的方法的表现仍然难以令人满意。这是由于相较于图像,视频增加了时序这一维度,导致神经网络除了需要在单帧图像的空间特征中寻找问题答案的线索之外,还需要在多帧图像的时序信息中找到线索。
对于视觉问答而言,由于需要同时处理视觉信息和自然语言信息,因此,如何将视觉和文字两种模态的信息有效融合起来亦是关键。在视频问答上,目前有使用诸如一维空间卷积或长短期记忆网络等时序注意力机制对多帧视觉特征进行融合的方法,但是缺少在时间和空间两个角度分别对视频进行建模的方法。
发明内容
本申请的目的在于:解决现有技术中的问题,为了克服现有技术中缺少同时从时间和空间两个维度分别使用问题信息指导神经网络进行视觉特征抽取的问题。本申请引入图建模的方式来建模单帧图像的空间信息,使用问题向量与视觉信息融合生成的特征,来指导神经网络在建模多帧图像的时序信息,从而在时间和空间两个维度更加有效地挖掘视频信息,并融合视频信息与问题信息,以提高视频问答任务的性能。
本申请的技术方案是:提供了一种基于图建模视觉信息的利用问题指导的视频问答方法,该方法包括:步骤1,获取训练视频的视觉特征V和训练问题的问题特征Q,利用逐项积算法,计算时序注意力特征Qt;步骤2,利用物体检测框架,计算训练视频的物体特征VB,根据物体特征VB建立显式图模型,并确定显式图建模特征VG;步骤3,利用时序注意力特征Qt和显式图建模特征VG,进行第0维点乘运算,生成全局视频特征向量VF;步骤4,根据问题特征Q和全局视频特征向量VF,确定全局特征值J,并根据所示全局特征值J和训练问题对应的问题答案,优化显式图模型的参数,根据优化后的参数,更新显式图模型;步骤5,根据更新后的显式图模型,分析待识别视频,确定视频问题的问题答案。
上述任一项技术方案中,进一步地,步骤1中,具体包括:步骤11,将视觉特征V的维度扩展为Tx300维,计算问题特征Q与视觉特征V进行逐项积,并通过Softmax分类器计算问题权重Qw;步骤12,将问题权重Qw和问题特征Q进行逐项积运算,得到时序注意力特征Qt。
上述任一项技术方案中,进一步地,问题权重Qw的计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911201018.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:激光雷达测风距离门的自动调节方法
- 下一篇:显示面板和显示装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置