[发明专利]一种基于动作捕捉的注意力网络的视频问答方法在审
申请号: | 202110692149.0 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113536952A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 杨阳;杨双吉;彭亮;王国庆 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06F16/732;G06F16/75;G06F16/783 |
代理公司: | 四川鼎韬律师事务所 51332 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动作 捕捉 注意力 网络 视频 问答 方法 | ||
本发明公开了一种基于动作捕捉的注意力网络的视频问答方法,先提取将待处理视频和待处理的提问的特征,然后基于这些特征,通过物体动作注意力机制提取动作信息,通过物体关系注意力机制提取待处理视频的全局物体关系信息,通过全局动作注意力机制提取待处理视频的全局动作信息;接着对三种注意力机制下提取的信息进行融合,提取整个视频的全局特征向量;最后基于全局特征向量根据提问的格式输出不同类型答案。
技术领域
本发明属于视频问答技术领域,更为具体地讲,涉及一种基于动作捕捉的注意力网络的视频问答方法。
背景技术
视频问答(Video Question Answering,Video QA)的主要目标是:输入任意的一个视频和一个对于该视频内容的提问,模型能通过对多模态输入的理解和推理,自动找出问题的答案。解决这个任务的典型方法是先用一个循环神经网络(RNN)处理问题文本,得到问题的特征向量;同时用一个卷积神经网络(CNN)逐帧处理输入视频,得到视频的特征向量;最后将两个模态的特征进行融合,并通过输出模块得到最终预测的答案。
现有的一些方法使用视觉或文本注意机制,帮助模型能更精准地关注到视频中的关键帧或问题中的关键单词。其次,为了给模型提供一些额外的知识,另一些方法利用了视频物体中的外部数据(如百科信息),它提供了关于该物体的一些常识信息,从而帮助提升回答问题的准确率。还有一些方法对视频帧中的物体关系进行建模,捕捉物体间关系在时间上的演变情况,从而使模型对输入能有更全面、更深层次的理解。
然而在视频帧的层面(粗粒度),现有方法通常对帧的整体变化进行建模,由于视频帧中可能包含多个物体而往往只有少量物体与提问有关,所以这是一种粗粒度的方法,它的识别精确度有限;其次,在视频帧中的物体层面(细粒度),现有的方法通常对同一帧的物体间的关系进行建模,并捕捉这种交互关系的动态变化情况。但是它们忽略了物体自身的动作变化情况,这对于回答问题同样十分关键。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于动作捕捉的注意力网络的视频问答方法,通过设计一个基于动作捕捉的注意力网络(MAAN),能够同时在细粒度和粗粒度层面捕捉视频中所有物体自身的动作改变情况,并结合提问得到预测的答案。
为实现上述发明目的,本发明一种基于动作捕捉的注意力网络的视频问答方法,其特征在于,包括以下步骤:
(1)、特征提取
(1.1)、将待处理视频输入至Faster RCNN网络中,提取出每一视频帧中物体的特征,其中,第j帧中第k个物体的特征记为vj,k,j=1,2…,N,k=1,2,…,K,N表示视频的总帧数,K表示每帧画面提取的物体个数;
(1.2)、将待处理视频分割成多个视频片段,然后将每一个视频片段输入至ResNeXt网络,提取出每一个视频片段的特征,记为vi,i=1,2,…,C,C为待处理视频被分割成视频片段的数量;
(1.3)、将待处理的提问先后经过Bi_LSTM网络和自注意力机制的处理,提取出提问的特征,记为q;
(2)、基于物体动作注意力机制提取动作信息u;
(2.1)、通过双向Bi_LSTM网络提取物体的动作信息uj,k;
uj,k=Bi_LSTM(vj,k)
(2.2)、使用物体动作注意力机制对不同时刻的特征进行加权,得到当前物体k在整个视频内的全局动作信息uk;
βj,k=softmax(W1uj,k+W2q)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110692149.0/2.html,转载请声明来源钻瓜专利网。