[发明专利]一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法在审
申请号: | 201711131317.9 | 申请日: | 2017-11-15 |
公开(公告)号: | CN107818174A | 公开(公告)日: | 2018-03-20 |
发明(设计)人: | 庄越挺;赵洲;吴飞 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 视频 外表 动作 渐进 优化 注意力 网络 机制 解决 问答 方法 | ||
1.一种利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法,其特征在于包括如下步骤:
1)对于输入的视频及问题,训练出视频外表及动作上的渐进式优化注意力网络来获取问题相关的联合视频表达;
2)对于步骤1)所得到的问题相关的联合视频表达,利用神经网络获得视频相关问题答案,再与真实的答案进行比较,更新整个注意力网络的参数,得到最终的视频外表及动作上的渐进式优化注意力网络;
3)对于要预测答案的视频和问题,根据生成的视频外表及动作上的渐进式优化注意力网络,得到所预测的答案。
2.根据权利要求1所述利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法,其特征在于所述的步骤1)具体步骤为:
1.1)采用卷积神经网络提取视频的帧级别的外表特征及片段级别的动作特征,采用单词映射的方法利用嵌入层将问题单词映射到相应表达;
1.2)利用步骤1.1)找出的问题单词的映射表达,输入到LSTMq网络中,得到其隐藏层状态值
1.3)利用步骤1.1)找出的视频的帧级别的外表特征及片段级别的动作特征,问题单词的映射表达,与步骤1.2)找出的LSTMq网络的隐藏层状态值通过AMU网络,获取视频的混合表达。
3.根据权利要求2所述利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法,其特征在于所述的步骤1.1)具体为:
对于所给视频,使用预训练的VGG网络获取视频的帧级别的外表特征其中N代表视频中取样的帧数,上标a代表提取的为视频的外表表达,使用预训练的C3D网络获取视频的片段级别的动作特征其中N代表视频取样的分段数,且与取样的帧数相同,上标m代表提取的为视频的动作表达,对于所给问题Q,可以看作是一个单词序列Q=[q1,q2,...,qT],使用单词映射的方法利用嵌入层将单词qt映射到其语义表达xt。
4.根据权利要求2所述利用分层时空注意力编解码器网络机制来解决视频问答的方法,其特征在于所述的步骤1.3)具体为:
1.3.1)对于注意力模块ATT,输入问题单词的单词映射表达xt,视频的帧级别的外表特征或视频的片段级别的动作特征则注意力机制可以由如下公式指出:
ei=tanh(Wffi+bf)T tanh(Wxxt+bx)
其中,Wf与Wx为权重矩阵,用来将单词映射及视频特征转化到相同大小的潜在映射空间中;fi代指视频帧级别的外表特征或是视频片段级别的动作特征值,bf与bx为偏置向量;ai为最终求出的权重值,反映了当前单词与第i帧之间的相关程度;且将ATT1与ATT2所得到的所有ai构成及集合分别记为或之后可以按如下公式求得结合了问题单词信息的视频特征pt:
其中,pt包含结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征两者的计算方式相同,均为上述公式;
1.3.2)对于频道混合模块CF,原理如下,对于得到的特征pt,包含了结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征这两者被混合形成视频的过渡表达形式ut;由于问题中的单词可能与视频的外表及动作在不同程度上相关,频道混合模块CF使用当前问题单词的单词映射表达xt来确定对于这两种不同视频特征的权重值,并按如下公式进行混合:
其中,Wm为权重矩阵,bm为偏置矩阵,用于将输入的xt转化为二维的向量,分别分配两个维度值给与则最终的输出ut吸收了从视频外表与动作频道的信息并结合了当前问题的单词信息;
1.3.3)对于记忆模块LSTMa,首先将LSTMq网络的隐藏层状态值之前形成的视频表达vt-1,视频的综合表达ut相加,形成记忆模块LSTMa的输入,随后输入到LSTMa网络中,其隐藏层状态作为第二个注意力模块ATT2的输入,代替第一个注意力模块ATT1的xt的位置,之后得到ATT2模块的输出
1.3.4)对于优化模块REF,利用ATT1模块的输出与ATT2模块的输出来优化注意力值,优化模块REF的优化方法如下面的公式所示:
此处的fi代指视频的帧级别的外表特征及视频的片段级别的动作特征Wf为权重矩阵,bf为偏置矩阵,且Wf及bf与步骤1.3.1)中的Wf及bf相同,gt包含了视频外表信息所得的结果与视频的动作信息所得到的结果为LSTMq网络的隐藏层状态值,CF(.)为频道混合模块CF的操作,最终所得到的vt为视频在t时刻的最终混合表达结果;
则经过T个问题单词的处理之后,视频最终的混合表达为vT。
5.根据权利要求1所述利用分层时空注意力编解码器网络机制来解决视频问答的方法,其特征在于所述的步骤2)具体为:
对于步骤1.3.4)获得的视频最终的混合表达为vT,结合LSTMq网络中存储的问题记忆向量及AMU网络中存储的注意力历史信息采用如下的两种方法中的任一种获取视频问题的相关答案;
第一种方法为:预先准备一个已经预定义好的答案集合,答案生成器为一个简单的softmax分类器,答案按如下方式生成:
其中,Wc与Wg为权重矩阵,用于改变输出向量的维度;
第二种方法为:利用LSTMq网络中存储的问题记忆向量及AMU网络中存储的注意力历史信息初始化LSTM网络,并且优化后的视频的混合表达vT作为LSTM网络的第一个输入,之后逐渐按照如下公式来在所有单词构成的单词表中产生单词构成答案:
随后将生成的答案与训练数据中真实答案在相同位置的单词做比较,根据比较的差值更新注意力网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711131317.9/1.html,转载请声明来源钻瓜专利网。