[发明专利]一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法在审

申请号：	201711131317.9	申请日：	2017-11-15
公开（公告）号：	CN107818174A	公开（公告）日：	2018-03-20
发明（设计）人：	庄越挺;赵洲;吴飞	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/62
代理公司：	杭州求是专利事务所有限公司33200	代理人：	郑海峰
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种利用视频外表动作渐进优化注意力网络机制解决问答方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法，其特征在于包括如下步骤：

1)对于输入的视频及问题，训练出视频外表及动作上的渐进式优化注意力网络来获取问题相关的联合视频表达；

2)对于步骤1)所得到的问题相关的联合视频表达，利用神经网络获得视频相关问题答案，再与真实的答案进行比较，更新整个注意力网络的参数，得到最终的视频外表及动作上的渐进式优化注意力网络；

3)对于要预测答案的视频和问题，根据生成的视频外表及动作上的渐进式优化注意力网络，得到所预测的答案。

2.根据权利要求1所述利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法，其特征在于所述的步骤1)具体步骤为:

1.1)采用卷积神经网络提取视频的帧级别的外表特征及片段级别的动作特征，采用单词映射的方法利用嵌入层将问题单词映射到相应表达；

1.2)利用步骤1.1)找出的问题单词的映射表达，输入到LSTM_q网络中，得到其隐藏层状态值

1.3)利用步骤1.1)找出的视频的帧级别的外表特征及片段级别的动作特征，问题单词的映射表达，与步骤1.2)找出的LSTM_q网络的隐藏层状态值通过AMU网络，获取视频的混合表达。

3.根据权利要求2所述利用视频外表及动作上的渐进式优化注意力网络机制来解决视频问答的方法，其特征在于所述的步骤1.1)具体为：

对于所给视频，使用预训练的VGG网络获取视频的帧级别的外表特征其中N代表视频中取样的帧数，上标a代表提取的为视频的外表表达，使用预训练的C3D网络获取视频的片段级别的动作特征其中N代表视频取样的分段数，且与取样的帧数相同，上标m代表提取的为视频的动作表达，对于所给问题Q，可以看作是一个单词序列Q＝[q₁,q₂,...,q_T]，使用单词映射的方法利用嵌入层将单词q_t映射到其语义表达x_t。

4.根据权利要求2所述利用分层时空注意力编解码器网络机制来解决视频问答的方法，其特征在于所述的步骤1.3)具体为：

1.3.1)对于注意力模块ATT，输入问题单词的单词映射表达x_t，视频的帧级别的外表特征或视频的片段级别的动作特征则注意力机制可以由如下公式指出：

e_i＝tanh(W_ff_i+b_f)^T tanh(W_xx_t+b_x)

ai=exp(ei)Σi=1Nexp(ei)]]>

其中，W_f与W_x为权重矩阵，用来将单词映射及视频特征转化到相同大小的潜在映射空间中；f_i代指视频帧级别的外表特征或是视频片段级别的动作特征值，b_f与b_x为偏置向量；a_i为最终求出的权重值，反映了当前单词与第i帧之间的相关程度；且将ATT₁与ATT₂所得到的所有a_i构成及集合分别记为或之后可以按如下公式求得结合了问题单词信息的视频特征p_t：

pt=Σi=1Naitanh(Wffi+bf)]]>

其中，p_t包含结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征两者的计算方式相同，均为上述公式；

1.3.2)对于频道混合模块CF，原理如下，对于得到的特征p_t，包含了结合了问题单词信息的视频外表特征与结合了问题单词信息的视频动作特征这两者被混合形成视频的过渡表达形式u_t；由于问题中的单词可能与视频的外表及动作在不同程度上相关，频道混合模块CF使用当前问题单词的单词映射表达x_t来确定对于这两种不同视频特征的权重值，并按如下公式进行混合：

sta,stm=soft max(Wmxt+bm)]]>

ut=stapta+stmptm]]>

其中，W_m为权重矩阵，b_m为偏置矩阵，用于将输入的x_t转化为二维的向量，分别分配两个维度值给与则最终的输出u_t吸收了从视频外表与动作频道的信息并结合了当前问题的单词信息；

1.3.3)对于记忆模块LSTM_a，首先将LSTM_q网络的隐藏层状态值之前形成的视频表达v_t-1，视频的综合表达u_t相加，形成记忆模块LSTM_a的输入，随后输入到LSTM_a网络中，其隐藏层状态作为第二个注意力模块ATT₂的输入，代替第一个注意力模块ATT₁的x_t的位置，之后得到ATT₂模块的输出

1.3.4)对于优化模块REF，利用ATT₁模块的输出与ATT₂模块的输出来优化注意力值，优化模块REF的优化方法如下面的公式所示：

at=(at1+at2)/2]]>

gt=Σi=1Natitanh(Wffi+bf)]]>

vt=CF(htq,gt)]]>

此处的f_i代指视频的帧级别的外表特征及视频的片段级别的动作特征W_f为权重矩阵，b_f为偏置矩阵，且W_f及b_f与步骤1.3.1)中的W_f及b_f相同，g_t包含了视频外表信息所得的结果与视频的动作信息所得到的结果为LSTM_q网络的隐藏层状态值，CF(.)为频道混合模块CF的操作，最终所得到的v_t为视频在t时刻的最终混合表达结果；

则经过T个问题单词的处理之后，视频最终的混合表达为v_T。

5.根据权利要求1所述利用分层时空注意力编解码器网络机制来解决视频问答的方法，其特征在于所述的步骤2)具体为：

对于步骤1.3.4)获得的视频最终的混合表达为v_T，结合LSTM_q网络中存储的问题记忆向量及AMU网络中存储的注意力历史信息采用如下的两种方法中的任一种获取视频问题的相关答案；

第一种方法为：预先准备一个已经预定义好的答案集合，答案生成器为一个简单的softmax分类器，答案按如下方式生成：

answer=arg max soft max(Wg(WccTq·cTa·vT))]]>