[发明专利]一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法在审
申请号: | 201711131317.9 | 申请日: | 2017-11-15 |
公开(公告)号: | CN107818174A | 公开(公告)日: | 2018-03-20 |
发明(设计)人: | 庄越挺;赵洲;吴飞 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 视频 外表 动作 渐进 优化 注意力 网络 机制 解决 问答 方法 | ||
技术领域
本发明涉及视频问答答案生成,尤其涉及一种利用视频外表及动作上的渐进式优化注意力网络来生成与视频相关的问题的答案的方法。
背景技术
视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。
现有的技术主要是针对于静态图像生成相关问题的答案,虽然目前的技术针对于静态图像问答,可以取得很好的表现结果。但是由于视频中信息的复杂性与多样性的特点,简单地把针对于图片的问答技术拓展到视频问答任务中不是十分恰当的。
本发明将使用一种原创的注意力机制来挖掘视频中的外表及动作信息。更为准确地说,本发明提出了一种端对端的模型,该模型可以在问题作为指导的前提下,逐渐利用视频中的外表及动作特征来改善其注意力网络。问题被逐词进行处理直到模型生成了最终的优化注意力模型。最终,视频的权重表达及其他的上下文信息被用来生成最后的答案。
本方法将先利用VGG网络与C3D网络分别提取视频的外表及动作信息。之后逐词分析问题,并且逐渐优化这些特征上的注意力值。在问题的最后一个单词被处理过之后,模型针对于视频形成了最终的优化注意力模型,该模型的注意力值设定对于回答该特定问题是最相关的。之后该模型利用该注意力机制混合外表及动作特征并且提取出视频的最终表达。之后利用该视频的最终表达结合如问题信息及注意力机制历史信息形成最终的答案。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中缺少对于视频信息的复杂性与多样性的问题,且针对于视频中经常包含对象物品的外表及其移动信息,本发明提供一种利用视频外表及动作上的渐进式优化注意力网络来生成与视频相关的问题的答案的方法。本发明所采用的具体技术方案是:
利用视频外表及动作上的渐进式优化注意力网络来解决开放式视频问答问题,包含如下步骤:
1、针对于一组视频、问题、答案训练集,通过VGG网络提取视频帧级别的外表特征,通过C3D网络提取视频片段级别的动作特征,通过词嵌入的方法逐词处理问题,将问题的单词转化为对应的语义映射。
2、将问题的单词的语义映射输入到LSTM网络中,之后将LSTM网络的输出及问题单词的语义映射输入到注意力记忆单元(AMU)中来形成并调整视频外表及动作特征上的注意力值,并最终生成视频优化后的表达。
3、利用学习得到的视频表达,获取针对于视频所问问题的答案。
上述步骤可具体采用如下实现方式:
1、对于所给视频,使用预训练的VGG网络获取视频的帧级别的外表特征其中N代表视频中取样的帧数,上标a代表提取的为视频的外表表达,使用预训练的C3D网络获取视频的片段级别的动作特征其中N代表视频取样的分段数,且与取样的帧数相同,上标m代表提取的为视频的动作表达,对于所给问题Q,可以看作是一个单词序列Q=[q1,q2,...,qT],使用单词映射的方法利用嵌入层将单词qt映射到其语义表达xt。
2、将问题单词所得到的单词映射xt输入到LSTMq这个网络中,认为LSTMq这个网络的隐藏层中记录了已经处理的问题部分的历史信息。之后将单词映射xt与LSTMq网络的隐藏层状态值输入到AMU网络中来优化视频外表及动作上的注意力网络。
3、对于AMU网络,其使用当前单词的映射值,LSTMq网络的隐藏层中存储的问题信息及视频的外表及动作特征作为输入,之后执行一定的步骤来优化视频特征的注意力网络。在AMU 网络中主要有4个操作模块,分别为注意力模块ATT,频道混合模块CF,记忆模块LSTMa,优化模块REF。这四个模块与一些转化操作一起,构成了本发明提出的模型的逐渐优化注意力网络机制。下面对于本发明中AMU网络的注意力优化机制进行概述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711131317.9/2.html,转载请声明来源钻瓜专利网。