[发明专利]一种基于语法分析树上注意力机制的深度学习视频问答方法及系统有效

专利信息
申请号: 201810201163.4 申请日: 2018-03-12
公开(公告)号: CN108549658B 公开(公告)日: 2021-11-30
发明(设计)人: 薛弘扬;蔡登;赵洲 申请(专利权)人: 浙江大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/783
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 马士林
地址: 310013 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语法分析 树上 注意力 机制 深度 学习 视频 问答 方法 系统
【说明书】:

发明公开了一种基于语法分析树上注意力机制的深度学习视频问答方法及系统,包括以下步骤:(1)对输入的视频序列进行采样,得到一系列视频帧,然后用预训练的卷积神经网络抽取并保存每帧视频的特征;(2)对输入的自然语言问句,利用语法树分析工具建立语法树;(3)根据语法树的结构,确定深度神经网络的结构;(4)对深度神经网络进行自底向上的计算得到最终的输出结果;(5)将建立的深度神经网络在数据集上进行训练;(6)利用训练好的模型,按步骤1至4输入数据得到输出结果,在答案库中选择问题的答案作为输出。利用本发明可以大大提高视频问答结果的准确率,尤其可以提升在复杂及较长问句上的结果。

技术领域

本发明涉及计算机视觉和自然语言处理领域,具体涉及一种基于语法分析树上注意力机制的深度学习视频问答方法及系统。

背景技术

一直以来,计算机视觉是人工智能研究的重要方向之一。计算机视觉的终极目标是赋予计算机理解视觉信息的能力。相比于物体检测、识别,图像分割等任务,视频问答更加接近于理解视觉信息的本质。给定一段视频和一个自然语言问句,视频问答的任务是要结合这个问句和视频信息,给出问题的答案。视频问答不仅仅是通往视觉信息理解的一条重要道路,同时也在实际中有着许多重要的应用,比如应用于智能机器人与人的交互,帮助残障人士,早期教育等等。

最早的视觉问答系统,对视觉信息和自然语言问句采用独立编码的方式进行特征提取。ICCV2015年会议论文集,Vqa:Visual question answering,2425-2433页公开了一种独立编码视觉和自然语言特征,然后融合两者进行答案选择的方法——LSTM Q+norm I。该方法采用卷积神经网络提取图片特征,同时利用LSTM网络计算自然语言问句的特征,然后将两种特征拼接,最后使用全连层计算最终结果。之后出现的视觉问答方法,大多侧重于如何更好地处理视觉信息。为此,许多基于注意力机制的方法被发明出来,并且取得了显著的效果,成为了解决这类问题的主流的思路。注意力机制的本质是对输入的自然语言问句进行编码,然后在大范围的时间和空间上,摒弃大量无用的视觉信息,找到和问句相关并且对回答最有帮助的时空范围。CVPR 2016年会议论文集,Stacked attention networks forimage question answering,21-29页公开了一种针对图像的空间注意力机制。空间注意力机制将图像分划为若干区域,然后通过注意力层计算问句在不同区域上的注意力分布,得到最后的融合特征,再解码得到答案。后来,随着视觉问答系统开始考虑更加复杂的视频,研究者们将空间上的注意力机制扩展到了时间上,即计算问句在时间轴上的注意力分布。与此同时,各种各样的注意力机制也被提出来,但这些方法几乎没有考虑自然语言本身的复杂性,基本上都将整个自然语言语句视作整体。

AAAI2017年会议论文,Leveraging Video Descriptions to Learn VideoQuestion Answering,4334-4340页公开了一种基于时间注意力机制的方法E-SA和一种基于序列到序列学习的方法E-SS。其中E-SS先对视频帧和自然语言语句视作一个序列,按顺序用一个LSTM网络进行编码,随后直接解码得到答案。E-SA方法则加入了时间注意力机制,问句依然采用LSTM编码,但对问句的每个单词都需计算其在视频帧上的注意力权值分布,然后计算加权特征,最后再作为LSTM的输入。虽然E-SA方法对语句的考虑深入到了单词级别,然而更为重要的信息——语句的语法结构,依然没有被考虑。

在自然语言处理领域,许多时候,语句的语法结构被证明为更加有效,比如处理语句的情感分析等等问题。而之前视频问答的这些注意力机制,如E-SA方法,全都建立在线性结构的语句模型上,语句蕴含的大量结构信息没有被有效的利用。而在句子较长时,线性结构的有效性将急剧下降。与此同时,有些单词并没有视觉意义,它们仅仅是语言结构的一部分,因此不应该计算其在视觉空间上的注意力分布。现有的方法,如E-SA,也没有对这些单词加以区分。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810201163.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top