[发明专利]基于动态注意力的超网络融合视觉问答答案准确性的方法在审
| 申请号: | 202110182159.X | 申请日: | 2021-02-09 |
| 公开(公告)号: | CN112818889A | 公开(公告)日: | 2021-05-18 |
| 发明(设计)人: | 尹宝才;王家普;胡永利;孙艳丰;王博岳 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/46;G06K9/62;G06F16/332;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 动态 注意力 网络 融合 视觉 问答 答案 准确性 方法 | ||
本发明公开了基于动态注意力的超网络融合视觉问答答案准确性的方法,先提取图像中两两物体之间的关系特征。通过进行关系特征的向量表示和问题文本的向量表示的余弦相似度的操作来动态的选取和问题文本相关的关系特征,并将余弦相似度分数排在前三的关系特征被选取为最为相关的关系特征;为了使视觉图片和问题文本中提取的特征融合的更加充分,提用基于超网络的卷积融合方式。利用融合图像‑问题特征学习多分类的分类器,以正确预测最佳匹配答案。使特征融合更加充分,能够使两模态之间进行深层次的交互,进一步促进视觉问答技术的准确性能的提升。
技术领域
本发明针对视觉问答模型表达能力差的问题,提出了一种基于动态注意力的超网络融合视觉问答研究来提升视觉问答答案准确性的方法。属于计算机视觉领域,具体涉及深度学习,特征提取,特征融合等技术。
背景技术
视觉问答(Visual QuestionAnswering,VQA)是近年来兴起的研究方向之一,其横跨计算机视觉与自然语言处理两大领域,旨在让计算机理解图像内容后根据自然语言输入的查询进行自动回答,是跨模态表达与交互方向上的研究热点问题,并吸引了研究人员的广泛关注。在实际应用中,例如苹果的Siri,微软的Cortana、亚马逊的Alexa等都基于视觉问答技术的发展。甚至随着可穿戴智能硬件(如Goole glasses和微软的HoloLens)以及增强现实技术的快速发展,在不久的将来,基于视觉感知的视觉问答系统可能会成为人机交互的一种重要方式,改变人们当前的交流模式。这项技术的发展可以帮助,尤其是那些有视觉障碍的的残障人士更好的感知和理解真实世界。
近年来,深度学习迅速发展并在各个研究领域上都取得了惊人的成果。使用不同架构的深度神经网络在计算机视觉、自然语言处理以及语音识别等方面都取得了目前最好的结果。这些方法可以分为两类:即基于注意力机制的VQA模型和基于经典融合策略的VQA模型。
(1)基于注意力机制的VQA模型
基于注意的VQA模型由于其优越的性能,得到了最广泛的研究。它们专注于在输入特征中定位相关对象,例如边界框或图像区域。
ABC-CNN模型在2015年提出一步注意定位图像的相关对象,SAN模型在2016提出多步注意更新图像的相关对象并逐步推断答案。除此之外,2017年提出多模态注意力,即不仅找到图像目标间的相关性,同时也找到图像和问题间的相关性。最近,一些研究者提出利用双线性模型来定位更精确的目标。
(2)基于经典融合策略的VQA模型
注意机制需要融合来计算注意分布。因此,融合程度对注意机制的质量有很大的影响。
现有的注意力融合模型可分为线性模型和双线性模型。首先,采用线性模型融合图像和问题特征元素。2016年使用对应元素求和融合图像和问题特征元素,2017年提出使用对应元素乘法来融合图像和问题特征元素。近年来,双线性模型被用来对图像特征和问题特征元素进行更细粒度的融合建模。MCB模型在2016年提出使用外积融合图像和问题特征元素,但导致尺寸爆炸问题。为了解决这个问题,2017年Kim等人在图像和问题特征的低秩投影之后使用了元素级乘法。
之前的方法虽然已经取得了很好的性能,但它不能很好的利用图像物体间的关系和问题文本主谓语之间的关联特性。因此,本发明在基于视觉问答的基本框架,即对图像的特征提取与对文本的的特征提取,也就是对文本和视觉图像进行理解的过程,以及两特征融合过程,也就是对两理解之后的内容进行交互的过程。这一框架来源于对人类理解外界事物的过程。在该基本框架之下,本发明通过引入图像里物体特征之间的关系来进行对图像的进一步理解,以及引入更有利于内容交互的特征融合手段来对传统视觉问答技术性能进行提升。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110182159.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:斗式提升机防护结构
- 下一篇:一种前驱动履带拖拉机





