[发明专利]一种基于弱监督双流视觉语言交互的答案定位方法及装置在审
| 申请号: | 202310067972.1 | 申请日: | 2023-02-06 | 
| 公开(公告)号: | CN116010578A | 公开(公告)日: | 2023-04-25 | 
| 发明(设计)人: | 朱鹏飞;刘轶;陈冠林;胡清华 | 申请(专利权)人: | 天津大学 | 
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/583;G06F18/25;G06F18/24;G06F18/214;G06V10/40;G06V10/82;G06N3/0455;G06N3/0464;G06N3/0499;G06N3/0895 | 
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 | 
| 地址: | 300072*** | 国省代码: | 天津;12 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 监督 双流 视觉 语言 交互 答案 定位 方法 装置 | ||
本发明公开了一种基于弱监督双流视觉语言交互的答案定位方法及装置,方法包括:通过基于语言的视觉解码器对视觉联级特征和自然语言特征分别进行线性映射,通过多模态融合使文本特征向视觉联级特征对齐,生成最终的答案定位图;通过答案解码器对关注的视觉特征与问题特征进行最终融合,生成联合嵌入,通过分类器从答案集中预测正确答案;通过在双流语言视觉问答定位中引入弱监督学习,让模型学习自身生成的伪标签,来补充真实数据的缺失;根据正确答案和答案定位图,用于残障人士识别图像中的信息。装置包括:处理器和存储器。
技术领域
本发明涉及多模态技术领域,尤其涉及一种基于弱监督双流视觉语言交互的答案定位方法及装置。
背景技术
视觉问答(VQA,Visual Question Answer)旨在回答关于图像的问题并提供自然语言答案,例如为视障人士解答有关图像的问题。为了提升视觉问答的效果,近期的研究开始评估图像上答案区域的交并比,因为回答问题所用的图像区域对视觉问答也很重要。现有工作通常通过视觉问答模块的注意力图来获得答案定位,并评估模型是否正确关注与答案相关的区域对象。这项任务通常称为视觉问答定位(Visual Question Answergrounding),跨越了视觉语言多模态多任务。通过这项技术,残障人士可以通过手机识别图像中的信息,并将重点信息突出显示,同时保护隐私。
视觉问答定位作为视觉问答在视觉证据上的扩展,其在多模态信息以外,还包含了空间信息。视觉问答是给定的图像和与之相对应的自然语言问题,模型给出回答。而视觉问答定位除了需要给出准确的答案以外,还需要给出答案相对应在图像上的证据区域。这就要求模型定位相关图像区域并回答视觉问题。与视觉问答相比,视觉问答定位面临着诸多的问题和挑战。例如:视觉-语言多模态特征如何表示,视觉-语言多模态如何进行交互,特征该如何流入特定的下游任务,多任务之间该如何平衡。
为了获得良好的视觉问答定位精度,该领域中的大多数方法都依赖于来自对象检测模型的输入特征图,通过预设好的相关对象类进行预处理。Mac-Caps首次提出了一种具有基于查询的胶囊特征选择机制的视觉胶囊模块,这使得模型能够基于问题中视觉信息的文本线索来关注相关区域,预测与正确答案相关对象的背景真相边界框。此外,Khan AU利用胶囊网络,使用视觉编码器中每个视觉标记分组。并以语言自我关注层的激活作为文本引导,使用选择模块来选择胶囊,并在将胶囊转发到下一层之前屏蔽这些胶囊。
然而,到目前为止,大多数方法都是在视觉问答方法的注意力或梯度图的基础上,利用胶囊网络来实现弱监督答案定位,这样的方法虽然有效,但完全会忽略空间关系;同时,数据标签缺乏的问题也很严重,只有少数真实世界数据集提供定位标签,这使这项任务具有挑战性。
发明内容
本发明提供了一种基于弱监督双流视觉语言交互的答案定位方法及装置,本发明是一种新的端到端统一框架,具有视觉问答和答案定位能力,能帮助残障人士识别图像中的信息,同时做到强调重点和保护隐私,详见下文描述:
一种基于弱监督双流视觉语言交互的答案定位方法,所述方法包括:
通过基于视觉的语言编码器对视觉特征和自然语言特征分别进行线性映射,将映射后的视觉特征和自然语言特征进行多模态融合,使视觉特征向文本特征对齐;
通过基于语言的视觉解码器对视觉联级特征和自然语言特征分别进行线性映射,通过多模态融合使文本特征向视觉联级特征对齐,生成最终的答案定位图;
通过答案解码器对关注的视觉特征与问题特征进行最终融合,生成联合嵌入,通过分类器从答案集中预测正确答案;
通过在双流语言视觉问答定位中引入弱监督学习,让模型学习自身生成的伪标签,来补充真实数据的缺失;
根据正确答案和答案定位图,用于残障人士识别图像中的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310067972.1/2.html,转载请声明来源钻瓜专利网。





