[发明专利]一种基于文本的文本视觉问答系统及方法在审

专利信息
申请号: 202011298327.3 申请日: 2020-11-18
公开(公告)号: CN112507727A 公开(公告)日: 2021-03-16
发明(设计)人: 周芳;殷蓓;晋赞霞 申请(专利权)人: 北京科技大学
主分类号: G06F40/35 分类号: G06F40/35;G06K9/20
代理公司: 北京金智普华知识产权代理有限公司 11401 代理人: 皋吉甫
地址: 100083*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 视觉 问答 系统 方法
【说明书】:

发明提供了一种基于文本的文本视觉问答系统及方法,涉及计算机视觉技术领域,能够有效地挖掘出文本的上下文信息,提取出文本与目标之间的稳定关系,添加正确的文本信息,有效的提高其准确率;该系统包括:阅读组件,用于提取图片中的文本信息和物体目标信息,并与待回答问题相结合选择出所需要的文本信息和物体目标信息;理解组件,用于对阅读组件选择出的文本信息、物体目标信息和待回答问题进行理解,并推理出各文本信息和各物体目标信息之间的关系;和答案选择组件,根据理解组件推理出的关系从候选答案中选择出与待回答问题匹配度最高的答案。本发明提供的技术方案适用于文本视觉问答的过程中。

【技术领域】

本发明涉及计算机视觉技术领域,尤其涉及一种基于文本的文本视觉问答系统及方法。

【背景技术】

通用的视觉问答主要关注于图像中的目标,属性和活动识别的问题。与文本视觉问答有所不同,它询问有关图像中嵌入的文本问题。因此,以前的视觉问答模型的关键点在于目标区域的定位和目标识别,而解决文本视觉问答任务的关键是在于文本识别和机器阅读理解,这是现有的视觉问答模型无法解决文本视觉问答任务的原因之一,这些模型无法有效读取和利用图像中的文本内容。

对于文本视觉问答,最近提出了两个竞赛ST-VQA和TextVQA。ST-VQA的获胜者是VTA方法,它使用BERT编码问题和文本,并使用自下而上和自上而下机制来解码答案。LoRRA是TextVQA比赛的基线,它采用了与视觉问答相同的架构来获取OCR和问题、图像和问题之间的融合特征,并将这两个融合的特征连接起来用分类器来训练。但是,这些方法只是将OCR文本添加到现有的视觉问答模型中作为单独的输入,而没有利用OCR文本之间的关系。最近,Gao et al.提出了一种多模态图神经网络(MM-GNN)来表示图像中的三种模态(即视觉,语义和数字),并提出了三种聚合器来指导各种模态之间的信息流。Hu et al.介绍了一种多模态Transformer模型(M4C),该模型通过自我注意力机制来建立上下文模态间和模态内的关系,从而融合不同的模态。这些方法开始意识到OCR文本之间的重要性,但是它们仍然将OCR文本看作是独立的对象,而不是可以传递更丰富语义信息的有序单词。另外,尽管他们探索了OCR特征和目标视觉特征之间的关系,但是他们忽略了目标属性的自然语义信息。而且,这些方法中的大多数仍将文本视觉问答视为分类任务,而不是语义匹配和推理任务。

因此,有必要研究一种基于文本的文本视觉问答系统及方法来应对现有技术的不足,以解决或减轻上述一个或多个问题。

【发明内容】

有鉴于此,本发明提供了一种基于文本的文本视觉问答系统及方法,能够有效地挖掘出文本的上下文信息,提取出文本与目标之间的稳定关系,添加正确的文本信息,有效的提高其准确率。

一方面,本发明提供一种基于文本的文本视觉问答系统,其特征在于,所述系统包括:

阅读组件,用于提取图片中的文本信息和物体目标信息,并与待回答问题相结合选择出所需要的文本信息和物体目标信息;这里的物体目标信息指的是物体文本,即包括物体名称和物体属性;

理解组件,用于对阅读组件选择出的文本信息、物体目标信息和待回答问题进行理解,并推理出各文本信息和各物体目标信息之间的关系;

和答案选择组件,根据理解组件推理出的关系从候选答案中选择出与待回答问题匹配度最高的答案。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述阅读组件包括:

OCR模型,用于从图片中提取出文本信息;

目标检测模型,用于从图片中提取出物体目标信息;

问答模块,用于从文本信息和物体目标信息中检索出与待回答问题相关的答案信息;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011298327.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top